Artículos de investigación en IA seleccionados diariamente con traducciones
Los conjuntos de datos de preentrenamiento suelen recopilarse de contenido web y carecen de divisiones de dominio inherentes. Por ejemplo, conjuntos de datos ampliamente utilizados como Common Crawl no incluyen etiquetas de dominio explícitas, mientras que la curación manual de conjuntos de datos etiquetados como The Pile es intensiva en mano de obra. En consecuencia, identificar una mezcla óptima de datos para el preentrenamiento sigue siendo un problema desafiante, a pesar de sus beneficios significativos para el rendimiento del preentrenamiento. Para abordar estos desafíos, proponemos CLustering-based Iterative Data Mixture Bootstrapping (CLIMB), un marco automatizado que descubre, evalúa y refina mezclas de datos en un entorno de preentrenamiento. Específicamente, CLIMB incrusta y agrupa conjuntos de datos a gran escala en un espacio semántico y luego busca iterativamente mezclas óptimas utilizando un modelo proxy más pequeño y un predictor. Cuando se entrena continuamente con 400 mil millones de tokens utilizando esta mezcla, nuestro modelo de 1 mil millones supera al estado del arte Llama-3.2-1B en un 2.0%. Además, observamos que la optimización para un dominio específico (por ejemplo, Ciencias Sociales) produce una mejora del 5% sobre el muestreo aleatorio. Finalmente, presentamos ClimbLab, un corpus filtrado de 1.2 billones de tokens con 20 clusters como un espacio de investigación, y ClimbMix, un conjunto de datos compacto pero potente de 400 mil millones de tokens diseñado para un preentrenamiento eficiente que ofrece un rendimiento superior bajo un presupuesto de tokens igual. Analizamos la mezcla final de datos, elucidando las características de una mezcla óptima de datos. Nuestros datos están disponibles en: https://research.nvidia.com/labs/lpr/climb/
Los modelos de frontera que generan trazas de razonamiento extendido producen inadvertidamente secuencias de tokens ricas que pueden facilitar la destilación de modelos. Al reconocer esta vulnerabilidad, los propietarios de modelos pueden buscar estrategias de muestreo que limiten la efectividad de la destilación sin comprometer el rendimiento del modelo. El muestreo antidestilación proporciona precisamente esta capacidad. Al modificar estratégicamente la distribución de probabilidad del siguiente token de un modelo, el muestreo antidestilación envenena las trazas de razonamiento, haciéndolas significativamente menos efectivas para la destilación mientras se preserva la utilidad práctica del modelo. Para más detalles, consulte https://antidistillation.com.
Presentamos una estructura de red neuronal, FramePack, para entrenar modelos de predicción de siguiente fotograma (o sección de fotograma) en la generación de videos. FramePack comprime los fotogramas de entrada para que la longitud de contexto del transformador sea un número fijo, independientemente de la duración del video. Como resultado, podemos procesar un gran número de fotogramas utilizando difusión de video con un cuello de botella computacional similar al de la difusión de imágenes. Esto también permite que los tamaños de los lotes de entrenamiento de video sean significativamente mayores (los tamaños de los lotes se vuelven comparables a los del entrenamiento de difusión de imágenes). Además, proponemos un método de muestreo anti-deriva que genera fotogramas en orden temporal invertido con puntos finales establecidos tempranamente para evitar el sesgo de exposición (acumulación de errores a lo largo de las iteraciones). Finalmente, demostramos que los modelos existentes de difusión de video pueden ajustarse con FramePack, y su calidad visual puede mejorar, ya que la predicción de siguiente fotograma permite el uso de programadores de difusión más equilibrados con pasos de tiempo de cambio de flujo menos extremos.
Los Modelos de Visión-Lenguaje (VLMs) sobresalen en la comprensión visual, pero a menudo sufren de alucinaciones visuales, donde generan descripciones de objetos, acciones o conceptos inexistentes, lo que plantea riesgos significativos en aplicaciones críticas para la seguridad. Los métodos existentes para mitigar las alucinaciones suelen seguir uno de dos paradigmas: ajuste de generación, que modifica el comportamiento de decodificación para alinear el texto con las entradas visuales, y verificación posterior, donde modelos externos evalúan y corrigen las salidas. Aunque efectivos, los métodos de ajuste de generación a menudo dependen de heurísticas y carecen de mecanismos de corrección, mientras que la verificación posterior es complicada, generalmente requiere múltiples modelos y tiende a rechazar las salidas en lugar de refinarlas. En este trabajo, presentamos REVERSE, un marco unificado que integra entrenamiento consciente de alucinaciones con autoverificación en tiempo real. Al aprovechar un nuevo conjunto de datos de verificación de alucinaciones que contiene más de 1.3 millones de muestras semi-sintéticas, junto con una novedosa técnica de remuestreo retrospectivo en tiempo de inferencia, nuestro enfoque permite a los VLMs detectar alucinaciones durante la generación y revisarlas dinámicamente. Nuestras evaluaciones muestran que REVERSE logra una reducción de alucinaciones de vanguardia, superando a los mejores métodos existentes en hasta un 12% en CHAIR-MSCOCO y un 28% en HaloQuest. Nuestro conjunto de datos, modelo y código están disponibles en: https://reverse-vlm.github.io.
Presentamos Perception Encoder (PE), un codificador de última generación para la comprensión de imágenes y videos entrenado mediante un aprendizaje simple de visión y lenguaje. Tradicionalmente, los codificadores de visión han dependido de una variedad de objetivos de preentrenamiento, cada uno adaptado a tareas específicas como clasificación, generación de subtítulos o localización. Sorprendentemente, después de escalar nuestra receta cuidadosamente ajustada de preentrenamiento de imágenes y refinar con nuestro robusto motor de datos de video, descubrimos que el entrenamiento contrastivo de visión y lenguaje por sí solo puede producir incrustaciones fuertes y generales para todas estas tareas posteriores. Solo hay una salvedad: estas incrustaciones están ocultas en las capas intermedias de la red. Para extraerlas, introducimos dos métodos de alineación: alineación de lenguaje para modelado de lenguaje multimodal y alineación espacial para predicción densa. Junto con el punto de control contrastivo central, nuestra familia de modelos PE logra un rendimiento de vanguardia en una amplia variedad de tareas, incluyendo clasificación y recuperación de imágenes y videos en modo zero-shot; preguntas y respuestas sobre documentos, imágenes y videos; y tareas espaciales como detección, estimación de profundidad y seguimiento. Para fomentar más investigaciones, estamos liberando nuestros modelos, código y un nuevo conjunto de datos de videos anotados sintéticamente y por humanos.
La simulación de mundos ha ganado creciente popularidad debido a su capacidad para modelar entornos virtuales y predecir las consecuencias de las acciones. Sin embargo, la ventana de contexto temporal limitada a menudo conduce a fallos en el mantenimiento de la consistencia a largo plazo, particularmente en la preservación de la consistencia espacial 3D. En este trabajo, presentamos WorldMem, un marco que mejora la generación de escenas con un banco de memoria compuesto por unidades de memoria que almacenan marcos de memoria y estados (por ejemplo, poses y marcas de tiempo). Al emplear un mecanismo de atención de memoria que extrae eficazmente información relevante de estos marcos de memoria en función de sus estados, nuestro método es capaz de reconstruir con precisión escenas previamente observadas, incluso bajo brechas significativas de perspectiva o temporal. Además, al incorporar marcas de tiempo en los estados, nuestro marco no solo modela un mundo estático, sino que también captura su evolución dinámica a lo largo del tiempo, permitiendo tanto la percepción como la interacción dentro del mundo simulado. Experimentos extensos en escenarios tanto virtuales como reales validan la efectividad de nuestro enfoque.
Los Modelos de Lenguaje de Gran Escala (LLMs) han crecido rápidamente en tamaño, lo que plantea desafíos significativos para su implementación eficiente en hardware con recursos limitados. En este artículo, presentamos Dynamic-Length Float (DFloat11), un marco de compresión sin pérdidas que reduce el tamaño de los LLMs en un 30% mientras preserva salidas que son idénticas bit a bit al modelo original. DFloat11 está motivado por la baja entropía en la representación de pesos BFloat16 de los LLMs, lo que revela una ineficiencia significativa en los formatos de almacenamiento existentes. Al aplicar codificación de entropía, DFloat11 asigna codificaciones de longitud dinámica a los pesos según su frecuencia, logrando una compresión casi óptima en términos de información sin ninguna pérdida de precisión. Para facilitar una inferencia eficiente con codificaciones de longitud dinámica, desarrollamos un núcleo GPU personalizado para una descompresión rápida en línea. Nuestro diseño incorpora lo siguiente: (i) descomposición de tablas de búsqueda (LUTs) intensivas en memoria en LUTs compactas que caben en la SRAM de la GPU, (ii) un núcleo de dos fases para coordinar las posiciones de lectura/escritura de los hilos utilizando variables auxiliares ligeras, y (iii) descompresión a nivel de bloque de transformador para minimizar la latencia. Los experimentos en modelos recientes, incluyendo Llama-3.1, Qwen-2.5 y Gemma-3, validan nuestra hipótesis de que DFloat11 logra una reducción del tamaño del modelo de alrededor del 30% mientras preserva salidas exactas bit a bit. En comparación con una alternativa potencial de descargar partes de un modelo no comprimido a la CPU para cumplir con las limitaciones de memoria, DFloat11 logra un rendimiento de 1.9 a 38.8 veces mayor en la generación de tokens. Con un presupuesto fijo de memoria GPU, DFloat11 permite longitudes de contexto de 5.3 a 13.17 veces mayores que los modelos no comprimidos. Notablemente, nuestro método permite la inferencia sin pérdidas de Llama-3.1-405B, un modelo de 810GB, en un solo nodo equipado con 8 GPUs de 80GB. Nuestro código y modelos están disponibles en https://github.com/LeanModels/DFloat11.
Si bien la síntesis y destilación de datos son estrategias prometedoras para mejorar los modelos de lenguaje pequeños, los enfoques actuales dependen en gran medida de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), los cuales presentan altos costos computacionales, ineficiencia ambiental y posibles sesgos heredados de arquitecturas monolíticas. En contraste, los LLMs más pequeños son más accesibles y sostenibles, pero sus capacidades individuales a menudo no alcanzan para generar datos de alta calidad, diversos y confiables. Inspirados por procesos colaborativos humanos (por ejemplo, la revisión por pares), proponemos un marco que involucra múltiples LLMs pequeños, denominado GRA, que agrega roles especializados entre estos modelos para lograr un refinamiento iterativo y control de calidad típicamente alcanzado por un único LLM grande. En este marco colaborativo, múltiples LLMs pequeños asumen roles distintos—Generador, Revisor y Arbitrador—para simular un proceso de síntesis de datos inspirado en la revisión por pares. El Generador propone muestras de datos iniciales, el Revisor critica su calidad y diversidad, y el Arbitrador resuelve conflictos para finalizar la salida. Al descomponer el proceso de síntesis en subtareas especializadas, los LLMs pequeños colaborativos pueden alcanzar una paridad a nivel de datos con la destilación basada en LLMs grandes. A través de experimentos en múltiples benchmarks, demostramos que los datos producidos por GRA igualan o superan la calidad de las salidas de un único LLM grande, como Qwen-2.5-72B-Instruct. Nuestros resultados cuestionan la necesidad de modelos monolíticos de gran escala para la síntesis de datos de alta calidad, abogando en su lugar por la coordinación estratégica de agentes más pequeños. Nuestros conjuntos de datos, modelos y código están disponibles públicamente en https://github.com/GX-XinGao/GRA.
Los gráficos son omnipresentes, ya que las personas los utilizan con frecuencia para analizar datos, responder preguntas y descubrir insights críticos. Sin embargo, realizar tareas analíticas complejas con gráficos requiere un esfuerzo perceptivo y cognitivo significativo. Los sistemas de Respuesta a Preguntas sobre Gráficos (CQA, por sus siglas en inglés) automatizan este proceso al permitir que los modelos interpreten y razonen con representaciones visuales de datos. No obstante, los benchmarks existentes, como ChartQA, carecen de diversidad del mundo real y recientemente han mostrado una saturación en el rendimiento con los modelos modernos de visión y lenguaje a gran escala (LVLMs). Para abordar estas limitaciones, presentamos ChartQAPro, un nuevo benchmark que incluye 1,341 gráficos de 157 fuentes diversas, abarcando varios tipos de gráficos, como infografías y paneles, y presentando 1,948 preguntas de diversos tipos, como opción múltiple, conversacionales, hipotéticas y sin respuesta, para reflejar mejor los desafíos del mundo real. Nuestras evaluaciones con 21 modelos muestran una caída sustancial en el rendimiento de los LVLMs en ChartQAPro; por ejemplo, Claude Sonnet 3.5 obtiene un 90.5% en ChartQA, pero solo un 55.81% en ChartQAPro, lo que subraya la complejidad del razonamiento con gráficos. Complementamos nuestros hallazgos con análisis detallados de errores y estudios de ablación, identificando desafíos clave y oportunidades para avanzar en la comprensión y el razonamiento de gráficos con LVLMs. Publicamos ChartQAPro en https://github.com/vis-nlp/ChartQAPro.
Los Modelos de Video a Gran Escala (LVMs, por sus siglas en inglés) basados en Modelos de Lenguaje a Gran Escala (LLMs) han mostrado potencial en la comprensión de videos, pero a menudo presentan problemas de desalineación con la intuición humana y alucinaciones en el video. Para abordar estos desafíos, presentamos VistaDPO, un marco novedoso para la Optimización Directa de Preferencias Espacio-Temporales Jerárquicas en Video. VistaDPO mejora la alineación de preferencias texto-video en tres niveles jerárquicos: i) Nivel de Instancia, alineando el contenido general del video con las respuestas; ii) Nivel Temporal, alineando la semántica temporal del video con las descripciones de eventos; y iii) Nivel Perceptivo, alineando objetos espaciales con tokens de lenguaje. Dada la falta de conjuntos de datos para la alineación fina de preferencias video-lenguaje, construimos VistaDPO-7k, un conjunto de datos de 7.2K pares de preguntas y respuestas anotados con respuestas seleccionadas y rechazadas, junto con información de anclaje espacio-temporal como marcas de tiempo, fotogramas clave y cuadros delimitadores. Experimentos exhaustivos en benchmarks como Alucinación en Video, Preguntas y Respuestas en Video, y tareas de desempeño en Subtitulación demuestran que VistaDPO mejora significativamente el rendimiento de los LVMs existentes, mitigando efectivamente la desalineación y las alucinaciones en video-lenguaje. El código y los datos están disponibles en https://github.com/HaroldChen19/VistaDPO.
El éxito de los modelos de generación de texto a imagen (T2I) ha impulsado una proliferación de numerosos puntos de control de modelos ajustados a partir del mismo modelo base en diversos conjuntos de datos especializados. Esta abrumadora producción de modelos especializados introduce nuevos desafíos relacionados con la redundancia de parámetros y los elevados costos de almacenamiento, lo que hace necesario el desarrollo de métodos efectivos para consolidar y unificar las capacidades de diversos modelos potentes en uno solo. Una práctica común en la fusión de modelos adopta la interpolación lineal estática en el espacio de parámetros para lograr el objetivo de mezcla de estilos. Sin embargo, esta práctica no tiene en cuenta las características de la tarea de generación T2I, donde numerosos modelos distintos abarcan una variedad de estilos que pueden llevar a incompatibilidad y confusión en el modelo fusionado. Para abordar este problema, introducimos una pipeline de generación de imágenes con estilo controlable por prompts, capaz de generar imágenes de cualquier estilo con precisión bajo el control de vectores de estilo. Basándonos en este diseño, proponemos el paradigma de fusión de modelos basado en destilación de puntuaciones (DMM), que comprime múltiples modelos en un único modelo T2I versátil. Además, replanteamos y reformulamos la tarea de fusión de modelos en el contexto de la generación T2I, presentando nuevos objetivos de fusión y protocolos de evaluación. Nuestros experimentos demuestran que DMM puede reorganizar de manera compacta el conocimiento de múltiples modelos maestros y lograr una generación controlable de cualquier estilo.
Los recientes avances en el aprendizaje por refuerzo (RL, por sus siglas en inglés) han fortalecido las capacidades de razonamiento de los modelos de visión y lenguaje (VLMs). Sin embargo, la mejora en la exploración de políticas para escalar de manera más efectiva el cómputo en tiempo de prueba sigue siendo un área poco explorada en los VLMs. Además, estos modelos continúan enfrentando dificultades con la percepción visual imperfecta, lo que a su vez afecta el proceso de razonamiento subsiguiente. Para abordar esto, proponemos NoisyRollout, un enfoque de RL simple pero efectivo que combina trayectorias tanto de imágenes limpias como moderadamente distorsionadas para introducir diversidad dirigida en la percepción visual y los patrones de razonamiento resultantes. Sin costos adicionales de entrenamiento, NoisyRollout mejora las capacidades de exploración de los VLMs al incorporar un sesgo inductivo orientado a la visión. Además, NoisyRollout emplea un programa de reducción de ruido que disminuye gradualmente la intensidad de la distorsión durante el entrenamiento, asegurando beneficios de las señales ruidosas en etapas tempranas mientras mantiene la estabilidad y escalabilidad en fases posteriores. Con solo 2.1K muestras de entrenamiento, NoisyRollout logra un rendimiento de vanguardia entre los modelos ajustados con RL de código abierto en 5 benchmarks fuera de dominio que abarcan tareas de razonamiento y percepción, manteniendo un rendimiento comparable o incluso mejor en el dominio original.
Los modelos de visión-lenguaje son fundamentales para la investigación en visión por computadora, sin embargo, muchos modelos de alto rendimiento permanecen cerrados, ocultando sus datos, diseño y receta de entrenamiento. La comunidad investigadora ha respondido utilizando la destilación de modelos de caja negra para etiquetar datos de entrenamiento, logrando resultados sólidos en benchmarks, a costa de un progreso científico medible. Sin embargo, sin conocer los detalles del modelo maestro y sus fuentes de datos, el progreso científico sigue siendo difícil de medir. En este artículo, estudiamos la construcción de un Modelo de Lenguaje de Percepción (PLM, por sus siglas en inglés) en un marco completamente abierto y reproducible para una investigación transparente en la comprensión de imágenes y videos. Analizamos pipelines de entrenamiento estándar sin destilación de modelos propietarios y exploramos datos sintéticos a gran escala para identificar brechas críticas en los datos, particularmente en la comprensión detallada de videos. Para cerrar estas brechas, publicamos 2.8 millones de instancias etiquetadas manualmente de pares de preguntas-respuestas de video de grano fino y descripciones de videos ancladas espacio-temporalmente. Además, presentamos PLM-VideoBench, un conjunto de herramientas para evaluar tareas desafiantes de comprensión de videos, centrándose en la capacidad de razonar sobre el "qué", "dónde", "cuándo" y "cómo" de un video. Hacemos nuestro trabajo completamente reproducible proporcionando datos, recetas de entrenamiento, código y modelos.
Los enfoques actuales de personalización de sujetos basados en aprendizaje, que dependen predominantemente de arquitecturas U-Net, presentan una capacidad de generalización limitada y una calidad de imagen comprometida. Mientras tanto, los métodos basados en optimización requieren un ajuste específico para cada sujeto, lo que inevitablemente degrada la controlabilidad textual. Para abordar estos desafíos, proponemos InstantCharacter, un marco escalable para la personalización de personajes construido sobre un transformador de difusión base. InstantCharacter demuestra tres ventajas fundamentales: primero, logra personalización en dominios abiertos a través de diversas apariencias, poses y estilos de personajes, manteniendo resultados de alta fidelidad. Segundo, el marco introduce un adaptador escalable con codificadores de transformadores apilados, que procesa eficazmente características de personajes en dominios abiertos e interactúa sin problemas con el espacio latente de los transformadores de difusión modernos. Tercero, para entrenar eficazmente el marco, construimos un conjunto de datos de personajes a gran escala que contiene muestras de nivel de 10 millones. El conjunto de datos está organizado sistemáticamente en subconjuntos emparejados (personajes de múltiples vistas) y no emparejados (combinaciones de texto-imagen). Esta estructura de datos dual permite la optimización simultánea de la consistencia de identidad y la editabilidad textual a través de rutas de aprendizaje distintas. Los experimentos cualitativos demuestran las capacidades avanzadas de InstantCharacter en la generación de imágenes de alta fidelidad, controlables textualmente y consistentes con el personaje, estableciendo un nuevo estándar para la generación de imágenes impulsada por personajes. Nuestro código fuente está disponible en https://github.com/Tencent/InstantCharacter.
El escalado del cómputo en tiempo de prueba ha surgido como un ingrediente clave para permitir que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) resuelvan problemas difíciles, pero conlleva una alta latencia y costos de inferencia. Introducimos el cómputo en tiempo de reposo, que permite a los modelos "pensar" fuera de línea sobre contextos antes de que se presenten las consultas: al anticipar qué consultas podrían hacer los usuarios y precalcular cantidades útiles, podemos reducir significativamente los requisitos de cómputo en tiempo de prueba. Para demostrar la eficacia de nuestro método, creamos versiones modificadas de dos tareas de razonamiento: Stateful GSM-Symbolic y Stateful AIME. Encontramos que el cómputo en tiempo de reposo puede reducir la cantidad de cómputo necesario en tiempo de prueba para alcanzar la misma precisión en ~5x en Stateful GSM-Symbolic y Stateful AIME, y que al escalar el cómputo en tiempo de reposo podemos aumentar aún más la precisión hasta en un 13% en Stateful GSM-Symbolic y un 18% en Stateful AIME. Además, introducimos Multi-Query GSM-Symbolic, que extiende GSM-Symbolic al incluir múltiples consultas relacionadas por contexto. Al amortizar el cómputo en tiempo de reposo entre consultas relacionadas sobre el mismo contexto utilizando Multi-Query GSM-Symbolic, podemos disminuir el costo promedio por consulta en 2.5x. Luego, realizamos un análisis adicional para comprender cuándo el cómputo en tiempo de reposo es más efectivo, encontrando que la previsibilidad de la consulta del usuario está bien correlacionada con la eficacia del cómputo en tiempo de reposo. Finalmente, llevamos a cabo un estudio de caso sobre la aplicación del cómputo en tiempo de reposo a una tarea realista de ingeniería de software agente (SWE, por sus siglas en inglés).
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un potencial enorme como agentes, destacándose en tareas que requieren múltiples rondas de razonamiento e interacciones. El Ajuste Fino por Muestreo de Rechazo (RFT, por sus siglas en inglés) ha surgido como un método efectivo para ajustar LLMs como agentes: primero imita trayectorias exitosas generadas por expertos y luego mejora las habilidades agentivas mediante ajustes iterativos en trayectorias exitosas generadas por el propio modelo. Sin embargo, dado que el experto (por ejemplo, GPT-4) tiene éxito principalmente en subtareas más simples y el RFT favorece inherentemente escenarios menos complejos, muchas subtareas complejas permanecen sin resolver y persistentemente fuera de distribución (OOD, por sus siglas en inglés). Al investigar estas subtareas desafiantes, descubrimos que las trayectorias fallidas previas del experto a menudo pueden proporcionar orientación valiosa, como planes y acciones clave, que pueden mejorar significativamente la eficiencia de exploración del agente y la adquisición de habilidades críticas. Motivados por estas observaciones, proponemos Exploración de Fallos de Expertos (EEF, por sus siglas en inglés), que identifica acciones beneficiosas de trayectorias fallidas del experto y las integra en el conjunto de datos de entrenamiento. Las acciones potencialmente perjudiciales se excluyen meticulosamente para evitar la contaminación del proceso de aprendizaje del modelo. Al aprovechar las acciones beneficiosas en los fallos del experto, EEF resuelve con éxito algunas subtareas previamente irresolubles y mejora el rendimiento del ajuste del agente. Notablemente, nuestro enfoque logró una tasa de éxito del 62% en WebShop, superando al RFT (53.6%) y a GPT-4 (35.6%), y, según nuestro conocimiento, estableciendo un nuevo estado del arte como el primer método en superar una puntuación de 0.81 en WebShop y exceder 81 en SciWorld.
La constancia de color computacional, o balance de blancos, es un módulo clave en el procesador de señal de imagen (ISP) de una cámara que corrige los tonos de color causados por la iluminación de la escena. Dado que esta operación ocurre en el espacio de color RAW específico de la cámara, los algoritmos de balance de blancos deben adaptarse a diferentes cámaras. Este artículo presenta un método basado en aprendizaje para la constancia de color entre cámaras que generaliza a nuevas cámaras sin necesidad de reentrenamiento. Nuestro método aprovecha las matrices de corrección de color (CCM) precalibradas disponibles en los ISP, que mapean el espacio de color RAW de la cámara a un espacio estándar (por ejemplo, CIE XYZ). Utilizamos estas CCM para transformar colores de iluminación predefinidos (es decir, a lo largo del locus de Planck) al espacio RAW de la cámara de prueba. Los iluminantes mapeados se codifican en una huella digital compacta de la cámara (CFE) que permite a la red adaptarse a cámaras no vistas. Para evitar el sobreajuste debido al número limitado de cámaras y CCM durante el entrenamiento, introducimos una técnica de aumento de datos que interpola entre cámaras y sus CCM. Los resultados experimentales en múltiples conjuntos de datos y arquitecturas muestran que nuestro método alcanza un rendimiento de vanguardia en constancia de color entre cámaras, manteniéndose ligero y dependiendo únicamente de datos fácilmente disponibles en los ISP de las cámaras.
La Descripción de Audio (AD) para películas tiene como objetivo narrar el contenido visual durante los segmentos sin diálogo, beneficiando especialmente a las audiencias ciegas o con discapacidad visual (BVI). En comparación con el subtitulado general de videos, la AD requiere una narración relevante para la trama con referencias explícitas a los nombres de los personajes, lo que plantea desafíos únicos en la comprensión de películas. Para identificar a los personajes principales activos y centrarse en las regiones relevantes para la historia, proponemos FocusedAD, un marco novedoso que ofrece descripciones de audio centradas en los personajes. Este incluye: (i) un Módulo de Percepción de Personajes (CPM) para rastrear las regiones de los personajes y vincularlas a sus nombres; (ii) un Módulo de Prioridad Dinámica (DPM) que inyecta señales contextuales de ADs previas y subtítulos mediante indicaciones suaves aprendibles; y (iii) un Módulo de Subtitulado Enfocado (FCM) que genera narraciones enriquecidas con detalles relevantes para la trama y personajes nombrados. Para superar las limitaciones en la identificación de personajes, también introducimos una pipeline automatizada para construir bancos de consultas de personajes. FocusedAD logra un rendimiento de vanguardia en múltiples benchmarks, incluyendo resultados sólidos en modo zero-shot en MAD-eval-Named y en nuestro nuevo conjunto de datos propuesto, Cinepile-AD. El código y los datos se publicarán en https://github.com/Thorin215/FocusedAD.
Presentamos Complex-Edit, un benchmark integral diseñado para evaluar sistemáticamente modelos de edición de imágenes basados en instrucciones a través de instrucciones de complejidad variable. Para desarrollar este benchmark, utilizamos GPT-4o para recopilar automáticamente un conjunto diverso de instrucciones de edición a gran escala. Nuestro enfoque sigue una canalización bien estructurada de "Cadena-de-Edición": primero generamos tareas de edición atómicas de forma independiente y luego las integramos para formar instrucciones complejas y cohesionadas. Además, introducimos un conjunto de métricas para evaluar diversos aspectos del rendimiento en la edición, junto con una canalización de auto-evaluación basada en VLM que permite evaluaciones a gran escala. Nuestro benchmark revela varias observaciones destacables: 1) Los modelos de código abierto tienen un rendimiento significativamente inferior en comparación con los modelos propietarios y cerrados, y esta brecha de rendimiento se amplía a medida que aumenta la complejidad de las instrucciones; 2) El aumento en la complejidad de las instrucciones afecta principalmente la capacidad de los modelos para retener elementos clave de las imágenes de entrada y preservar la calidad estética general; 3) Descomponer una instrucción compleja en una secuencia de pasos atómicos, ejecutados de manera paso a paso, degrada sustancialmente el rendimiento en múltiples métricas; 4) Una estrategia sencilla de selección Best-of-N mejora los resultados tanto para la edición directa como para el enfoque secuencial paso a paso; y 5) Observamos una "maldición de los datos sintéticos": cuando los datos sintéticos están involucrados en el entrenamiento del modelo, las imágenes editadas por tales modelos tienden a parecer cada vez más sintéticas a medida que aumenta la complejidad de las instrucciones de edición, un fenómeno que curiosamente también se manifiesta en las salidas más recientes de GPT-4o.
Los agentes de modelos de lenguaje de gran escala (LLM) están empleando cada vez más la generación aumentada por recuperación (RAG) para mejorar la factualidad de sus respuestas. Sin embargo, en la práctica, estos sistemas a menudo necesitan manejar consultas ambiguas de los usuarios e información potencialmente conflictiva de múltiples fuentes, al mismo tiempo que suprimen información inexacta proveniente de documentos ruidosos o irrelevantes. Trabajos previos generalmente han estudiado y abordado estos desafíos de manera aislada, considerando solo un aspecto a la vez, como manejar la ambigüedad o la robustez frente al ruido y la desinformación. En cambio, consideramos múltiples factores simultáneamente, proponiendo (i) RAMDocs (Recuperación con Ambigüedad y Desinformación en Documentos), un nuevo conjunto de datos que simula escenarios complejos y realistas de evidencia conflictiva para una consulta de usuario, incluyendo ambigüedad, desinformación y ruido; y (ii) MADAM-RAG, un enfoque multiagente en el que los agentes LLM debaten sobre los méritos de una respuesta a lo largo de múltiples rondas, permitiendo que un agregador compile respuestas correspondientes a entidades desambiguadas mientras descarta la desinformación y el ruido, manejando así diversas fuentes de conflicto de manera conjunta. Demostramos la efectividad de MADAM-RAG utilizando tanto modelos cerrados como de código abierto en AmbigDocs —que requiere presentar todas las respuestas válidas para consultas ambiguas—, superando a fuertes líneas base de RAG en hasta un 11.40%, y en FaithEval —que requiere suprimir la desinformación—, donde mejoramos en hasta un 15.80% (absoluto) con Llama3.3-70B-Instruct. Además, encontramos que RAMDocs representa un desafío para las líneas base de RAG existentes (Llama3.3-70B-Instruct solo obtiene un puntaje de coincidencia exacta de 32.60). Si bien MADAM-RAG comienza a abordar estos factores conflictivos, nuestro análisis indica que aún existe una brecha considerable, especialmente al aumentar el nivel de desequilibrio en la evidencia de apoyo y la desinformación.
Garantizar el despliegue ético de los modelos de texto a imagen requiere técnicas efectivas para prevenir la generación de contenido dañino o inapropiado. Si bien los métodos de borrado de conceptos ofrecen una solución prometedora, los enfoques existentes basados en ajuste fino presentan limitaciones notables. Los métodos sin anclaje corren el riesgo de alterar las trayectorias de muestreo, lo que genera artefactos visuales, mientras que los métodos basados en anclaje dependen de la selección heurística de conceptos ancla. Para superar estas deficiencias, presentamos un marco de ajuste fino, denominado ANT, que guía Automáticamente las Trayectorias de Desruido (Automatically guides deNoising Trajectories) para evitar conceptos no deseados. ANT se basa en una idea clave: invertir la dirección de la condición de la guía sin clasificador durante las etapas intermedias y finales del desruido permite una modificación precisa del contenido sin sacrificar la integridad estructural en las etapas iniciales. Esto inspira un objetivo consciente de la trayectoria que preserva la integridad del campo de la función de puntuación en las etapas iniciales, que dirige las muestras hacia la variedad de imágenes naturales, sin depender de la selección heurística de conceptos ancla. Para el borrado de un solo concepto, proponemos un mapa de prominencia de pesos mejorado con aumentos para identificar con precisión los parámetros críticos que contribuyen más significativamente al concepto no deseado, permitiendo un borrado más completo y eficiente. Para el borrado de múltiples conceptos, nuestra función objetivo ofrece una solución versátil de tipo plug-and-play que mejora significativamente el rendimiento. Experimentos exhaustivos demuestran que ANT logra resultados de vanguardia tanto en el borrado de un solo concepto como en el de múltiples conceptos, produciendo salidas seguras y de alta calidad sin comprometer la fidelidad generativa. El código está disponible en https://github.com/lileyang1210/ANT.
Los modelos de lenguaje más recientes y de menor tamaño, como Phi-3.5 y Phi-4, dependen de datos sintéticos generados utilizando modelos de lenguaje más grandes. Aún persisten preguntas sobre cómo aprovechar los datos sintéticos para otros casos de uso, como la adaptación de LLMs a dominios específicos. Una limitación clave de los datos sintéticos es su baja diversidad, lo que afecta negativamente su aplicabilidad descendente para mejorar otros modelos. Para abordar esto, proponemos MetaSynth, un método para generar datos sintéticos que mejora la diversidad mediante meta-prompting, donde un modelo de lenguaje orquesta múltiples agentes LLM "expertos" para generar datos de manera colaborativa. Utilizando solo 25 millones de tokens de datos sintéticos generados con MetaSynth, logramos adaptar un LLM bien entrenado (Mistral-7B-v0.3) a dos dominios especializados: Finanzas y Biomedicina, sin comprometer las capacidades del modelo resultante en tareas generales. Además, evaluamos la diversidad de nuestros datos sintéticos utilizando siete métricas automatizadas y encontramos que se acerca a la diversidad de los corpus de pre-entrenamiento de LLM. El pre-entrenamiento continuo de Mistral-7B-v0.3 con MetaSynth supera notablemente al LLM base, mostrando mejoras de hasta un 4.08% en Finanzas y un 13.75% en Biomedicina. El mismo modelo muestra un rendimiento degradado cuando se entrena con datos generados utilizando un prompt de plantilla, incluso cuando la plantilla incluye generaciones previas y ejemplos variados de datos reales en contexto. Nuestros hallazgos sugieren que unos pocos millones de tokens de datos sintéticos diversos, sin mezclar ningún dato real, son suficientes para una adaptación efectiva de dominio cuando se utiliza MetaSynth.
Las arquitecturas de flujo único que utilizan backbones de Vision Transformer (ViT) muestran un gran potencial para el seguimiento de UAVs en tiempo real recientemente. Sin embargo, las frecuentes oclusiones causadas por obstáculos como edificios y árboles exponen una desventaja importante: estos modelos a menudo carecen de estrategias para manejar las oclusiones de manera efectiva. Se necesitan nuevos métodos para mejorar la resiliencia a oclusiones de los modelos ViT de flujo único en el seguimiento aéreo. En este trabajo, proponemos aprender Representaciones Robustas a Oclusiones (ORR) basadas en ViTs para el seguimiento de UAVs, aplicando una invariancia en la representación de características de un objetivo con respecto a operaciones de enmascaramiento aleatorio modeladas por un proceso espacial de Cox. Se espera que este enmascaramiento aleatorio simule aproximadamente las oclusiones del objetivo, permitiéndonos así aprender ViTs robustas a las oclusiones para el seguimiento de UAVs. Este marco se denomina ORTrack. Además, para facilitar aplicaciones en tiempo real, proponemos un método de Distilación de Conocimiento Basada en Características Adaptativas (AFKD) para crear un rastreador más compacto, que imita de manera adaptativa el comportamiento del modelo maestro ORTrack según la dificultad de la tarea. Este modelo estudiante, denominado ORTrack-D, conserva gran parte del rendimiento de ORTrack mientras ofrece una mayor eficiencia. Experimentos exhaustivos en múltiples benchmarks validan la efectividad de nuestro método, demostrando su rendimiento de vanguardia. Los códigos están disponibles en https://github.com/wuyou3474/ORTrack.