Artículos de investigación en IA seleccionados diariamente con traducciones
Las capas de normalización son omnipresentes en las redes neuronales modernas y durante mucho tiempo se han considerado esenciales. Este trabajo demuestra que los Transformers sin normalización pueden lograr el mismo o mejor rendimiento utilizando una técnica notablemente simple. Introducimos Dynamic Tanh (DyT), una operación elemento por elemento DyT(x) = tanh(alpha x), como un reemplazo directo de las capas de normalización en Transformers. DyT se inspira en la observación de que la normalización de capas en Transformers a menudo produce mapeos entrada-salida en forma de S, similares a tanh. Al incorporar DyT, los Transformers sin normalización pueden igualar o superar el rendimiento de sus contrapartes normalizadas, en su mayoría sin ajuste de hiperparámetros. Validamos la efectividad de los Transformers con DyT en diversos entornos, que van desde reconocimiento hasta generación, aprendizaje supervisado hasta auto-supervisado, y modelos de visión por computadora hasta modelos de lenguaje. Estos hallazgos desafían la comprensión convencional de que las capas de normalización son indispensables en las redes neuronales modernas, y ofrecen nuevas perspectivas sobre su papel en las redes profundas.
Dado que ahora existen millones de redes neuronales disponibles públicamente, la búsqueda y el análisis de grandes repositorios de modelos se vuelve cada vez más importante. Navegar por tantos modelos requiere un atlas, pero como la mayoría de los modelos están mal documentados, trazar dicho atlas es un desafío. Para explorar el potencial oculto de los repositorios de modelos, trazamos un atlas preliminar que representa la fracción documentada de Hugging Face. Este atlas ofrece visualizaciones impresionantes del panorama y la evolución de los modelos. Demostramos varias aplicaciones de este atlas, incluyendo la predicción de atributos de los modelos (por ejemplo, precisión) y el análisis de tendencias en modelos de visión por computadora. Sin embargo, dado que el atlas actual sigue siendo incompleto, proponemos un método para trazar regiones no documentadas. Específicamente, identificamos priores estructurales de alta confianza basados en las prácticas dominantes de entrenamiento de modelos en el mundo real. Al aprovechar estos priores, nuestro enfoque permite mapear con precisión áreas previamente no documentadas del atlas. Publicamos nuestros conjuntos de datos, código y atlas interactivo.
Los modelos de texto a imagen como Stable Diffusion y DALLE-3 aún enfrentan dificultades en la edición de imágenes de múltiples pasos. Descomponemos esta tarea como un flujo de trabajo agencial (ruta) de uso de herramientas que aborda una secuencia de subtareas mediante herramientas de IA de costos variables. Los algoritmos de búsqueda convencionales requieren una exploración costosa para encontrar rutas de herramientas. Si bien los modelos de lenguaje grandes (LLMs) poseen conocimiento previo sobre la planificación de subtareas, pueden carecer de estimaciones precisas de las capacidades y costos de las herramientas para determinar cuál aplicar en cada subtarea. ¿Podemos combinar las fortalezas de los LLMs y la búsqueda en grafos para encontrar rutas de herramientas eficientes en costos? Proponemos un enfoque de tres etapas llamado "CoSTA*" que aprovecha los LLMs para crear un árbol de subtareas, lo cual ayuda a podar un grafo de herramientas de IA para la tarea dada, y luego realiza una búsqueda A* en el subgrafo pequeño para encontrar una ruta de herramientas. Para equilibrar mejor el costo total y la calidad, CoSTA* combina ambas métricas de cada herramienta en cada subtarea para guiar la búsqueda A*. La salida de cada subtarea es evaluada por un modelo de visión-lenguaje (VLM), donde un fallo desencadena una actualización del costo y la calidad de la herramienta en la subtarea. Así, la búsqueda A* puede recuperarse rápidamente de los fallos para explorar otras rutas. Además, CoSTA* puede cambiar automáticamente entre modalidades en las subtareas para lograr un mejor equilibrio entre costo y calidad. Construimos un nuevo benchmark de edición de imágenes de múltiples pasos desafiante, en el cual CoSTA* supera a los modelos o agentes de edición de imágenes más avanzados en términos de costo y calidad, y realiza equilibrios versátiles según la preferencia del usuario.
Los recientes avances en los grandes modelos de visión y lenguaje (LVLMs, por sus siglas en inglés) han mostrado potencial para la planificación de tareas en entornos físicos, aunque aún enfrentan desafíos fundamentales como las restricciones de dependencia y la eficiencia. Los enfoques existentes se centran únicamente en optimizar la selección de acciones o aprovechan modelos del mundo durante la inferencia, pasando por alto los beneficios de aprender a modelar el mundo como una forma de mejorar las capacidades de planificación. Proponemos la Optimización Dual de Preferencias (D^2PO), un nuevo marco de aprendizaje que optimiza conjuntamente la predicción de estados y la selección de acciones mediante el aprendizaje de preferencias, permitiendo que los LVLMs comprendan la dinámica del entorno para una mejor planificación. Para recopilar automáticamente trayectorias y datos de preferencias paso a paso sin anotación humana, introducimos un mecanismo de búsqueda en árbol que permite una exploración extensiva mediante prueba y error. Experimentos exhaustivos en VoTa-Bench demuestran que nuestro método basado en D^2PO supera significativamente a los métodos existentes y a GPT-4o cuando se aplica a Qwen2-VL (7B), LLaVA-1.6 (7B) y LLaMA-3.2 (11B), logrando tasas de éxito en tareas superiores con rutas de ejecución más eficientes.
Los métodos actuales de generación y edición de imágenes procesan principalmente indicaciones textuales como entradas directas sin razonar sobre la composición visual ni las operaciones explícitas. Presentamos Generation Chain-of-Thought (GoT), un paradigma novedoso que permite la generación y edición a través de un proceso de razonamiento lingüístico explícito antes de producir imágenes. Este enfoque transforma la generación y edición convencional de texto a imagen en un marco guiado por razonamiento que analiza relaciones semánticas y arreglos espaciales. Definimos la formulación de GoT y construimos conjuntos de datos a gran escala de GoT que contienen más de 9M de muestras con cadenas de razonamiento detalladas que capturan relaciones semántico-espaciales. Para aprovechar las ventajas de GoT, implementamos un marco unificado que integra Qwen2.5-VL para la generación de cadenas de razonamiento con un modelo de difusión de extremo a extremo mejorado por nuestro nuevo Módulo de Guía Semántico-Espacial. Los experimentos muestran que nuestro marco GoT logra un rendimiento excelente en tareas de generación y edición, con mejoras significativas respecto a los baselines. Además, nuestro enfoque permite la generación visual interactiva, permitiendo a los usuarios modificar explícitamente los pasos de razonamiento para ajustes precisos de la imagen. GoT inaugura una nueva dirección para la generación y edición visual impulsada por razonamiento, produciendo imágenes que se alinean mejor con la intención humana. Para facilitar investigaciones futuras, ponemos a disposición pública nuestros conjuntos de datos, código y modelos preentrenados en https://github.com/rongyaofang/GoT.
Este artículo presenta SANA-Sprint, un modelo de difusión eficiente para la generación ultrarrápida de imágenes a partir de texto (T2I). SANA-Sprint se basa en un modelo base preentrenado y se mejora con destilación híbrida, reduciendo drásticamente los pasos de inferencia de 20 a 1-4. Introducimos tres innovaciones clave: (1) Proponemos un enfoque sin entrenamiento que transforma un modelo preentrenado de emparejamiento de flujos para destilación de consistencia en tiempo continuo (sCM), eliminando el costoso entrenamiento desde cero y logrando una alta eficiencia en el entrenamiento. Nuestra estrategia de destilación híbrida combina sCM con destilación adversaria latente (LADD): sCM asegura la alineación con el modelo maestro, mientras que LADD mejora la fidelidad en la generación de un solo paso. (2) SANA-Sprint es un modelo unificado adaptable a pasos que logra una generación de alta calidad en 1-4 pasos, eliminando el entrenamiento específico por paso y mejorando la eficiencia. (3) Integramos ControlNet con SANA-Sprint para la generación interactiva de imágenes en tiempo real, permitiendo una retroalimentación visual instantánea para la interacción del usuario. SANA-Sprint establece una nueva frontera de Pareto en el equilibrio entre velocidad y calidad, logrando un rendimiento de vanguardia con 7.59 FID y 0.74 GenEval en solo 1 paso, superando a FLUX-schnell (7.94 FID / 0.71 GenEval) mientras es 10 veces más rápido (0.1s vs 1.1s en H100). También alcanza latencias de 0.1s (T2I) y 0.25s (ControlNet) para imágenes de 1024 x 1024 en H100, y 0.31s (T2I) en una RTX 4090, demostrando su excepcional eficiencia y potencial para aplicaciones de consumo impulsadas por IA (AIPC). El código y los modelos preentrenados se publicarán como código abierto.
Presentamos VisualPRM, un avanzado Modelo de Recompensa de Procesos (PRM) multimodal con 8B parámetros, que mejora las capacidades de razonamiento de los Modelos de Lenguaje Multimodales (MLLMs) existentes en diferentes escalas y familias de modelos mediante estrategias de evaluación Best-of-N (BoN). Específicamente, nuestro modelo mejora el rendimiento de razonamiento de tres tipos de MLLMs y cuatro escalas de modelos diferentes. Incluso cuando se aplica al altamente competente InternVL2.5-78B, logra una mejora de 5.9 puntos en siete benchmarks de razonamiento multimodal. Los resultados experimentales muestran que nuestro modelo exhibe un rendimiento superior en comparación con los Modelos de Recompensa de Resultados y la Autoconsistencia durante la evaluación BoN. Para facilitar el entrenamiento de PRMs multimodales, construimos un conjunto de datos de supervisión de procesos multimodales, VisualPRM400K, utilizando una canalización de datos automatizada. Para la evaluación de PRMs multimodales, proponemos VisualProcessBench, un benchmark con etiquetas de corrección paso a paso anotadas por humanos, para medir las capacidades de los PRMs para detectar pasos erróneos en tareas de razonamiento multimodal. Esperamos que nuestro trabajo inspire más investigaciones futuras y contribuya al desarrollo de los MLLMs. Nuestro modelo, datos y benchmark están disponibles en https://internvl.github.io/blog/2025-03-13-VisualPRM/.
Los modelos de difusión de texto a imagen han logrado un éxito notable en la generación de contenidos de alta calidad a partir de indicaciones de texto. Sin embargo, su dependencia de datos disponibles públicamente y la creciente tendencia de compartir datos para ajustes finos hacen que estos modelos sean particularmente vulnerables a ataques de envenenamiento de datos. En este trabajo, presentamos el Ataque de Marcado Silencioso, un método novedoso de envenenamiento de datos que manipula modelos de difusión de texto a imagen para generar imágenes que contienen logotipos o símbolos de marcas específicas sin necesidad de desencadenantes de texto. Descubrimos que cuando ciertos patrones visuales se repiten en los datos de entrenamiento, el modelo aprende a reproducirlos naturalmente en sus salidas, incluso sin menciones en las indicaciones. Aprovechando esto, desarrollamos un algoritmo automatizado de envenenamiento de datos que inyecta logotipos de manera discreta en imágenes originales, asegurando que se integren naturalmente y pasen desapercibidos. Los modelos entrenados con este conjunto de datos envenenado generan imágenes que contienen logotipos sin degradar la calidad de la imagen o la alineación del texto. Validamos experimentalmente nuestro ataque de marcado silencioso en dos escenarios realistas utilizando conjuntos de datos de imágenes de alta calidad a gran escala y conjuntos de datos de personalización de estilo, logrando altas tasas de éxito incluso sin un desencadenante de texto específico. La evaluación humana y las métricas cuantitativas, incluida la detección de logotipos, muestran que nuestro método puede incrustar logotipos de manera sigilosa.
Hacer que los modelos generativos de texto a imagen (T2I) muestreen tanto rápido como bien representa una dirección de investigación prometedora. Estudios previos generalmente se han centrado en mejorar la calidad visual de las imágenes sintetizadas a expensas de la eficiencia de muestreo o en acelerar drásticamente el muestreo sin mejorar la capacidad generativa del modelo base. Además, casi todos los métodos de inferencia no han logrado garantizar un rendimiento estable simultáneamente en modelos de difusión (DMs) y modelos autoregresivos visuales (ARMs). En este artículo, introducimos un nuevo paradigma de inferencia plug-and-play, CoRe^2, que comprende tres subprocesos: Collect, Reflect y Refine. CoRe^2 primero recopila trayectorias de guía sin clasificador (CFG), y luego utiliza los datos recopilados para entrenar un modelo débil que refleja los contenidos fáciles de aprender mientras reduce a la mitad el número de evaluaciones de funciones durante la inferencia. Posteriormente, CoRe^2 emplea guía de débil a fuerte para refinar la salida condicional, mejorando así la capacidad del modelo para generar contenido de alta frecuencia y realista, que es difícil de capturar para el modelo base. Hasta donde sabemos, CoRe^2 es el primero en demostrar tanto eficiencia como efectividad en una amplia gama de DMs, incluyendo SDXL, SD3.5 y FLUX, así como ARMs como LlamaGen. Ha mostrado mejoras significativas de rendimiento en HPD v2, Pick-of-Pic, Drawbench, GenEval y T2I-Compbench. Además, CoRe^2 puede integrarse sin problemas con el estado del arte Z-Sampling, superándolo en 0.3 y 0.16 en PickScore y AES, mientras logra un ahorro de tiempo de 5.64s usando SD3.5. El código se ha publicado en https://github.com/xie-lab-ml/CoRe/tree/main.
Aprender campos de lenguaje 4D para habilitar consultas lingüísticas sensibles al tiempo y de vocabulario abierto en escenas dinámicas es esencial para muchas aplicaciones del mundo real. Si bien LangSplat logra anclar características de CLIP en representaciones de Gaussianas 3D, alcanzando precisión y eficiencia en escenas estáticas 3D, carece de la capacidad para manejar campos dinámicos 4D, ya que CLIP, diseñado para tareas estáticas de imagen-texto, no puede capturar dinámicas temporales en videos. Los entornos del mundo real son inherentemente dinámicos, con semánticas de objetos que evolucionan con el tiempo. Construir un campo de lenguaje 4D preciso requiere obtener características de video alineadas a nivel de píxel y específicas por objeto, algo que los modelos de visión actuales tienen dificultades para lograr. Para abordar estos desafíos, proponemos 4D LangSplat, que aprende campos de lenguaje 4D para manejar consultas de vocabulario abierto agnósticas al tiempo o sensibles al tiempo en escenas dinámicas de manera eficiente. 4D LangSplat evita aprender el campo de lenguaje a partir de características visuales y, en su lugar, aprende directamente del texto generado a partir de descripciones de video específicas por objeto mediante Modelos de Lenguaje Multimodales de Gran Escala (MLLMs). Específicamente, proponemos un método de prompting de video específico por objeto y multimodal, que consiste en prompts visuales y de texto que guían a los MLLMs para generar descripciones detalladas, temporalmente consistentes y de alta calidad para objetos a lo largo de un video. Estas descripciones se codifican utilizando un Modelo de Lenguaje de Gran Escala en embeddings de oraciones de alta calidad, que luego sirven como supervisión de características específicas por objeto y alineadas a nivel de píxel, facilitando consultas de texto de vocabulario abierto a través de espacios de embedding compartidos. Reconociendo que los objetos en escenas 4D exhiben transiciones suaves entre estados, proponemos además una red deformable de estado para modelar estos cambios continuos en el tiempo de manera efectiva. Nuestros resultados en múltiples benchmarks demuestran que 4D LangSplat alcanza resultados precisos y eficientes tanto para consultas de vocabulario abierto sensibles al tiempo como agnósticas al tiempo.
Este artículo presenta nuestro trabajo sobre la serie Light-R1, con modelos, datos y código liberados públicamente. Primero, nos enfocamos en entrenar modelos de razonamiento en cadena (COT) largos desde cero, específicamente partiendo de modelos que inicialmente carecían de capacidades de COT largas. Utilizando una receta de entrenamiento curricular que consiste en ajuste fino supervisado (SFT) en dos etapas y optimización de preferencias semi-on-policy (DPO), entrenamos nuestro modelo Light-R1-32B a partir de Qwen2.5-32B-Instruct, logrando un rendimiento matemático superior en comparación con DeepSeek-R1-Distill-Qwen-32B. A pesar de haber sido entrenado exclusivamente con datos matemáticos, Light-R1-32B muestra una fuerte generalización en otros dominios. En la fase posterior de este trabajo, destacamos el beneficio significativo del conjunto de datos de 3k construido para la segunda etapa de SFT en la mejora de otros modelos. Al ajustar los modelos DeepSeek-R1-Distilled utilizando este conjunto de datos, obtenemos nuevos modelos de última generación (SOTA) en 7B y 14B, mientras que el modelo de 32B, Light-R1-32B-DS, tuvo un rendimiento comparable a QwQ-32B y DeepSeek-R1. Además, extendemos nuestro trabajo aplicando aprendizaje por refuerzo, específicamente GRPO, en modelos de COT largos para mejorar aún más el rendimiento en razonamiento. Entrenamos con éxito nuestro modelo final Light-R1-14B-DS con aprendizaje por refuerzo, logrando un rendimiento SOTA entre los modelos de 14B parámetros en matemáticas. Con puntajes AIME24 y AIME25 de 74.0 y 60.2 respectivamente, Light-R1-14B-DS supera incluso a muchos modelos de 32B y a DeepSeek-R1-Distill-Llama-70B. Su entrenamiento con aprendizaje por refuerzo también exhibe un comportamiento esperado, mostrando un aumento simultáneo en la longitud de las respuestas y la puntuación de recompensa. La serie Light-R1 valida el entrenamiento de modelos de COT largos desde cero, muestra el arte en los datos de SFT y libera modelos SOTA obtenidos mediante aprendizaje por refuerzo.
Los modelos generativos basados en difusión han revolucionado la edición de imágenes orientada a objetos, pero su implementación en la eliminación e inserción realista de objetos sigue enfrentando desafíos, como la compleja interacción de efectos físicos y la insuficiencia de datos de entrenamiento emparejados. En este trabajo, presentamos OmniPaint, un marco unificado que reconceptualiza la eliminación e inserción de objetos como procesos interdependientes en lugar de tareas aisladas. Al aprovechar un modelo de difusión preentrenado junto con una canalización de entrenamiento progresivo que incluye la optimización inicial de muestras emparejadas y un refinamiento posterior a gran escala mediante CycleFlow, OmniPaint logra una eliminación precisa del primer plano y una inserción de objetos sin costuras, preservando fielmente la geometría de la escena y las propiedades intrínsecas. Además, nuestra nueva métrica CFD ofrece una evaluación robusta y sin referencia de la consistencia contextual y la alucinación de objetos, estableciendo un nuevo estándar para la edición de imágenes de alta fidelidad. Página del proyecto: https://yeates.github.io/OmniPaint-Page/
Los modelos de visión y lenguaje han logrado avances significativos en muchas tareas centradas en la percepción; sin embargo, su progreso en tareas enfocadas en el razonamiento parece estar limitado debido a la falta de datos de entrenamiento diversos y de alta calidad. En este trabajo, buscamos abordar la escasez de conjuntos de datos multimodales centrados en el razonamiento. Proponemos VisualWebInstruct, un enfoque novedoso que aprovecha los motores de búsqueda para crear un conjunto de datos diverso y de alta calidad que abarca múltiples disciplinas como matemáticas, física, finanzas, química, etc. Comenzando con 30,000 imágenes semilla cuidadosamente seleccionadas, utilizamos la búsqueda de imágenes de Google para identificar sitios web que contienen imágenes similares. Recopilamos y procesamos los HTMLs de más de 700K fuentes de URL únicas. A través de una canalización de extracción de contenido, filtrado y síntesis, construimos un conjunto de datos de aproximadamente 900K pares de preguntas y respuestas, donde el 40% son pares de preguntas y respuestas visuales y el resto son pares de preguntas y respuestas de texto. Los modelos ajustados en VisualWebInstruct demuestran ganancias significativas en el rendimiento: (1) el entrenamiento a partir de Llava-OV-mid muestra mejoras de 10-20 puntos porcentuales absolutos en varios puntos de referencia, (2) el entrenamiento a partir de MAmmoTH-VL muestra una mejora absoluta del 5%. Nuestro mejor modelo, MAmmoTH-VL2, muestra un rendimiento de vanguardia dentro de la clase de 10B parámetros en MMMU-Pro-std (40.7%), MathVerse (42.6%) y DynaMath (55.7%). Estos resultados notables resaltan la efectividad de nuestro conjunto de datos para mejorar las capacidades de razonamiento de los modelos de visión y lenguaje en tareas multimodales complejas.
Los recientes avances en los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés), particularmente aquellos que aprovechan el razonamiento en Cadena de Pensamiento (CoT), han abierto nuevas posibilidades para la Traducción Automática (MT). Este documento de posición argumenta que los LRMs han transformado sustancialmente tanto los paradigmas tradicionales de MT neuronal como los basados en Modelos de Lenguaje de Gran Escala (LLMs), al replantear la traducción como una tarea de razonamiento dinámico que requiere comprensión y razonamiento contextual, cultural y lingüístico. Identificamos tres cambios fundamentales: 1) coherencia contextual, donde los LRMs resuelven ambigüedades y preservan la estructura del discurso mediante un razonamiento explícito sobre contextos complejos o incluso la falta de contexto; 2) intencionalidad cultural, permitiendo que los modelos adapten sus salidas al inferir la intención del hablante, las expectativas de la audiencia y las normas sociolingüísticas; 3) autorreflexión, donde los LRMs pueden realizar una autorreflexión durante el tiempo de inferencia para corregir errores potenciales en la traducción, especialmente en casos extremadamente ruidosos, mostrando una mayor robustez en comparación con la simple traducción de mapeo X->Y. Exploramos varios escenarios de traducción, incluyendo la traducción estilizada, la traducción a nivel de documento y la traducción multimodal, mostrando ejemplos empíricos que demuestran la superioridad de los LRMs en la traducción. También identificamos varios fenómenos interesantes de los LRMs para MT, como la traducción automática pivot, así como desafíos críticos como la sobrelocalización en la traducción y la eficiencia en la inferencia. En conclusión, consideramos que los LRMs redefinen los sistemas de traducción no meramente como convertidores de texto, sino como agentes cognitivos multilingües capaces de razonar sobre el significado más allá del texto. Este cambio de paradigma nos invita a pensar en los problemas de la traducción más allá de los escenarios tradicionales, en un contexto mucho más amplio con los LRMs: lo que podemos lograr sobre esta base.
Los avances recientes en los modelos de lenguaje de gran contexto (LLMs, por sus siglas en inglés) se han centrado principalmente en procesar contextos de entrada extensos, lo que ha resultado en avances significativos en la comprensión de contextos largos. Sin embargo, el aspecto igualmente crítico de generar salidas de formato extenso ha recibido una atención comparativamente menor. Este artículo aboga por un cambio de paradigma en la investigación de PLN hacia la resolución de los desafíos de la generación de salidas largas. Tareas como la escritura de novelas, la planificación a largo plazo y el razonamiento complejo requieren que los modelos comprendan contextos extensos y produzcan textos prolongados coherentes, contextualmente ricos y lógicamente consistentes. Estas demandas destacan una brecha crítica en las capacidades actuales de los LLMs. Subrayamos la importancia de este dominio poco explorado y hacemos un llamado para enfocar esfuerzos en desarrollar LLMs fundamentales diseñados para generar salidas de formato extenso de alta calidad, las cuales tienen un inmenso potencial para aplicaciones en el mundo real.
La segmentación basada en píxeles, que abarca tareas como la Segmentación de Expresiones Referenciales (RES), ha captado una atención considerable debido a su inmenso potencial para cerrar la brecha entre las modalidades de visión y lenguaje. Sin embargo, los avances en este dominio se ven actualmente limitados por las restricciones inherentes a los conjuntos de datos existentes, incluyendo categorías de objetos limitadas, diversidad textual insuficiente y una escasez de anotaciones de alta calidad. Para mitigar estas limitaciones, presentamos GroundingSuite, que comprende: (1) un marco de anotación de datos automatizado que aprovecha múltiples agentes de Modelos de Visión-Lenguaje (VLM); (2) un conjunto de datos de entrenamiento a gran escala que abarca 9.56 millones de expresiones referenciales diversas y sus correspondientes segmentaciones; y (3) un benchmark de evaluación meticulosamente curado que consta de 3,800 imágenes. El conjunto de datos de entrenamiento de GroundingSuite facilita mejoras sustanciales en el rendimiento, permitiendo que los modelos entrenados con él alcancen resultados de vanguardia. Específicamente, un cIoU de 68.9 en gRefCOCO y un gIoU de 55.3 en RefCOCOm. Además, el marco de anotación de GroundingSuite demuestra una eficiencia superior en comparación con el método líder actual de anotación de datos, es decir, 4.5 veces más rápido que el GLaMM.
Los modelos de generación de video han logrado avances notables en el último año. La calidad del video generado por IA continúa mejorando, pero a costa de un mayor tamaño de los modelos, una mayor cantidad de datos y una mayor demanda de recursos computacionales para el entrenamiento. En este informe, presentamos Open-Sora 2.0, un modelo de generación de video de nivel comercial entrenado con solo $200k. Con este modelo, demostramos que el costo de entrenar un modelo de generación de video de alto rendimiento es altamente controlable. Detallamos todas las técnicas que contribuyen a este avance en eficiencia, incluyendo la curación de datos, la arquitectura del modelo, la estrategia de entrenamiento y la optimización del sistema. Según los resultados de evaluación humana y las puntuaciones de VBench, Open-Sora 2.0 es comparable a los principales modelos de generación de video a nivel mundial, incluyendo el modelo de código abierto HunyuanVideo y el modelo de código cerrado Runway Gen-3 Alpha. Al hacer que Open-Sora 2.0 sea completamente de código abierto, nuestro objetivo es democratizar el acceso a la tecnología avanzada de generación de video, fomentando una mayor innovación y creatividad en la creación de contenido. Todos los recursos están disponibles públicamente en: https://github.com/hpcaitech/Open-Sora.
En este trabajo, estudiamos empíricamente los Transformadores de Difusión (DiTs) para la generación de texto a imagen, centrándonos en las decisiones arquitectónicas, las estrategias de condicionamiento de texto y los protocolos de entrenamiento. Evaluamos una variedad de arquitecturas basadas en DiT—incluyendo variantes de estilo PixArt y MMDiT—y las comparamos con una variante estándar de DiT que procesa directamente entradas concatenadas de texto y ruido. Sorprendentemente, nuestros hallazgos revelan que el rendimiento del DiT estándar es comparable con el de esos modelos especializados, mientras demuestra una superior eficiencia en parámetros, especialmente cuando se escala. Aprovechando la estrategia de compartición de parámetros por capas, logramos una reducción adicional del 66% en el tamaño del modelo en comparación con una arquitectura MMDiT, con un impacto mínimo en el rendimiento. Basándonos en un análisis en profundidad de componentes críticos como los codificadores de texto y los Auto-Codificadores Variacionales (VAEs), introducimos DiT-Air y DiT-Air-Lite. Con ajuste fino supervisado y basado en recompensas, DiT-Air alcanza un rendimiento de vanguardia en GenEval y T2I CompBench, mientras que DiT-Air-Lite sigue siendo altamente competitivo, superando a la mayoría de los modelos existentes a pesar de su tamaño compacto.
Los modelos de lenguaje a gran escala han demostrado una capacidad de razonamiento notable en tareas textuales complejas. Sin embargo, el razonamiento multimodal, que requiere integrar información visual y textual, sigue siendo un desafío significativo. Los modelos visual-lingüísticos existentes a menudo tienen dificultades para analizar y razonar de manera efectiva el contenido visual, lo que resulta en un rendimiento subóptimo en tareas de razonamiento complejas. Además, la ausencia de puntos de referencia integrales dificulta la evaluación precisa de las capacidades de razonamiento multimodal. En este artículo, presentamos R1-Onevision, un modelo de razonamiento multimodal diseñado para cerrar la brecha entre la percepción visual y el razonamiento profundo. Para lograrlo, proponemos una canalización de razonamiento multimodal que transforma imágenes en representaciones textuales formales, permitiendo un razonamiento preciso basado en el lenguaje. Aprovechando esta canalización, construimos el conjunto de datos R1-Onevision, que proporciona anotaciones detalladas y paso a paso de razonamiento multimodal en diversos dominios. Además, desarrollamos el modelo R1-Onevision mediante ajuste fino supervisado y aprendizaje por refuerzo para cultivar habilidades avanzadas de razonamiento y una robusta capacidad de generalización. Para evaluar de manera integral el rendimiento del razonamiento multimodal en diferentes niveles, introducimos R1-Onevision-Bench, un punto de referencia alineado con las etapas educativas humanas, que cubre exámenes desde la escuela secundaria hasta la universidad y más allá. Los resultados experimentales muestran que R1-Onevision alcanza un rendimiento de vanguardia, superando a modelos como GPT-4o y Qwen2.5-VL en múltiples puntos de referencia desafiantes de razonamiento multimodal.
Los modelos de difusión destilados presentan una limitación crítica: una reducción en la diversidad de muestras en comparación con sus contrapartes base. En este trabajo, descubrimos que, a pesar de esta pérdida de diversidad, los modelos destilados conservan las representaciones fundamentales de conceptos de los modelos base. Demostramos la destilación de control, donde mecanismos de control como Concept Sliders y LoRAs entrenados en modelos base pueden transferirse sin problemas a modelos destilados y viceversa, efectivamente destilando control sin necesidad de reentrenamiento. Esta preservación de la estructura representativa motivó nuestra investigación sobre los mecanismos de colapso de diversidad durante la destilación. Para comprender cómo la destilación afecta la diversidad, introducimos la Visualización de Objetivo de Difusión (DT-Visualization), una herramienta de análisis y depuración que revela cómo los modelos predicen los resultados finales en pasos intermedios. A través de DT-Visualization, identificamos artefactos de generación, inconsistencias, y demostramos que los pasos iniciales de difusión determinan de manera desproporcionada la diversidad de salida, mientras que los pasos posteriores principalmente refinan los detalles. Basándonos en estas ideas, introducimos la destilación de diversidad, un enfoque híbrido de inferencia que emplea estratégicamente el modelo base solo para el primer paso crítico antes de transicionar al modelo destilado eficiente. Nuestros experimentos demuestran que esta simple modificación no solo restaura las capacidades de diversidad de los modelos base a los destilados, sino que sorprendentemente las supera, manteniendo casi la eficiencia computacional de la inferencia destilada, todo sin requerir entrenamiento adicional o modificaciones del modelo. Nuestro código y datos están disponibles en https://distillation.baulab.info.
Los recientes avances en generación de video permiten producir videos realistas de un solo plano y un minuto de duración utilizando transformadores de difusión escalables. Sin embargo, los videos narrativos del mundo real requieren escenas de múltiples planos con consistencia visual y dinámica entre ellos. En este trabajo, presentamos Long Context Tuning (LCT), un paradigma de entrenamiento que amplía la ventana de contexto de modelos preentrenados de difusión de video de un solo plano para aprender la consistencia a nivel de escena directamente de los datos. Nuestro método extiende los mecanismos de atención completa desde planos individuales para abarcar todos los planos dentro de una escena, incorporando incrustaciones de posición 3D intercaladas y una estrategia de ruido asíncrona, permitiendo tanto la generación conjunta como autoregresiva de planos sin parámetros adicionales. Los modelos con atención bidireccional después de LCT pueden ajustarse aún más con atención causal-contextual, facilitando la generación autoregresiva con un caché KV eficiente. Los experimentos demuestran que los modelos de un solo plano después de LCT pueden producir escenas de múltiples planos coherentes y exhibir capacidades emergentes, incluyendo generación composicional y extensión interactiva de planos, allanando el camino para una creación de contenido visual más práctica. Consulte https://guoyww.github.io/projects/long-context-video/ para más detalles.
A medida que escalamos hacia modelos de aprendizaje automático más masivos, las frecuentes demandas de sincronización inherentes a los enfoques de paralelismo de datos generan ralentizaciones significativas, lo que plantea un desafío crítico para un mayor escalamiento. Trabajos recientes desarrollan un enfoque (DiLoCo) que relaja las demandas de sincronización sin comprometer la calidad del modelo. Sin embargo, estos estudios no analizan detenidamente cómo cambia el comportamiento de DiLoCo con el tamaño del modelo. En este trabajo, estudiamos el comportamiento de las leyes de escalamiento de DiLoCo al entrenar modelos de lenguaje grandes (LLMs) bajo un presupuesto fijo de cómputo. Nos enfocamos en cómo factores algorítmicos, incluyendo el número de réplicas del modelo, los hiperparámetros y el presupuesto de tokens, afectan el entrenamiento de maneras que pueden predecirse con precisión mediante leyes de escalamiento. Encontramos que DiLoCo escala de manera predecible y robusta con el tamaño del modelo. Cuando está bien ajustado, DiLoCo escala mejor que el entrenamiento con paralelismo de datos en función del tamaño del modelo, y puede superar al entrenamiento con paralelismo de datos incluso en tamaños de modelo pequeños. Nuestros resultados muestran un conjunto más amplio de beneficios de DiLoCo de lo que se había documentado previamente, incluyendo tamaños de lote óptimos más grandes, una mejor generalización en tareas posteriores con el escalamiento y una mejora en la pérdida de evaluación para un presupuesto fijo de tokens.
La generación de videos ha experimentado un progreso notable con el surgimiento de modelos generativos profundos, particularmente los modelos de difusión. Si bien los métodos existentes sobresalen en la generación de videos de alta calidad a partir de indicaciones de texto o imágenes individuales, la generación de videos personalizados con múltiples sujetos sigue siendo un desafío en gran medida inexplorado. Esta tarea implica sintetizar videos que incorporen múltiples sujetos distintos, cada uno definido por imágenes de referencia separadas, mientras se garantiza la consistencia temporal y espacial. Los enfoques actuales se basan principalmente en mapear imágenes de sujetos a palabras clave en indicaciones de texto, lo que introduce ambigüedad y limita su capacidad para modelar las relaciones entre sujetos de manera efectiva. En este artículo, proponemos CINEMA, un marco novedoso para la generación coherente de videos con múltiples sujetos mediante el aprovechamiento de Modelos de Lenguaje Multimodal de Gran Escala (MLLM). Nuestro enfoque elimina la necesidad de correspondencias explícitas entre imágenes de sujetos y entidades de texto, mitigando la ambigüedad y reduciendo el esfuerzo de anotación. Al aprovechar MLLM para interpretar las relaciones entre sujetos, nuestro método facilita la escalabilidad, permitiendo el uso de conjuntos de datos grandes y diversos para el entrenamiento. Además, nuestro marco puede condicionarse en función de un número variable de sujetos, ofreciendo una mayor flexibilidad en la creación de contenido personalizado. A través de evaluaciones exhaustivas, demostramos que nuestro enfoque mejora significativamente la consistencia de los sujetos y la coherencia general del video, allanando el camino para aplicaciones avanzadas en narrativa, medios interactivos y generación de videos personalizados.
Este artículo explora la viabilidad de utilizar modelos de texto a imagen en una configuración de cero disparos para generar imágenes de conceptos taxonómicos. Si bien los métodos basados en texto para el enriquecimiento de taxonomías están bien establecidos, el potencial de la dimensión visual sigue sin explorarse. Para abordar esto, proponemos un benchmark integral para la Generación de Imágenes Taxonómicas que evalúa la capacidad de los modelos para comprender conceptos taxonómicos y generar imágenes relevantes y de alta calidad. El benchmark incluye conceptos de sentido común y muestreados aleatoriamente de WordNet, junto con predicciones generadas por modelos de lenguaje grandes (LLM). Los 12 modelos son evaluados utilizando 9 métricas novedosas relacionadas con taxonomías de texto a imagen y retroalimentación humana. Además, somos pioneros en el uso de evaluación por pares con retroalimentación de GPT-4 para la generación de imágenes. Los resultados experimentales muestran que la clasificación de los modelos difiere significativamente de las tareas estándar de texto a imagen (T2I). Playground-v2 y FLUX superan consistentemente en todas las métricas y subconjuntos, mientras que el enfoque basado en recuperación tiene un desempeño deficiente. Estos hallazgos resaltan el potencial para automatizar la curación de recursos de datos estructurados.
Los Modelos de Lenguaje Visual (VLMs, por sus siglas en inglés) han demostrado un potencial significativo en diversas tareas posteriores, incluyendo la Generación de Imágenes/Vídeos, Respuesta a Preguntas Visuales, Chatbots Multimodales y Comprensión de Vídeos. Sin embargo, estos modelos a menudo tienen dificultades con transformaciones básicas de imágenes. Este artículo investiga la comprensión a nivel de imagen de los VLMs, específicamente CLIP de OpenAI y SigLIP de Google. Nuestros hallazgos revelan que estos modelos carecen de comprensión de múltiples aumentaciones a nivel de imagen. Para facilitar este estudio, creamos una versión aumentada del conjunto de datos Flickr8k, emparejando cada imagen con una descripción detallada de la transformación aplicada. Además, exploramos cómo esta deficiencia impacta las tareas posteriores, particularmente en la edición de imágenes, y evaluamos el rendimiento de los modelos Image2Image de vanguardia en transformaciones simples.
La transferencia de estilo consiste en transferir el estilo de una imagen de referencia al contenido de una imagen objetivo. Los avances recientes en métodos basados en LoRA (Adaptación de Bajo Rango) han mostrado potencial para capturar eficazmente el estilo de una sola imagen. Sin embargo, estos enfoques aún enfrentan desafíos significativos, como la inconsistencia en el contenido, la desalineación del estilo y la filtración de contenido. En este artículo, analizamos exhaustivamente las limitaciones de la parametrización estándar de difusión, que aprende a predecir ruido, en el contexto de la transferencia de estilo. Para abordar estos problemas, presentamos ConsisLoRA, un método basado en LoRA que mejora la consistencia tanto del contenido como del estilo al optimizar los pesos de LoRA para predecir la imagen original en lugar del ruido. También proponemos una estrategia de entrenamiento en dos pasos que desacopla el aprendizaje del contenido y el estilo a partir de la imagen de referencia. Para capturar eficazmente tanto la estructura global como los detalles locales de la imagen de contenido, introducimos una estrategia de transición gradual de la función de pérdida. Además, presentamos un método de guía de inferencia que permite un control continuo sobre la intensidad del contenido y el estilo durante la inferencia. A través de evaluaciones cualitativas y cuantitativas, nuestro método demuestra mejoras significativas en la consistencia del contenido y el estilo, reduciendo efectivamente la filtración de contenido.
Presentamos ARPG, un novedoso modelo visual autorregresivo que permite la generación paralela aleatoria, abordando las limitaciones inherentes de los enfoques convencionales de orden raster, los cuales obstaculizan la eficiencia de inferencia y la generalización zero-shot debido a su orden secuencial y predefinido de generación de tokens. Nuestra idea clave es que el modelado efectivo en orden aleatorio requiere una guía explícita para determinar la posición del siguiente token predicho. Con este fin, proponemos un novedoso marco de decodificación guiada que desacopla la guía posicional de la representación de contenido, codificándolas por separado como consultas y pares clave-valor. Al incorporar directamente esta guía en el mecanismo de atención causal, nuestro enfoque permite el entrenamiento y generación en orden completamente aleatorio, eliminando la necesidad de atención bidireccional. En consecuencia, ARPG se generaliza fácilmente a tareas zero-shot como la restauración de imágenes, la expansión de bordes y la ampliación de resolución. Además, admite inferencia paralela al procesar múltiples consultas simultáneamente utilizando una caché KV compartida. En el benchmark ImageNet-1K 256, nuestro enfoque alcanza un FID de 1.94 con solo 64 pasos de muestreo, logrando un aumento de más de 20 veces en el rendimiento mientras reduce el consumo de memoria en más del 75% en comparación con modelos autorregresivos recientes representativos de escala similar.
Los modelos generativos avanzados sobresalen en la síntesis de imágenes, pero a menudo dependen de condicionamientos basados en texto. Sin embargo, los diseñadores visuales suelen trabajar más allá del lenguaje, inspirándose directamente en elementos visuales existentes. En muchos casos, estos elementos representan solo fragmentos de un concepto potencial—como un ala de estructura única o un peinado específico—que sirven de inspiración para que el artista explore cómo pueden unirse creativamente en un todo coherente. Reconociendo esta necesidad, presentamos un marco generativo que integra de manera fluida un conjunto parcial de componentes visuales proporcionados por el usuario en una composición coherente, mientras simultáneamente genera las partes faltantes necesarias para crear un concepto plausible y completo. Nuestro enfoque se basa en un espacio de representación sólido y poco explorado, extraído de IP-Adapter+, sobre el cual entrenamos IP-Prior, un modelo ligero de emparejamiento de flujo que sintetiza composiciones coherentes basadas en prioridades específicas del dominio, permitiendo generaciones diversas y conscientes del contexto. Además, presentamos una estrategia de ajuste fino basada en LoRA que mejora significativamente la adherencia a las indicaciones en IP-Adapter+ para una tarea dada, abordando su común equilibrio entre la calidad de reconstrucción y la adherencia a las indicaciones.
En este artículo, proponemos un marco general para la navegación orientada a objetivos universal en modo zero-shot. Los métodos zero-shot existentes construyen un marco de inferencia basado en modelos de lenguaje de gran escala (LLM) para tareas específicas, lo cual difiere significativamente en la estructura general y no logra generalizarse entre diferentes tipos de objetivos. Con el fin de lograr una navegación universal zero-shot, proponemos una representación gráfica uniforme para unificar diferentes objetivos, incluyendo categorías de objetos, imágenes de instancias y descripciones textuales. También convertimos la observación del agente en un grafo de escena mantenido en línea. Con esta representación consistente de la escena y el objetivo, preservamos la mayor parte de la información estructural en comparación con el texto puro y podemos aprovechar los LLM para un razonamiento explícito basado en grafos. Específicamente, realizamos una coincidencia de grafos entre el grafo de la escena y el grafo del objetivo en cada instante de tiempo y proponemos diferentes estrategias para generar objetivos de exploración a largo plazo según los diferentes estados de coincidencia. El agente primero busca iterativamente un subgrafo del objetivo cuando no hay coincidencia. Con una coincidencia parcial, el agente utiliza proyección de coordenadas y alineación de pares de anclaje para inferir la ubicación del objetivo. Finalmente, se aplican correcciones del grafo de la escena y verificación del objetivo para lograr una coincidencia perfecta. También presentamos un mecanismo de lista negra para permitir una transición robusta entre etapas. Experimentos extensivos en varios benchmarks muestran que nuestro enfoque UniGoal alcanza un rendimiento zero-shot de vanguardia en tres tareas de navegación estudiadas con un solo modelo, superando incluso a métodos zero-shot específicos de tareas y métodos universales supervisados.
Los modelos de reconocimiento automático del habla (ASR, por sus siglas en inglés) han cobrado relevancia en aplicaciones como subtitulación, traducción de voz y transcripción en tiempo real. Este artículo estudia Whisper y dos variantes del modelo: una optimizada para transmisión de voz en vivo y otra para transcripción fuera de línea. Cabe destacar que se ha observado que estos modelos generan contenido alucinado, lo que reduce la fiabilidad de la transcripción. Además, las variantes de modelos más grandes presentan una mayor latencia y plantean desafíos para su implementación en dispositivos con recursos limitados. Este estudio analiza las similitudes y diferencias entre tres modelos de Whisper, examinando cualitativamente sus capacidades distintivas. A continuación, se cuantifica el impacto de la cuantización del modelo en la latencia y se evalúa su viabilidad para implementación en dispositivos de borde. Utilizando el conjunto de datos de código abierto LibriSpeech, este artículo evalúa la tasa de error por palabra (WER, por sus siglas en inglés) junto con un análisis de latencia de whispercpp empleando tres métodos de cuantización (INT4, INT5, INT8). Los resultados muestran que la cuantización reduce la latencia en un 19% y el tamaño del modelo en un 45%, manteniendo la precisión de la transcripción. Estos hallazgos proporcionan información valiosa sobre los casos de uso óptimos de los diferentes modelos de Whisper y las posibilidades de implementación en dispositivos de borde. Todo el código, conjuntos de datos y detalles de implementación están disponibles en un repositorio público de GitHub: https://github.com/allisonandreyev/WhisperQuantization.git.
Los modelos Vision Transformer exhiben un poder inmenso pero permanecen opacos para la comprensión humana, lo que plantea desafíos y riesgos para aplicaciones prácticas. Si bien investigaciones previas han intentado desmitificar estos modelos mediante atribución de entrada y análisis de roles de neuronas, ha habido una brecha notable al considerar la información a nivel de capas y la ruta holística del flujo de información a través de las capas. En este artículo, investigamos la importancia de las rutas de neuronas influyentes dentro de los Vision Transformers, que es una ruta de neuronas desde la entrada del modelo hasta la salida que impacta más significativamente en la inferencia del modelo. Primero proponemos una medida de influencia conjunta para evaluar la contribución de un conjunto de neuronas al resultado del modelo. Además, proporcionamos un enfoque de localización de neuronas progresivo por capas que selecciona eficientemente la neurona más influyente en cada capa, intentando descubrir la ruta crucial de neuronas desde la entrada hasta la salida dentro del modelo objetivo. Nuestros experimentos demuestran la superioridad de nuestro método para encontrar la ruta de neuronas más influyente a lo largo de la cual fluye la información, sobre las soluciones de referencia existentes. Adicionalmente, las rutas de neuronas han ilustrado que los Vision Transformers exhiben un mecanismo interno específico para procesar la información visual dentro de la misma categoría de imagen. Analizamos además los efectos clave de estas neuronas en la tarea de clasificación de imágenes, mostrando que las rutas de neuronas encontradas ya preservan la capacidad del modelo en tareas posteriores, lo que también podría arrojar luz sobre aplicaciones del mundo real como la poda de modelos. El sitio web del proyecto, que incluye el código de implementación, está disponible en https://foundation-model-research.github.io/NeuronPath/.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) están ingresando rápidamente en la vida de los niños, ya sea a través de la adopción impulsada por los padres, las escuelas o las redes de pares. Sin embargo, la investigación actual sobre ética y seguridad en IA no aborda adecuadamente los riesgos relacionados con el contenido específicos para los menores. En este artículo, destacamos estas brechas con un estudio de caso real de un chatbot basado en LLM implementado en un entorno de escuela secundaria, revelando cómo los estudiantes utilizaron y, en ocasiones, hicieron un mal uso del sistema. Basándonos en estos hallazgos, proponemos una nueva taxonomía de riesgos basados en el contenido para menores e introducimos MinorBench, un punto de referencia de código abierto diseñado para evaluar la capacidad de los LLMs para rechazar consultas inseguras o inapropiadas de los niños. Evaluamos seis LLMs destacados bajo diferentes indicaciones del sistema, demostrando una variabilidad sustancial en su cumplimiento de la seguridad infantil. Nuestros resultados informan pasos prácticos para mecanismos de seguridad más robustos y centrados en los niños, y subrayan la urgencia de adaptar los sistemas de IA para proteger a los usuarios jóvenes.
La alucinación de objetos (OH, por sus siglas en inglés) ha sido reconocida como uno de los principales desafíos de confiabilidad en los Modelos de Lenguaje y Visión de Gran Escala (LVLMs, por sus siglas en inglés). Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) indican que los estados internos, como los estados ocultos, codifican la "veracidad general" de las respuestas generadas. Sin embargo, aún no se ha explorado suficientemente cómo funcionan los estados internos en los LVLMs y si podrían servir como indicadores de alucinación "por token", lo cual es esencial para mitigar la OH. En este artículo, primero realizamos una exploración en profundidad de los estados internos de los LVLMs en relación con los problemas de OH y descubrimos que (1) los estados internos de los LVLMs son indicadores de alta especificidad por token de comportamientos de alucinación. Además, (2) diferentes LVLMs codifican patrones universales de alucinaciones en subespacios latentes comunes, lo que indica que existen "direcciones genéricas de veracidad" compartidas por varios LVLMs. Basándonos en estos descubrimientos, proponemos Truthful-Guided Pre-Intervention (TruthPrInt), que primero aprende la dirección de veracidad de la decodificación del LVLM y luego aplica una intervención guiada por la veracidad durante la decodificación del LVLM. Además, proponemos ComnHallu para mejorar tanto la transferibilidad de detección de alucinaciones entre LVLMs como entre datos, mediante la construcción y alineación de subespacios latentes de alucinación. Evaluamos TruthPrInt en diversos escenarios experimentales, incluyendo situaciones dentro y fuera del dominio, sobre LVLMs populares y benchmarks de OH. Los resultados experimentales indican que TruthPrInt supera significativamente a los métodos más avanzados. Los códigos estarán disponibles en https://github.com/jinhaoduan/TruthPrInt.
La toxicidad en las discusiones de informes de errores plantea desafíos significativos para la dinámica colaborativa del desarrollo de software de código abierto. Los informes de errores son cruciales para identificar y resolver defectos, sin embargo, su naturaleza inherentemente centrada en problemas y su contexto emocionalmente cargado los hacen susceptibles a interacciones tóxicas. Este estudio explora la toxicidad en los informes de errores de GitHub mediante un análisis cualitativo de 203 hilos de discusión, incluyendo 81 tóxicos. Nuestros hallazgos revelan que la toxicidad surge frecuentemente de percepciones desalineadas sobre la gravedad y prioridad de los errores, frustraciones no resueltas con las herramientas y lapsos en la comunicación profesional. Estas interacciones tóxicas no solo desvían las discusiones productivas, sino que también reducen la probabilidad de resultados accionables, como vincular problemas con solicitudes de extracción (pull requests). Nuestros hallazgos preliminares ofrecen recomendaciones prácticas para mejorar la resolución de errores mediante la mitigación de la toxicidad.
El acoplamiento de transporte óptimo en minilotes endereza las trayectorias en el emparejamiento de flujo incondicional. Esto conduce a una inferencia computacionalmente menos exigente, ya que se pueden emplear menos pasos de integración y solucionadores numéricos menos complejos al resolver numéricamente una ecuación diferencial ordinaria en el momento de la prueba. Sin embargo, en el escenario condicional, el transporte óptimo en minilotes se queda corto. Esto se debe a que la asignación de transporte óptimo predeterminada ignora las condiciones, lo que resulta en una distribución previa condicionalmente sesgada durante el entrenamiento. En contraste, en el momento de la prueba, no tenemos acceso a la distribución previa sesgada, sino que muestreamos a partir de la distribución previa completa y no sesgada. Esta brecha entre el entrenamiento y la prueba conduce a un rendimiento subóptimo. Para cerrar esta brecha, proponemos el transporte óptimo condicional C^2OT, que añade un término de ponderación condicional en la matriz de costos al calcular la asignación de transporte óptimo. Los experimentos demuestran que esta solución simple funciona tanto con condiciones discretas como continuas en tareas como 8gaussians-to-moons, CIFAR-10, ImageNet-32x32 e ImageNet-256x256. Nuestro método supera en general a las líneas de base existentes en diferentes presupuestos de evaluación de funciones. El código está disponible en https://hkchengrex.github.io/C2OT.
A pesar del rendimiento prometedor de los modelos grandes de visión y lenguaje (LVLMs) de código abierto, los ataques dirigidos basados en transferencia a menudo fallan contra los LVLMs comerciales de caja negra. El análisis de las perturbaciones adversarias fallidas revela que las perturbaciones aprendidas suelen originarse de una distribución uniforme y carecen de detalles semánticos claros, lo que resulta en respuestas no deseadas. Esta ausencia crítica de información semántica lleva a los LVLMs comerciales a ignorar por completo la perturbación o a malinterpretar su semántica incrustada, causando así el fracaso del ataque. Para superar estos problemas, observamos que identificar objetos semánticos clave es un objetivo principal para los modelos entrenados con diversos conjuntos de datos y metodologías. Esta idea motiva nuestro enfoque, que refina la claridad semántica codificando detalles semánticos explícitos dentro de regiones locales, asegurando así la interoperabilidad y capturando características más detalladas, y concentrando las modificaciones en áreas semánticamente ricas en lugar de aplicarlas de manera uniforme. Para lograrlo, proponemos una solución simple pero altamente efectiva: en cada paso de optimización, la imagen adversaria se recorta aleatoriamente con una relación de aspecto y escala controladas, se redimensiona y luego se alinea con la imagen objetivo en el espacio de incrustación. Los resultados experimentales confirman nuestra hipótesis. Nuestros ejemplos adversarios creados con perturbaciones agregadas localmente y enfocadas en regiones cruciales exhiben una sorprendente buena transferibilidad a LVLMs comerciales, incluyendo GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, e incluso modelos de razonamiento como o1, Claude-3.7-thinking y Gemini-2.0-flash-thinking. Nuestro enfoque alcanza tasas de éxito superiores al 90% en GPT-4.5, 4o y o1, superando significativamente todos los métodos de ataque anteriores de última generación. Nuestros ejemplos adversarios optimizados bajo diferentes configuraciones y el código de entrenamiento están disponibles en https://github.com/VILA-Lab/M-Attack.
Presentamos PerCoV2, un novedoso y abierto sistema de compresión perceptual de imágenes de ultra baja tasa de bits diseñado para aplicaciones con limitaciones de ancho de banda y almacenamiento. Basándonos en trabajos previos de Careil et al., PerCoV2 extiende la formulación original al ecosistema de Stable Diffusion 3 y mejora la eficiencia de la codificación de entropía mediante el modelado explícito de la distribución discreta de hiper-latentes de la imagen. Para ello, realizamos una comparación exhaustiva de métodos autorregresivos recientes (VAR y MaskGIT) para el modelado de entropía y evaluamos nuestro enfoque en el benchmark a gran escala MSCOCO-30k. En comparación con trabajos anteriores, PerCoV2 (i) logra una mayor fidelidad de imagen con tasas de bits aún más bajas, manteniendo una calidad perceptual competitiva, (ii) incluye un modo de generación híbrido para ahorros adicionales en la tasa de bits, y (iii) está construido únicamente con componentes públicos. El código y los modelos entrenados se publicarán en https://github.com/Nikolai10/PerCoV2.
Este artículo presenta PoseLess, un marco novedoso para el control de manos robóticas que elimina la necesidad de estimación explícita de pose al mapear directamente imágenes 2D a ángulos articulares mediante representaciones proyectadas. Nuestro enfoque aprovecha datos de entrenamiento sintéticos generados a través de configuraciones articulares aleatorizadas, permitiendo generalización zero-shot a escenarios del mundo real y transferencia inter-morfológica de manos robóticas a humanas. Al proyectar entradas visuales y emplear un decodificador basado en transformadores, PoseLess logra un control robusto y de baja latencia, abordando desafíos como la ambigüedad de profundidad y la escasez de datos. Los resultados experimentales demuestran un rendimiento competitivo en la precisión de predicción de ángulos articulares sin depender de ningún conjunto de datos etiquetado por humanos.
La guía sin clasificador se ha convertido en un elemento fundamental para la generación condicional con modelos de difusión de eliminación de ruido. Sin embargo, aún falta una comprensión exhaustiva de la guía sin clasificador. En este trabajo, llevamos a cabo un estudio empírico para ofrecer una nueva perspectiva sobre la guía sin clasificador. Concretamente, en lugar de centrarnos únicamente en la guía sin clasificador, retrocedemos hasta la raíz, es decir, la guía con clasificador, identificamos la suposición clave para su derivación y realizamos un estudio sistemático para comprender el papel del clasificador. Descubrimos que tanto la guía con clasificador como la guía sin clasificador logran la generación condicional al alejar las trayectorias de difusión de eliminación de ruido de los límites de decisión, es decir, áreas donde la información condicional suele estar entrelazada y es difícil de aprender. Basándonos en esta comprensión centrada en el clasificador, proponemos un paso genérico de posprocesamiento basado en la correspondencia de flujos para reducir la brecha entre la distribución aprendida por un modelo de difusión de eliminación de ruido preentrenado y la distribución real de los datos, principalmente alrededor de los límites de decisión. Los experimentos en varios conjuntos de datos verifican la eficacia del enfoque propuesto.