Artículos de investigación en IA seleccionados diariamente con traducciones
El aprendizaje auto-supervisado promete eliminar la necesidad de anotación manual de datos, permitiendo que los modelos escalen sin esfuerzo a conjuntos de datos masivos y arquitecturas más grandes. Al no estar ajustado a tareas o dominios específicos, este paradigma de entrenamiento tiene el potencial de aprender representaciones visuales a partir de fuentes diversas, que van desde imágenes naturales hasta aéreas, utilizando un único algoritmo. Este informe técnico presenta DINOv3, un hito importante hacia la realización de esta visión mediante el uso de estrategias simples pero efectivas. Primero, aprovechamos los beneficios de escalar tanto el tamaño del conjunto de datos como del modelo mediante una cuidadosa preparación, diseño y optimización de los datos. Segundo, introducimos un nuevo método llamado anclaje Gram, que aborda eficazmente el problema conocido pero no resuelto de la degradación de mapas de características densos durante largos períodos de entrenamiento. Finalmente, aplicamos estrategias post-hoc que mejoran aún más la flexibilidad de nuestros modelos con respecto a la resolución, el tamaño del modelo y la alineación con el texto. Como resultado, presentamos un modelo base de visión versátil que supera al estado del arte especializado en una amplia gama de configuraciones, sin necesidad de ajuste fino. DINOv3 produce características densas de alta calidad que logran un rendimiento excepcional en diversas tareas de visión, superando significativamente a los modelos base auto-supervisados y débilmente supervisados anteriores. También compartimos la suite de modelos de visión DINOv3, diseñada para avanzar el estado del arte en un amplio espectro de tareas y datos, ofreciendo soluciones escalables para diversas restricciones de recursos y escenarios de implementación.
Investigamos el potencial de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para funcionar como simuladores eficientes en tareas de búsqueda agentiva en el aprendizaje por refuerzo (RL, por sus siglas en inglés), reduciendo así la dependencia de interacciones costosas con motores de búsqueda externos. Para ello, primero cuantificamos la capacidad intrínseca de búsqueda de los LLMs mediante el uso de indicaciones estructuradas y muestreo repetido, lo que denominamos Auto-Búsqueda (Self-Search). Nuestros resultados revelan que los LLMs exhiben un fuerte comportamiento de escalabilidad en relación con el presupuesto de inferencia, alcanzando altos valores de pass@k en benchmarks de preguntas y respuestas, incluyendo la tarea desafiante de BrowseComp. Basándonos en estas observaciones, introducimos Auto-Búsqueda RL (SSRL, por sus siglas en inglés), que mejora la capacidad de Auto-Búsqueda de los LLMs mediante recompensas basadas en formato y reglas. SSRL permite a los modelos refinar iterativamente su utilización del conocimiento internamente, sin necesidad de acceder a herramientas externas. Las evaluaciones empíricas demuestran que los modelos de política entrenados con SSRL proporcionan un entorno rentable y estable para el entrenamiento de RL basado en búsqueda, reduciendo la dependencia de motores de búsqueda externos y facilitando una transferencia robusta de simulación a realidad. Extraemos las siguientes conclusiones: 1) los LLMs poseen conocimiento del mundo que puede ser efectivamente elicitado para alcanzar un alto rendimiento; 2) SSRL demuestra el potencial de aprovechar el conocimiento interno para reducir la alucinación; 3) los modelos entrenados con SSRL se integran sin esfuerzo adicional con motores de búsqueda externos. Nuestros hallazgos resaltan el potencial de los LLMs para apoyar un entrenamiento más escalable de agentes de RL.
Tras la introducción del concepto de "pensar con imágenes" por parte de OpenAI, esfuerzos recientes han explorado estimular el uso de información visual en el proceso de razonamiento para mejorar el rendimiento de los modelos en tareas de percepción y razonamiento. Sin embargo, hasta donde sabemos, ningún trabajo de código abierto ofrece actualmente un conjunto de características tan rico como los modelos propietarios (O3), que pueden realizar diversas manipulaciones de imágenes y, simultáneamente, mejorar las capacidades de razonamiento lógico mediante código. En este artículo, realizamos un intento preliminar en esta dirección al presentar Thyme (Think Beyond Images), un paradigma novedoso que permite a los MLLMs trascender los enfoques existentes de "pensar con imágenes" al generar y ejecutar de manera autónoma diversas operaciones de procesamiento de imágenes y cálculos computacionales mediante código ejecutable. Este enfoque no solo facilita un conjunto rico y dinámico de manipulaciones de imágenes (por ejemplo, recorte, rotación, mejora de contraste), sino que también permite realizar cálculos matemáticos, todo mientras se mantiene una alta autonomía en la decisión de cuándo y cómo aplicar estas operaciones. Activamos esta capacidad mediante una estrategia de entrenamiento en dos etapas: una SFT inicial en un conjunto de datos curado de 500K muestras para enseñar la generación de código, seguida de una fase de RL para refinar la toma de decisiones. Para la etapa de RL, recopilamos y diseñamos manualmente pares de preguntas y respuestas de alta resolución para aumentar la dificultad de aprendizaje, y proponemos GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling), un algoritmo que aplica temperaturas distintas a la generación de texto y código para equilibrar la exploración del razonamiento con la precisión en la ejecución del código. Realizamos un extenso análisis experimental y estudios de ablación. Evaluaciones exhaustivas en casi 20 benchmarks muestran que Thyme produce mejoras significativas y consistentes en el rendimiento, particularmente en tareas desafiantes de percepción de alta resolución y razonamiento complejo.
Los avances recientes en el preentrenamiento de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han demostrado que simplemente escalar la cantidad de datos eventualmente conduce a rendimientos decrecientes, alcanzando un "muro de datos". En respuesta, el uso de datos sintéticos para el preentrenamiento ha surgido como un paradigma prometedor para impulsar el límite del rendimiento. A pesar de esto, los factores que afectan la calidad de los datos sintéticos siguen siendo poco comprendidos. En este trabajo, presentamos BeyondWeb, un marco de generación de datos sintéticos que produce datos sintéticos de alta calidad para el preentrenamiento. BeyondWeb amplía significativamente las capacidades de los conjuntos de datos tradicionales a escala web, superando a los conjuntos de datos sintéticos de preentrenamiento más avanzados, como Cosmopedia y el subconjunto de alta calidad sintética de Nemotron-CC (Nemotron-Synth), en hasta 5.1 puntos porcentuales (pp) y 2.6 pp, respectivamente, cuando se promedian en una serie de 14 evaluaciones de referencia. Ofrece un entrenamiento hasta 7.7 veces más rápido que los datos de la web abierta y 2.7 veces más rápido que Nemotron-Synth. Notablemente, un modelo de 3B entrenado con 180B tokens en BeyondWeb supera a un modelo de 8B entrenado con el mismo presupuesto de tokens en Cosmopedia. También presentamos varias ideas derivadas de BeyondWeb sobre los datos sintéticos para el preentrenamiento: qué impulsa sus beneficios, qué datos parafrasear y cómo hacerlo, y el impacto del tamaño y la familia del modelo en la calidad de los datos. En general, nuestro trabajo muestra que no existe una solución única para generar datos sintéticos de preentrenamiento de alta calidad. Los mejores resultados requieren optimizar conjuntamente muchos factores, una tarea desafiante que exige ciencia rigurosa y experiencia práctica. Los enfoques ingenuos pueden producir mejoras modestas, potencialmente a un gran costo, mientras que los métodos bien ejecutados pueden generar mejoras transformadoras, como lo ejemplifica BeyondWeb.
Aunque la inferencia de LLM ha surgido como una carga de trabajo crítica para muchas aplicaciones posteriores, inferir LLMs de manera eficiente es un desafío debido a la considerable huella de memoria y los requisitos de ancho de banda. En paralelo, las capacidades de cómputo han superado constantemente tanto la capacidad de memoria como el ancho de banda durante las últimas décadas, una tendencia que sigue siendo evidente en el hardware moderno de GPU y que exacerba el desafío de la inferencia de LLM. Como resultado, están surgiendo nuevos algoritmos que intercambian un mayor cómputo por una reducción en las operaciones de memoria. Con este fin, presentamos XQuant, que aprovecha esta tendencia, permitiendo una reducción de un orden de magnitud en el consumo de memoria mediante la cuantización de bajo bit, con beneficios sustanciales en precisión en comparación con los métodos de cuantización de caché KV más avanzados. Logramos esto cuantizando y almacenando en caché las activaciones de entrada de la capa X, en lugar de utilizar el almacenamiento en caché KV estándar, y luego rematerializando las Claves y Valores sobre la marcha durante la inferencia. Esto resulta en un ahorro inmediato de memoria de 2 veces en comparación con el almacenamiento en caché KV. Al aplicar XQuant, logramos un ahorro de memoria de hasta ~7.7 veces con una degradación de <0.1 en la perplejidad en comparación con la línea base FP16. Además, nuestro enfoque aprovecha el hecho de que los valores de X son similares entre capas. Basándonos en esta observación, introducimos XQuant-CL, que explota la similitud entre capas en los embeddings de X para una compresión extrema. En diferentes modelos, XQuant-CL alcanza un ahorro de memoria de hasta 10 veces en comparación con la línea base FP16 con solo una degradación de 0.01 en la perplejidad, y un ahorro de memoria de 12.5 veces con solo una degradación de 0.1 en la perplejidad. XQuant aprovecha las capacidades de cómputo en rápido aumento de las plataformas de hardware para eliminar el cuello de botella de la memoria, superando los métodos de cuantización de caché KV más avanzados y logrando una precisión cercana a FP16 en una amplia gama de modelos.
La búsqueda de artículos es una actividad importante para los investigadores, que generalmente implica utilizar una consulta con la descripción de un tema para encontrar artículos relevantes. A medida que la investigación se profundiza, los requisitos de búsqueda de artículos pueden volverse más flexibles, a veces involucrando detalles específicos como la configuración de módulos en lugar de limitarse a temas de grano grueso. Sin embargo, los sistemas anteriores de búsqueda de artículos no pueden satisfacer estos requisitos de grano flexible, ya que estos sistemas principalmente recopilan resúmenes de artículos para construir un índice del corpus, lo que carece de información detallada para apoyar la recuperación mediante consultas de grano más fino. En este trabajo, proponemos PaperRegister, que consiste en indexación jerárquica fuera de línea y recuperación adaptativa en línea, transformando el índice tradicional basado en resúmenes en un árbol de índice jerárquico para la búsqueda de artículos, apoyando así consultas en granularidad flexible. Los experimentos en tareas de búsqueda de artículos en un rango de granularidad demuestran que PaperRegister alcanza un rendimiento de vanguardia, y particularmente sobresale en escenarios de grano fino, destacando el buen potencial como una solución efectiva para la búsqueda de artículos de grano flexible en aplicaciones del mundo real. El código de este trabajo se encuentra en https://github.com/Li-Z-Q/PaperRegister.
Presentamos TexVerse, un conjunto de datos 3D a gran escala que incluye texturas de alta resolución. Si bien los avances recientes en conjuntos de datos 3D a gran escala han mejorado la generación de geometría de alta resolución, la creación de texturas de alta resolución de extremo a extremo sigue siendo poco explorada debido a la falta de conjuntos de datos adecuados. TexVerse llena este vacío con una colección curada de más de 858K modelos 3D únicos de alta resolución obtenidos de Sketchfab, incluyendo más de 158K modelos con materiales de renderizado basado en física (PBR). Cada modelo abarca todas sus variantes de alta resolución, lo que suma un total de 1.6M instancias 3D. TexVerse también incluye subconjuntos especializados: TexVerse-Skeleton, con 69K modelos esqueletizados, y TexVerse-Animation, con 54K modelos animados, ambos conservando los datos originales de esqueleto y animación cargados por el usuario. También proporcionamos anotaciones detalladas de los modelos que describen características generales, componentes estructurales y detalles intrincados. TexVerse ofrece un recurso de datos de alta calidad con un amplio potencial de aplicaciones en síntesis de texturas, desarrollo de materiales PBR, animación y diversas tareas de visión y gráficos 3D.
Los recientes avances en la animación de retratos impulsada por audio han demostrado capacidades impresionantes. Sin embargo, los métodos existentes tienen dificultades para alinearse con las preferencias humanas detalladas en múltiples dimensiones, como la naturalidad del movimiento, la precisión de la sincronización labial y la calidad visual. Esto se debe a la dificultad de optimizar entre objetivos de preferencia que compiten entre sí, los cuales a menudo entran en conflicto, y a la escasez de conjuntos de datos a gran escala y de alta calidad con anotaciones de preferencia multidimensionales. Para abordar estos problemas, primero presentamos Talking-Critic, un modelo de recompensa multimodal que aprende funciones de recompensa alineadas con los humanos para cuantificar qué tan bien los videos generados satisfacen expectativas multidimensionales. Aprovechando este modelo, creamos Talking-NSQ, un conjunto de datos de preferencias humanas multidimensionales a gran escala que contiene 410K pares de preferencias. Finalmente, proponemos Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), un marco novedoso para alinear modelos de animación de retatos basados en difusión con preferencias detalladas y multidimensionales. TLPO desacopla las preferencias en módulos expertos especializados, que luego se fusionan a través de pasos de tiempo y capas de red, permitiendo una mejora integral y detallada en todas las dimensiones sin interferencia mutua. Los experimentos demuestran que Talking-Critic supera significativamente a los métodos existentes en la alineación con las calificaciones de preferencia humana. Mientras tanto, TLPO logra mejoras sustanciales sobre los modelos de referencia en la precisión de la sincronización labial, la naturalidad del movimiento y la calidad visual, exhibiendo un rendimiento superior tanto en evaluaciones cualitativas como cuantitativas. Nuestra página del proyecto: https://fantasy-amap.github.io/fantasy-talking2/
Presentamos StyleMM, un marco novedoso que puede construir un Modelo Morfológico 3D (3DMM) estilizado basado en descripciones textuales definidas por el usuario que especifican un estilo objetivo. Partiendo de una red de deformación de mallas preentrenada y un generador de texturas para caras humanas realistas basadas en 3DMM originales, nuestro enfoque ajusta estos modelos utilizando imágenes faciales estilizadas generadas mediante traducción de imagen a imagen (i2i) guiada por texto con un modelo de difusión, las cuales sirven como objetivos de estilización para la malla renderizada. Para evitar cambios no deseados en la identidad, alineación facial o expresiones durante la traducción i2i, introducimos un método de estilización que preserva explícitamente los atributos faciales de la imagen fuente. Al mantener estos atributos críticos durante la estilización de la imagen, el enfoque propuesto asegura una transferencia de estilo 3D consistente en el espacio de parámetros del 3DMM mediante entrenamiento basado en imágenes. Una vez entrenado, StyleMM permite la generación en avance de mallas faciales estilizadas con control explícito sobre los parámetros de forma, expresión y textura, produciendo mallas con conectividad de vértices y animabilidad consistentes. Evaluaciones cuantitativas y cualitativas demuestran que nuestro enfoque supera a los métodos más avanzados en términos de diversidad facial a nivel de identidad y capacidad de estilización. El código y los videos están disponibles en [kwanyun.github.io/stylemm_page](kwanyun.github.io/stylemm_page).
Las redes neuronales de grafos (GNNs, por sus siglas en inglés) han logrado resultados de vanguardia en tareas de visión por computadora y clasificación de imágenes médicas al capturar dependencias estructurales entre instancias de datos. Sin embargo, su proceso de toma de decisiones sigue siendo en gran medida opaco, lo que limita su confiabilidad en aplicaciones clínicas de alto riesgo donde la interpretabilidad es esencial. Las técnicas de explicabilidad existentes para GNNs suelen ser post-hoc y globales, ofreciendo una visión limitada de las decisiones individuales de los nodos o del razonamiento local. Presentamos X-Node, un marco de GNN autoexplicable en el que cada nodo genera su propia explicación como parte del proceso de predicción. Para cada nodo, construimos un vector de contexto estructurado que codifica señales interpretables como el grado, la centralidad, la agrupación, la relevancia de las características y la concordancia de etiquetas dentro de su topología local. Un módulo ligero llamado Reasoner mapea este contexto en un vector de explicación compacto, que cumple tres propósitos: (1) reconstruir la representación latente del nodo mediante un decodificador para garantizar fidelidad, (2) generar una explicación en lenguaje natural utilizando un modelo de lenguaje preentrenado (por ejemplo, Grok o Gemini), y (3) guiar la propia GNN mediante un mecanismo de "inyección de texto" que retroalimenta las explicaciones en el proceso de paso de mensajes. Evaluamos X-Node en dos conjuntos de datos de grafos derivados de MedMNIST y MorphoMNIST, integrándolo con arquitecturas de GCN, GAT y GIN. Nuestros resultados muestran que X-Node mantiene una precisión competitiva en la clasificación mientras produce explicaciones fieles por nodo. Repositorio: https://github.com/basiralab/X-Node.
A medida que los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) adquieren una aplicabilidad generalizada, resulta cada vez más deseable adaptarlos para satisfacer diversas necesidades de los usuarios. En este artículo, estudiamos la adaptación de los MLLMs mediante decodificación controlada. Para lograrlo, presentamos el primer método para la decodificación guiada por recompensas de MLLMs y demostramos su aplicación en la mejora de su anclaje visual. Nuestro método implica la construcción de modelos de recompensa para el anclaje visual y su uso para guiar el proceso de decodificación del MLLM. Concretamente, construimos dos modelos de recompensa separados para controlar de manera independiente el grado de precisión y recuperación de objetos en la salida del modelo. Nuestro enfoque permite una controlabilidad en tiempo real del proceso de inferencia de un MLLM de dos maneras: primero, otorgando control sobre la importancia relativa de cada función de recompensa durante la decodificación, lo que permite al usuario intercambiar dinámicamente precisión por recuperación de objetos en tareas de generación de subtítulos de imágenes; segundo, proporcionando control sobre la amplitud de la búsqueda durante la decodificación, permitiendo al usuario gestionar el equilibrio entre la cantidad de cómputo en tiempo de prueba y el grado de anclaje visual. Evaluamos nuestro método en benchmarks estándar de alucinación de objetos, demostrando que ofrece una controlabilidad significativa sobre la inferencia de MLLM, superando consistentemente los métodos existentes de mitigación de alucinaciones.
El aprendizaje autosupervisado tiene un gran potencial para la teledetección, pero los métodos estándar de autosupervisión deben adaptarse a las características únicas de los datos de observación terrestre. Damos un paso en esta dirección realizando una evaluación exhaustiva de estrategias de fusión y esquemas de normalización de objetivos de reconstrucción para datos de observación terrestre multimodales, multitemporales y multiespectrales. Basándonos en nuestros hallazgos, proponemos MAESTRO, una novedosa adaptación del Autoencoder Enmascarado, que incluye estrategias de fusión optimizadas y un esquema de normalización de objetivos personalizado que introduce un previo espectral como señal de autosupervisión. Evaluado en cuatro conjuntos de datos de observación terrestre, MAESTRO establece un nuevo estado del arte en tareas que dependen fuertemente de dinámicas multitemporales, mientras se mantiene altamente competitivo en tareas dominadas por una única modalidad monotemporal. El código para reproducir todos nuestros experimentos está disponible en https://github.com/ignf/maestro.
El aprendizaje profundo ha revolucionado la imagen médica, pero su efectividad se ve severamente limitada por la insuficiencia de datos etiquetados para el entrenamiento. Este artículo presenta un novedoso marco de aprendizaje semi-supervisado basado en GAN, específicamente diseñado para regímenes con pocos datos etiquetados, evaluado en configuraciones que van de 5 a 50 muestras etiquetadas por clase. Nuestro enfoque integra tres redes neuronales especializadas: un generador para la traducción de imágenes condicionada por clase, un discriminador para la evaluación de autenticidad y clasificación, y un clasificador dedicado, dentro de un marco de entrenamiento de tres fases. El método alterna entre el entrenamiento supervisado con datos etiquetados limitados y el aprendizaje no supervisado que aprovecha la abundancia de imágenes no etiquetadas mediante la traducción de imagen a imagen en lugar de la generación a partir de ruido. Empleamos etiquetado pseudo-supervisado basado en ensambles que combina predicciones ponderadas por confianza del discriminador y el clasificador con consistencia temporal a través de promedios móviles exponenciales, permitiendo una estimación confiable de etiquetas para datos no etiquetados. Una evaluación exhaustiva en once conjuntos de datos MedMNIST demuestra que nuestro enfoque logra mejoras estadísticamente significativas sobre seis métodos semi-supervisados basados en GAN de última generación, con un rendimiento particularmente fuerte en el escenario extremo de 5 muestras, donde la escasez de datos etiquetados es más desafiante. El marco mantiene su superioridad en todas las configuraciones evaluadas (5, 10, 20 y 50 muestras por clase). Nuestro enfoque ofrece una solución práctica para aplicaciones de imagen médica donde los costos de anotación son prohibitivos, permitiendo un rendimiento de clasificación robusto incluso con datos etiquetados mínimos. El código está disponible en https://github.com/GuidoManni/SPARSE.