Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje basados en difusión (dLLMs, por sus siglas en inglés) han surgido recientemente como una alternativa poderosa a los LLMs autorregresivos, ofreciendo inferencia más rápida y mayor interactividad mediante decodificación paralela y modelado bidireccional. Sin embargo, a pesar de su fuerte rendimiento en la generación de código y el relleno de texto, identificamos una preocupación fundamental de seguridad: los mecanismos de alineación existentes no protegen adecuadamente a los dLLMs contra indicaciones adversarias enmascaradas y conscientes del contexto, exponiendo nuevas vulnerabilidades. Con este fin, presentamos DIJA, el primer estudio sistemático y marco de ataque de jailbreak que explota las debilidades de seguridad únicas de los dLLMs. Específicamente, nuestro DIJA propuesto construye indicaciones adversarias intercaladas de texto y máscaras que explotan los mecanismos de generación de texto de los dLLMs, es decir, el modelado bidireccional y la decodificación paralela. El modelado bidireccional impulsa al modelo a producir salidas contextualmente consistentes para los espacios enmascarados, incluso cuando son dañinas, mientras que la decodificación paralela limita el filtrado dinámico y el muestreo de rechazo de contenido inseguro por parte del modelo. Esto hace que los mecanismos de alineación estándar fallen, permitiendo completaciones dañinas en dLLMs ajustados para alineación, incluso cuando comportamientos dañinos o instrucciones inseguras se exponen directamente en la indicación. A través de experimentos exhaustivos, demostramos que DIJA supera significativamente los métodos de jailbreak existentes, exponiendo una superficie de amenaza previamente pasada por alto en las arquitecturas de dLLMs. Notablemente, nuestro método alcanza hasta un 100% de ASR basado en palabras clave en Dream-Instruct, superando al mejor método previo, ReNeLLM, en hasta un 78.5% en ASR basado en evaluadores en JailbreakBench y en 37.7 puntos en la puntuación StrongREJECT, sin requerir reescritura u ocultación de contenido dañino en la indicación de jailbreak. Nuestros hallazgos subrayan la necesidad urgente de reconsiderar la alineación de seguridad en esta clase emergente de modelos de lenguaje. El código está disponible en https://github.com/ZichenWen1/DIJA.
La síntesis de voz en ruso presenta desafíos distintivos, como la reducción vocálica, la desonorización de consonantes, patrones de acentuación variables, ambigüedad de homógrafos y entonación poco natural. Este artículo presenta Balalaika, un nuevo conjunto de datos que comprende más de 2,000 horas de voz en ruso de calidad de estudio con anotaciones textuales exhaustivas, incluyendo puntuación y marcas de acentuación. Los resultados experimentales muestran que los modelos entrenados con Balalaika superan significativamente a aquellos entrenados con conjuntos de datos existentes en tareas de síntesis y mejora de voz. Detallamos el proceso de construcción del conjunto de datos, la metodología de anotación y los resultados de evaluaciones comparativas.
Presentamos Franca (pronunciado Fran-ka): libre uno; el primer modelo de visión de base completamente de código abierto (datos, código, pesos) que iguala y, en muchos casos, supera el rendimiento de los modelos propietarios más avanzados, como DINOv2, CLIP, SigLIPv2, entre otros. Nuestro enfoque se basa en una canalización de entrenamiento transparente inspirada en Web-SSL y utiliza datos de acceso público: ImageNet-21K y un subconjunto de ReLAION-2B. Más allá del lanzamiento del modelo, abordamos limitaciones críticas en los métodos de clustering de SSL. Si bien los modelos modernos dependen de asignar características de imágenes a grandes codebooks mediante algoritmos de clustering como Sinkhorn-Knopp, no tienen en cuenta la ambigüedad inherente en la semántica del clustering. Para resolver esto, introducimos un proyector de clustering multi-cabeza eficiente en parámetros basado en representaciones anidadas tipo Matryoshka. Este diseño refina progresivamente las características en clusters cada vez más detallados sin aumentar el tamaño del modelo, permitiendo tanto rendimiento como eficiencia de memoria. Además, proponemos una novedosa estrategia de desenredado posicional que elimina explícitamente los sesgos posicionales de las representaciones densas, mejorando así la codificación del contenido semántico. Esto conduce a ganancias consistentes en varios puntos de referencia posteriores, demostrando la utilidad de espacios de características más limpios. Nuestras contribuciones establecen un nuevo estándar para modelos de visión transparentes y de alto rendimiento, y abren un camino hacia modelos de base más reproducibles y generalizables para la comunidad más amplia de IA. El código y los puntos de control del modelo están disponibles en https://github.com/valeoai/Franca.
En la era de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), la alineación ha surgido como un problema fundamental pero desafiante en la búsqueda de una inteligencia artificial más confiable, controlable y capaz. El reciente éxito de los modelos de razonamiento y los sistemas de IA conversacional ha subrayado el papel crítico del aprendizaje por refuerzo (RL, por sus siglas en inglés) en la mejora de estos sistemas, impulsando un mayor interés de investigación en la intersección entre RL y la alineación de LLMs. Este artículo ofrece una revisión exhaustiva de los avances recientes en la alineación de LLMs a través del lente del aprendizaje por refuerzo inverso (IRL, por sus siglas en inglés), enfatizando las distinciones entre las técnicas de RL empleadas en la alineación de LLMs y aquellas en tareas convencionales de RL. En particular, destacamos la necesidad de construir modelos de recompensa neuronal a partir de datos humanos y discutimos las implicaciones formales y prácticas de este cambio de paradigma. Comenzamos introduciendo conceptos fundamentales en RL para proporcionar una base a los lectores no familiarizados con el campo. Luego, examinamos los avances recientes en esta agenda de investigación, discutiendo los desafíos clave y las oportunidades al realizar IRL para la alineación de LLMs. Más allá de consideraciones metodológicas, exploramos aspectos prácticos, incluyendo conjuntos de datos, puntos de referencia, métricas de evaluación, infraestructura y técnicas computacionalmente eficientes para el entrenamiento y la inferencia. Finalmente, extraemos ideas de la literatura sobre RL con recompensas dispersas para identificar preguntas abiertas y posibles direcciones de investigación. Al sintetizar hallazgos de diversos estudios, nuestro objetivo es proporcionar una visión estructurada y crítica del campo, resaltar desafíos no resueltos y esbozar direcciones futuras prometedoras para mejorar la alineación de LLMs a través de técnicas de RL e IRL.
Desentrañar el contenido y el estilo de una sola imagen, conocido como descomposición de contenido-estilo (CSD, por sus siglas en inglés), permite la recontextualización del contenido extraído y la estilización de los estilos extraídos, ofreciendo una mayor flexibilidad creativa en la síntesis visual. Si bien los métodos de personalización recientes han explorado la descomposición explícita de contenido y estilo, estos siguen adaptados para modelos de difusión. Mientras tanto, el Modelado Autoregresivo Visual (VAR) ha surgido como una alternativa prometedora con un paradigma de predicción a escala siguiente, logrando un rendimiento comparable al de los modelos de difusión. En este artículo, exploramos VAR como un marco generativo para CSD, aprovechando su proceso de generación por escalas para mejorar el desentrelazamiento. Con este fin, proponemos CSD-VAR, un método novedoso que introduce tres innovaciones clave: (1) una estrategia de optimización alternante consciente de la escala que alinea las representaciones de contenido y estilo con sus respectivas escalas para mejorar la separación, (2) un método de rectificación basado en SVD para mitigar la filtración de contenido en las representaciones de estilo, y (3) una memoria de Clave-Valor (K-V) Aumentada que mejora la preservación de la identidad del contenido. Para evaluar esta tarea, presentamos CSD-100, un conjunto de datos diseñado específicamente para la descomposición de contenido-estilo, que incluye diversos sujetos representados en varios estilos artísticos. Los experimentos demuestran que CSD-VAR supera a los enfoques anteriores, logrando una preservación de contenido y una fidelidad de estilización superiores.
Este artículo se centra en los Modelos de Lenguaje Multimodales Monolíticos (MLLMs, por sus siglas en inglés), que integran la codificación visual y la decodificación del lenguaje en un solo modelo. Las estructuras y estrategias de preentrenamiento existentes para los MLLMs monolíticos a menudo presentan problemas de optimización inestable y olvido catastrófico. Para abordar estos desafíos, nuestra idea clave es incorporar un nuevo espacio de parámetros visuales en un LLM preentrenado, permitiendo un aprendizaje estable del conocimiento visual a partir de datos ruidosos mediante el ajuste delta. Basándonos en este principio, primero presentamos Mono-InternVL, un MLLM monolítico avanzado que incorpora un conjunto de expertos visuales a través de una arquitectura multimodal de mezcla de expertos. Además, diseñamos un preentrenamiento visual endógeno innovador (EViP) para Mono-InternVL con el fin de maximizar sus capacidades visuales mediante un aprendizaje progresivo. Mono-InternVL logra un rendimiento competitivo en comparación con los MLLMs existentes, pero también conlleva un costo de datos relativamente elevado. Por lo tanto, presentamos además Mono-InternVL-1.5, un MLLM monolítico más económico y potente equipado con un EViP mejorado (EViP++). EViP++ introduce expertos adicionales de atención visual en Mono-InternVL-1.5 y reorganiza el proceso de preentrenamiento de manera eficiente. Durante la inferencia, incluye un núcleo CUDA fusionado para acelerar sus operaciones de MoE. Con estos diseños, Mono-InternVL-1.5 reduce significativamente los costos de entrenamiento e inferencia, manteniendo al mismo tiempo un rendimiento competitivo con Mono-InternVL. Para evaluar nuestro enfoque, realizamos experimentos exhaustivos en 15 benchmarks. Los resultados demuestran que Mono-InternVL supera a los MLLMs monolíticos existentes en 12 de los 15 benchmarks, por ejemplo, una mejora de +114 puntos sobre Emu3 en OCRBench. En comparación con su contraparte modular, es decir, InternVL-1.5, Mono-InternVL-1.5 logra un rendimiento multimodal similar mientras reduce la latencia del primer token hasta en un 69%. El código y los modelos están disponibles en https://github.com/OpenGVLab/Mono-InternVL.
La predicción de tokens enmascarados ha surgido como un objetivo de preentrenamiento poderoso en los ámbitos del lenguaje, la visión y el habla, ofreciendo el potencial de unificar estas diversas modalidades a través de una única tarea de preentrenamiento. Sin embargo, su aplicación para la comprensión general del audio sigue siendo poco explorada, siendo BEATs el único ejemplo notable. BEATs ha experimentado modificaciones limitadas debido a la ausencia de código de preentrenamiento de código abierto. Además, BEATs fue entrenado únicamente en AudioSet, lo que restringe su aplicabilidad descendente más amplia. Para abordar estas brechas, presentamos OpenBEATs, un marco de código abierto que extiende BEATs mediante el preentrenamiento de audio en múltiples dominios. Realizamos evaluaciones exhaustivas en seis tipos de tareas, veinticinco conjuntos de datos y tres dominios de audio, incluyendo tareas de razonamiento de audio como la respuesta a preguntas de audio, implicación y generación de subtítulos. OpenBEATs logra un rendimiento de vanguardia en seis conjuntos de datos de bioacústica, dos conjuntos de datos de sonidos ambientales y cinco conjuntos de datos de razonamiento, superando a modelos que superan los mil millones de parámetros con un cuarto de su tamaño de parámetros. Estos resultados demuestran la efectividad de los conjuntos de datos de múltiples dominios y la tarea de predicción de tokens enmascarados para aprender representaciones de audio de propósito general. Para promover más investigación y reproducibilidad, publicamos todo el código de preentrenamiento y evaluación, puntos de control preentrenados y ajustados, y registros de entrenamiento en https://shikhar-s.github.io/OpenBEATs.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han revolucionado la comprensión multimodal, pero siguen enfrentando dificultades con las alucinaciones: contenido fabricado que contradice las entradas visuales. Los métodos existentes para mitigar las alucinaciones o bien incurren en costos computacionales prohibitivos o introducen desajustes en la distribución entre los datos de entrenamiento y las salidas del modelo. Identificamos una idea clave: las alucinaciones surgen predominantemente en las etapas iniciales de la generación de texto y se propagan a través de las salidas posteriores. Para abordar esto, proponemos **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), un marco que elimina la dependencia de anotaciones humanas. Específicamente, primero generamos pares de preferencias de alta calidad dentro del dominio mediante el muestreo iterativo de salidas del modelo, validando la existencia de objetos mediante la verificación cruzada con dos detectores de vocabulario abierto, y clasificando las oraciones en categorías de alucinadas/no alucinadas. Posteriormente, utilizamos muestras positivas coherentes con el contexto y muestras negativas alucinadas para construir datos de preferencia conscientes del contexto de manera iterativa. Finalmente, entrenamos los modelos utilizando una función de pérdida de preferencia consciente del contexto (C-DPO) que enfatiza el aprendizaje discriminativo a nivel de oración, donde las alucinaciones se manifiestan inicialmente. Los resultados experimentales muestran que SENTINEL puede reducir las alucinaciones en más del 90\% en comparación con el modelo original y supera al método anterior más avanzado tanto en benchmarks de alucinaciones como en benchmarks de capacidades generales, demostrando su superioridad y capacidad de generalización. Los modelos, conjuntos de datos y código están disponibles en https://github.com/pspdada/SENTINEL.
Como un medio principal para la diseminación de información moderna, los servicios de redes sociales (SNS, por sus siglas en inglés) han experimentado un crecimiento acelerado, lo cual ha planteado desafíos significativos para la gestión de contenido en las plataformas y la mejora de la calidad de las interacciones. Recientemente, el desarrollo de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha ofrecido soluciones potenciales, pero los estudios existentes se centran en tareas aisladas, lo que no solo enfrenta beneficios decrecientes debido al escalamiento de datos en escenarios individuales, sino que también falla en adaptarse de manera flexible a diversos contextos del mundo real. Para abordar estos desafíos, presentamos RedOne, un LLM específico para el dominio diseñado para superar el cuello de botella en el rendimiento de los modelos base de tarea única y establecer una base integral para los SNS. RedOne fue desarrollado mediante una estrategia de entrenamiento en tres etapas que incluye preentrenamiento continuo, ajuste fino supervisado y optimización de preferencias, utilizando un conjunto de datos a gran escala del mundo real. A través de experimentos extensivos, RedOne mantiene capacidades generales sólidas y logra una mejora promedio de hasta el 14.02% en 8 tareas principales de SNS y un 7.56% en el benchmark de evaluación bilingüe de SNS, en comparación con los modelos base. Además, mediante pruebas en línea, RedOne redujo la tasa de exposición en la detección de contenido dañino en un 11.23% y mejoró la tasa de clics en la búsqueda post-vista en un 14.95%, en comparación con los modelos base ajustados para tareas únicas. Estos resultados establecen a RedOne como un LLM específico para el dominio robusto para SNS, demostrando una excelente generalización en diversas tareas y una aplicabilidad prometedora en escenarios del mundo real.
La evaluación de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es una tarea compleja, en la cual se han propuesto varios enfoques. El más común es el uso de benchmarks automatizados en los que los LLMs deben responder preguntas de opción múltiple sobre diversos temas. Sin embargo, este método tiene ciertas limitaciones, siendo la más preocupante la baja correlación con las evaluaciones humanas. Un enfoque alternativo es que los humanos evalúen los LLMs. Esto plantea problemas de escalabilidad, ya que existe un número grande y creciente de modelos que evaluar, lo que hace poco práctico (y costoso) realizar estudios tradicionales basados en reclutar un número de evaluadores y hacer que clasifiquen las respuestas de los modelos. Un enfoque alternativo es el uso de arenas públicas, como la popular LM Arena, en la que cualquier usuario puede evaluar libremente modelos sobre cualquier pregunta y clasificar las respuestas de dos modelos. Los resultados se elaboran luego en una clasificación de modelos. Un aspecto cada vez más importante de los LLMs es su consumo de energía y, por lo tanto, evaluar cómo la conciencia energética influye en las decisiones de los humanos al seleccionar un modelo es de interés. En este artículo, presentamos GEA, la Generative Energy Arena, una arena que incorpora información sobre el consumo de energía del modelo en el proceso de evaluación. También se presentan resultados preliminares obtenidos con GEA, que muestran que, para la mayoría de las preguntas, cuando los usuarios son conscientes del consumo de energía, prefieren modelos más pequeños y eficientes energéticamente. Esto sugiere que, para la mayoría de las interacciones de los usuarios, el costo adicional y el consumo de energía incurridos por los modelos más complejos y de mayor rendimiento no proporcionan un aumento en la calidad percibida de las respuestas que justifique su uso.
Esta investigación presenta un marco para la gestión cuantitativa del riesgo en mercados volátiles, centrándose específicamente en metodologías basadas en expectiles aplicadas al índice FTSE 100. Las medidas tradicionales de riesgo, como el Valor en Riesgo (VaR), han demostrado limitaciones significativas durante períodos de estrés en los mercados, como se evidenció durante la crisis financiera de 2008 y los posteriores períodos de volatilidad. Este estudio desarrolla un marco avanzado basado en expectiles que aborda las deficiencias de los enfoques convencionales basados en cuantiles, proporcionando una mayor sensibilidad a las pérdidas en las colas y una mejor estabilidad en condiciones extremas del mercado. La investigación emplea un conjunto de datos que abarca dos décadas de rendimientos del FTSE 100, incorporando períodos de alta volatilidad, caídas del mercado y fases de recuperación. Nuestra metodología introduce formulaciones matemáticas novedosas para modelos de regresión de expectiles, técnicas mejoradas de determinación de umbrales utilizando análisis de series temporales y procedimientos robustos de retroprueba. Los resultados empíricos demuestran que el Valor en Riesgo basado en expectiles (EVaR) supera consistentemente las medidas tradicionales de VaR en diversos niveles de confianza y condiciones de mercado. El marco muestra un rendimiento superior durante períodos volátiles, con un riesgo de modelo reducido y una precisión predictiva mejorada. Además, el estudio establece pautas prácticas para la implementación en instituciones financieras y proporciona recomendaciones basadas en evidencia para el cumplimiento regulatorio y la gestión de carteras. Los hallazgos contribuyen significativamente a la literatura sobre la gestión del riesgo financiero y ofrecen herramientas prácticas para los profesionales que operan en entornos de mercado volátiles.