Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Visión y Lenguaje de Gran Escala (VLMs, por sus siglas en inglés) ofrecen un rendimiento excepcional, pero requieren recursos computacionales significativos, lo que limita su implementación en dispositivos móviles y de borde. Los VLMs más pequeños suelen replicar las decisiones de diseño de los modelos más grandes, como la extensa tokenización de imágenes, lo que conduce a un uso ineficiente de la memoria de la GPU y limita su practicidad para aplicaciones en dispositivos. Presentamos SmolVLM, una serie de modelos multimodales compactos específicamente diseñados para una inferencia eficiente en términos de recursos. Exploramos sistemáticamente configuraciones arquitectónicas, estrategias de tokenización y la curación de datos optimizada para un bajo costo computacional. A través de esto, identificamos decisiones clave de diseño que generan ganancias sustanciales de rendimiento en tareas de imágenes y videos con huellas de memoria mínimas. Nuestro modelo más pequeño, SmolVLM-256M, utiliza menos de 1 GB de memoria de GPU durante la inferencia y supera al modelo Idefics-80B, que es 300 veces más grande, a pesar de una brecha de desarrollo de 18 meses. Nuestro modelo más grande, con 2.200 millones de parámetros, rivaliza con los VLMs de última generación que consumen el doble de memoria de GPU. Los modelos SmolVLM van más allá de las imágenes estáticas, demostrando capacidades robustas de comprensión de video. Nuestros resultados enfatizan que las optimizaciones arquitectónicas estratégicas, la tokenización agresiva pero eficiente y los datos de entrenamiento cuidadosamente curados mejoran significativamente el rendimiento multimodal, facilitando implementaciones prácticas y energéticamente eficientes a escalas significativamente más pequeñas.
Los Transformers actualmente aún tienen dificultades para generar videos de un minuto porque las capas de autoatención son ineficientes para contextos largos. Alternativas como las capas Mamba luchan con historias complejas de múltiples escenas porque sus estados ocultos son menos expresivos. Experimentamos con capas de Entrenamiento en Tiempo de Prueba (TTT), cuyos estados ocultos pueden ser redes neuronales, lo que los hace más expresivos. Al agregar capas TTT a un Transformer preentrenado, este puede generar videos de un minuto a partir de guiones gráficos de texto. Como prueba de concepto, hemos creado un conjunto de datos basado en los dibujos animados de Tom y Jerry. En comparación con líneas de base como Mamba~2, Gated DeltaNet y capas de atención de ventana deslizante, las capas TTT generan videos mucho más coherentes que cuentan historias complejas, superando por 34 puntos Elo en una evaluación humana de 100 videos por método. Aunque prometedores, los resultados aún contienen artefactos, probablemente debido a la capacidad limitada del modelo preentrenado de 5B. La eficiencia de nuestra implementación también puede mejorarse. Solo hemos experimentado con videos de un minuto debido a limitaciones de recursos, pero el enfoque puede extenderse a videos más largos y a historias más complejas. Videos de muestra, código y anotaciones están disponibles en: https://test-time-training.github.io/video-dit
La capacidad de un modelo de lenguaje para reflexionar sobre su propio razonamiento ofrece una ventaja clave para resolver problemas complejos. Si bien la mayoría de las investigaciones recientes se ha centrado en cómo esta habilidad se desarrolla durante el aprendizaje por refuerzo, demostramos que en realidad comienza a surgir mucho antes: durante la fase de preentrenamiento del modelo. Para estudiar esto, introducimos errores deliberados en cadenas de pensamiento y evaluamos si el modelo aún puede llegar a la respuesta correcta reconociendo y corrigiendo estos errores. Al rastrear el rendimiento en diferentes etapas del preentrenamiento, observamos que esta capacidad de autocorrección aparece temprano y mejora de manera constante con el tiempo. Por ejemplo, un modelo OLMo2-7B preentrenado con 4 billones de tokens muestra autocorrección en nuestras seis tareas de autorreflexión.
Estudios recientes han demostrado que el escalado de cómputo en tiempo de prueba mejora efectivamente el rendimiento de los modelos de lenguaje pequeños (sLMs). Sin embargo, investigaciones previas han examinado principalmente el escalado de cómputo en tiempo de prueba con un modelo más grande adicional como verificador, dejando la auto-verificación por parte de los sLMs poco explorada. En este trabajo, investigamos si los sLMs pueden auto-verificar de manera confiable sus salidas bajo escalado en tiempo de prueba. Descubrimos que, incluso con la destilación de conocimiento de verificadores más grandes, los sLMs tienen dificultades con tareas de verificación que requieren memorización, como cálculos numéricos y verificación de hechos. Para abordar esta limitación, proponemos la auto-verificación integrada con herramientas (T1), que delega los pasos de verificación que requieren mucha memorización a herramientas externas, como un intérprete de código. Nuestro análisis teórico muestra que la integración de herramientas reduce las demandas de memorización y mejora el rendimiento del escalado en tiempo de prueba. Los experimentos en el benchmark MATH demuestran que, con T1, un modelo Llama-3.2 1B bajo escalado en tiempo de prueba supera al modelo significativamente más grande Llama-3.1 8B. Además, T1 generaliza efectivamente tanto a tareas matemáticas (MATH500) como a tareas intensivas en conocimiento de múltiples dominios (MMLU-Pro). Nuestros hallazgos resaltan el potencial de la integración de herramientas para mejorar sustancialmente las capacidades de auto-verificación de los sLMs.
La descripción a nivel de región tiene como objetivo generar descripciones en lenguaje natural para regiones específicas de una imagen, destacando sus características distintivas. Sin embargo, los métodos existentes tienen dificultades para producir descripciones únicas a través de múltiples niveles de granularidad, lo que limita su aplicabilidad en el mundo real. Para abordar la necesidad de una comprensión detallada a nivel de región, presentamos el conjunto de datos URECA, un conjunto de datos a gran escala diseñado para la descripción de regiones con múltiples niveles de granularidad. A diferencia de conjuntos de datos anteriores que se centran principalmente en objetos destacados, URECA asegura un mapeo único y consistente entre regiones y descripciones al incorporar una diversa gama de objetos, partes y elementos de fondo. Central a esto es una canalización de curación de datos por etapas, donde cada etapa refina incrementalmente la selección de regiones y la generación de descripciones. Al aprovechar Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) en cada etapa, nuestra canalización produce descripciones distintivas y contextualmente fundamentadas con una precisión y diversidad semántica mejoradas. Basándonos en este conjunto de datos, presentamos URECA, un modelo de descripción novedoso diseñado para codificar eficazmente regiones con múltiples niveles de granularidad. URECA mantiene propiedades espaciales esenciales como la posición y la forma a través de modificaciones simples pero impactantes en los MLLMs existentes, permitiendo descripciones de regiones detalladas y semánticamente ricas. Nuestro enfoque introduce modelado dinámico de máscaras y un codificador de máscaras de alta resolución para mejorar la singularidad de las descripciones. Los experimentos muestran que URECA alcanza un rendimiento de vanguardia en el conjunto de datos URECA y se generaliza bien a los puntos de referencia existentes de descripción a nivel de región.
Los recientes avances en los modelos de lenguaje de razonamiento han demostrado un rendimiento notable en tareas complejas, pero su proceso extendido de razonamiento en cadena aumenta la sobrecarga de inferencia. Si bien la cuantización ha sido ampliamente adoptada para reducir el costo de inferencia de los modelos de lenguaje grandes, su impacto en los modelos de razonamiento sigue siendo poco estudiado. En este estudio, realizamos la primera investigación sistemática sobre modelos de razonamiento cuantizados, evaluando las familias DeepSeek-R1-Distilled Qwen y LLaMA, que van desde 1.5B hasta 70B parámetros, y QwQ-32B, todas de código abierto. Nuestra investigación abarca la cuantización de pesos, caché KV y activaciones utilizando algoritmos de vanguardia en diferentes anchos de bits, con una evaluación extensa en benchmarks de razonamiento matemático (AIME, MATH-500), científico (GPQA) y de programación (LiveCodeBench). Nuestros hallazgos revelan que, si bien se puede lograr una cuantización sin pérdidas con W8A8 o W4A16, los anchos de bits más bajos introducen riesgos significativos de precisión. Además, identificamos que el tamaño del modelo, su origen y la dificultad de la tarea son determinantes críticos del rendimiento. Contrario a las expectativas, los modelos cuantizados no muestran longitudes de salida aumentadas. Asimismo, escalar estratégicamente los tamaños de los modelos o los pasos de razonamiento puede mejorar efectivamente el rendimiento. Todos los modelos cuantizados y los códigos estarán disponibles en https://github.com/ruikangliu/Quantized-Reasoning-Models.
Presentamos VAPO, un marco de Optimización de Políticas Proximales Aumentadas basado en valores, diseñado específicamente para modelos de razonamiento dentro del paradigma basado en valores. Evaluado en el conjunto de datos AIME 2024, VAPO, construido sobre el modelo preentrenado Qwen 32B, alcanza una puntuación de vanguardia de 60.4. En comparación directa bajo configuraciones experimentales idénticas, VAPO supera los resultados previamente reportados de DeepSeek-R1-Zero-Qwen-32B y DAPO por más de 10 puntos. El proceso de entrenamiento de VAPO destaca por su estabilidad y eficiencia, alcanzando un rendimiento de vanguardia en apenas 5,000 pasos. Además, en múltiples ejecuciones independientes, no se producen fallos en el entrenamiento, lo que subraya su fiabilidad. Esta investigación profundiza en el razonamiento de cadena de pensamiento larga (long-CoT) utilizando un marco de aprendizaje por refuerzo basado en valores. Identificamos tres desafíos clave que afectan a los métodos basados en valores: el sesgo del modelo de valor, la presencia de longitudes de secuencia heterogéneas y la escasez de señales de recompensa. A través de un diseño sistemático, VAPO ofrece una solución integrada que mitiga eficazmente estos desafíos, permitiendo un mejor desempeño en tareas de razonamiento long-CoT.
Los modelos de difusión son ampliamente utilizados para tareas de edición de imágenes. Los métodos de edición existentes suelen diseñar un procedimiento de manipulación de representaciones mediante la creación de una dirección de edición en el espacio de incrustación de texto o de puntuación. Sin embargo, este procedimiento enfrenta un desafío clave: sobreestimar la fuerza de la edición perjudica la consistencia visual, mientras que subestimarla no logra cumplir la tarea de edición. Cabe destacar que cada imagen fuente puede requerir una fuerza de edición diferente, y es costoso buscar una fuerza adecuada mediante prueba y error. Para abordar este desafío, proponemos Concept Lancet (CoLan), un marco plug-and-play de cero disparos para la manipulación de representaciones fundamentada en la edición de imágenes basada en difusión. En el momento de la inferencia, descomponemos la entrada fuente en el espacio latente (incrustación de texto o puntuación de difusión) como una combinación lineal dispersa de las representaciones de los conceptos visuales recopilados. Esto nos permite estimar con precisión la presencia de conceptos en cada imagen, lo que informa la edición. Según la tarea de edición (reemplazar/agregar/eliminar), realizamos un proceso personalizado de trasplante de conceptos para imponer la dirección de edición correspondiente. Para modelar suficientemente el espacio de conceptos, recopilamos un conjunto de datos de representación conceptual, CoLan-150K, que contiene descripciones y escenarios diversos de términos y frases visuales para el diccionario latente. Los experimentos en múltiples líneas base de edición de imágenes basadas en difusión muestran que los métodos equipados con CoLan logran un rendimiento de vanguardia en efectividad de edición y preservación de consistencia.
Presentamos LiveVQA, un conjunto de datos recopilado automáticamente que contiene conocimiento visual actualizado de Internet con problemas de VQA sintetizados. LiveVQA consta de 3,602 preguntas visuales de uno o múltiples saltos, obtenidas de 6 sitios web de noticias en 14 categorías temáticas, destacándose por su alta coherencia imagen-texto e información auténtica. Nuestra evaluación en 15 MLLMs (por ejemplo, GPT-4o, Gemma-3 y la familia Qwen-2.5-VL) demuestra que los modelos más potentes tienen un mejor rendimiento general, siendo cruciales las capacidades avanzadas de razonamiento visual para preguntas complejas de múltiples saltos. A pesar del excelente desempeño en problemas textuales, los modelos con herramientas como motores de búsqueda aún muestran brechas significativas al abordar preguntas visuales que requieren conocimiento visual actualizado, lo que subraya áreas importantes para futuras investigaciones.
La proliferación de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) accesibles a través de APIs de caja negra introduce un desafío significativo en cuanto a la confianza: los usuarios pagan por servicios basados en las capacidades anunciadas del modelo (por ejemplo, tamaño, rendimiento), pero los proveedores podrían sustituir de manera encubierta el modelo especificado por una alternativa más económica y de menor calidad para reducir costos operativos. Esta falta de transparencia socava la equidad, erosiona la confianza y complica la evaluación confiable de los modelos. Detectar tales sustituciones es difícil debido a la naturaleza de caja negra, que generalmente limita la interacción a consultas de entrada-salida. Este artículo formaliza el problema de la detección de sustituciones de modelos en APIs de LLMs. Evaluamos sistemáticamente las técnicas de verificación existentes, incluyendo pruebas estadísticas basadas en salidas, evaluaciones de referencia y análisis de probabilidades logarítmicas, bajo diversos escenarios de ataque realistas como la cuantización de modelos, sustitución aleatoria y evasión de evaluaciones de referencia. Nuestros hallazgos revelan las limitaciones de los métodos que dependen únicamente de las salidas de texto, especialmente frente a ataques sutiles o adaptativos. Si bien el análisis de probabilidades logarítmicas ofrece garantías más sólidas cuando está disponible, su accesibilidad suele ser limitada. Concluimos discutiendo el potencial de soluciones basadas en hardware, como los Entornos de Ejecución Confiables (TEEs, por sus siglas en inglés), como una vía hacia la integridad probada de los modelos, destacando las compensaciones entre seguridad, rendimiento y adopción por parte de los proveedores. El código está disponible en https://github.com/sunblaze-ucb/llm-api-audit.
El razonamiento es fundamental para la inteligencia humana, permitiendo la resolución estructurada de problemas en diversas tareas. Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mejorado significativamente sus capacidades de razonamiento en dominios aritméticos, de sentido común y simbólicos. Sin embargo, extender eficazmente estas capacidades a contextos multimodales—donde los modelos deben integrar tanto entradas visuales como textuales—sigue siendo un desafío importante. El razonamiento multimodal introduce complejidades, como manejar información conflictiva entre modalidades, lo que requiere que los modelos adopten estrategias interpretativas avanzadas. Abordar estos desafíos implica no solo algoritmos sofisticados, sino también metodologías robustas para evaluar la precisión y coherencia del razonamiento. Este artículo ofrece una visión general concisa pero perspicaz de las técnicas de razonamiento en LLMs tanto textuales como multimodales. A través de una comparación exhaustiva y actualizada, formulamos claramente los desafíos y oportunidades centrales del razonamiento, destacando métodos prácticos para la optimización post-entrenamiento y la inferencia en tiempo de prueba. Nuestro trabajo proporciona ideas y orientaciones valiosas, conectando marcos teóricos con implementaciones prácticas, y establece direcciones claras para futuras investigaciones.
Los modelos de difusión aproximan la distribución de eliminación de ruido como una Gaussiana y predicen su media, mientras que los modelos de emparejamiento de flujo reparametrizan la media Gaussiana como velocidad de flujo. Sin embargo, su rendimiento es inferior en muestreo de pocos pasos debido al error de discretización y tienden a producir colores sobresaturados bajo guía sin clasificador (CFG). Para abordar estas limitaciones, proponemos un nuevo modelo de emparejamiento de flujo con mezcla Gaussiana (GMFlow): en lugar de predecir la media, GMFlow predice parámetros dinámicos de mezcla Gaussiana (GM) para capturar una distribución multimodal de velocidad de flujo, la cual puede aprenderse con una pérdida de divergencia KL. Demostramos que GMFlow generaliza modelos previos de difusión y emparejamiento de flujo donde se aprende una única Gaussiana con una pérdida de eliminación de ruido L_2. Para la inferencia, derivamos solucionadores GM-SDE/ODE que aprovechan distribuciones analíticas de eliminación de ruido y campos de velocidad para un muestreo preciso en pocos pasos. Además, introducimos un novedoso esquema de guía probabilística que mitiga los problemas de sobresaturación de CFG y mejora la calidad de generación de imágenes. Experimentos extensivos demuestran que GMFlow supera consistentemente a las líneas base de emparejamiento de flujo en calidad de generación, logrando una Precisión de 0.942 con solo 6 pasos de muestreo en ImageNet 256x256.
Los Modelos de Lenguaje de Gran Escala Aumentados con Herramientas (TA-LLMs, por sus siglas en inglés) han mostrado potencial en aplicaciones del mundo real, pero enfrentan desafíos al manejar consultas incompletas y solicitudes fuera de su alcance. Mientras que los enfoques existentes se basan principalmente en el Ajuste Supervisado con trayectorias expertas, proponemos DiaTool-DPO, un método novedoso que mejora las capacidades de diálogo de los TA-LLMs mediante la Optimización Directa de Preferencias. Modelamos las interacciones de los TA-LLMs como un Proceso de Decisión de Markov con 5 estados de diálogo distintos y categorizamos las consultas de los usuarios en 3 tipos según sus trayectorias de transición de estado. Construimos automáticamente conjuntos de datos de trayectorias emparejadas de flujos de diálogo correctos e incorrectos e introducimos una función de pérdida especializada para el control del diálogo. Nuestra evaluación exhaustiva demuestra que DiaTool-DPO se acerca al rendimiento de GPT-4 (94.8% en recopilación de información, 91% en rechazo de llamadas a herramientas) con mejoras sustanciales sobre la línea base (44% y 9.6% respectivamente) mientras mantiene la funcionalidad principal. Nuestro enfoque abre nuevas posibilidades para desarrollar TA-LLMs capaces de manejar diversos escenarios del mundo real sin requerir demostraciones expertas adicionales o etiquetado humano.
Presentamos Clinical ModernBERT, un codificador basado en transformadores preentrenado en literatura biomédica a gran escala, notas clínicas y ontologías médicas, incorporando resúmenes de PubMed, datos clínicos de MIMIC IV y códigos médicos con sus descripciones textuales. Basándonos en ModernBERT, el codificador de texto de lenguaje natural más avanzado actualmente, que incluye mejoras arquitectónicas como embeddings posicionales rotatorios (RoPE), Flash Attention y una longitud de contexto extendida de hasta 8,192 tokens, nuestro modelo adapta estas innovaciones específicamente para los dominios biomédicos y clínicos. Clinical ModernBERT destaca en la producción de representaciones semánticamente ricas diseñadas para tareas de contexto largo. Validamos esto tanto mediante el análisis de sus pesos preentrenados como a través de evaluaciones empíricas en un conjunto exhaustivo de benchmarks de NLP clínico.
La comprensión de escenas 3D a partir de imágenes individuales es un problema fundamental en visión por computadora con numerosas aplicaciones en gráficos, realidad aumentada y robótica. Aunque los enfoques basados en difusión han mostrado resultados prometedores, a menudo luchan por mantener la consistencia de objetos y escenas, especialmente en escenarios complejos del mundo real. Para abordar estas limitaciones, proponemos un enfoque generativo autorregresivo llamado Modelado de Secuencia de Acceso Aleatorio Local (LRAS, por sus siglas en inglés), que utiliza cuantización de parches locales y generación de secuencias con orden aleatorio. Al emplear el flujo óptico como representación intermedia para la edición de escenas 3D, nuestros experimentos demuestran que LRAS logra capacidades de síntesis de vistas novedosas y manipulación de objetos 3D de vanguardia. Además, mostramos que nuestro marco se extiende naturalmente a la estimación de profundidad auto-supervisada mediante una simple modificación del diseño de la secuencia. Al alcanzar un rendimiento sólido en múltiples tareas de comprensión de escenas 3D, LRAS proporciona un marco unificado y efectivo para construir la próxima generación de modelos de visión 3D.
Los Modelos de Base Visual (VFMs) y los Modelos Visión-Lenguaje (VLMs) han ganado relevancia en la Segmentación Semántica Generalizada de Dominios (DGSS) debido a sus fuertes capacidades de generalización. Sin embargo, los métodos existentes de DGSS suelen depender exclusivamente de VFMs o VLMs, pasando por alto sus fortalezas complementarias. Los VFMs (por ejemplo, DINOv2) sobresalen en capturar características de gran detalle, mientras que los VLMs (por ejemplo, CLIP) ofrecen una alineación robusta con el texto pero tienen dificultades con la granularidad gruesa. A pesar de sus fortalezas complementarias, integrar efectivamente VFMs y VLMs con mecanismos de atención es un desafío, ya que el aumento de tokens de parches complica el modelado de secuencias largas. Para abordar esto, proponemos MFuser, un novedoso marco de fusión basado en Mamba que combina eficientemente las fortalezas de VFMs y VLMs manteniendo una escalabilidad lineal en la longitud de la secuencia. MFuser consta de dos componentes clave: MVFuser, que actúa como un co-adaptador para ajustar conjuntamente los dos modelos capturando tanto dinámicas secuenciales como espaciales; y MTEnhancer, un módulo híbrido de atención-Mamba que refina los embeddings de texto incorporando prioridades de imagen. Nuestro enfoque logra una localidad precisa de características y una fuerte alineación de texto sin incurrir en un sobrecosto computacional significativo. Experimentos extensivos demuestran que MFuser supera significativamente a los métodos de DGSS más avanzados, alcanzando 68.20 mIoU en benchmarks de sintético-a-real y 71.87 mIoU en real-a-real. El código está disponible en https://github.com/devinxzhang/MFuser.
Presentamos la metodología de evaluación, los conjuntos de datos y los resultados del BOP Challenge 2024, la sexta edición de una serie de competencias públicas organizadas para capturar el estado del arte en la estimación de la pose 6D de objetos y tareas relacionadas. En 2024, nuestro objetivo fue trasladar BOP desde configuraciones de laboratorio a escenarios del mundo real. Primero, introdujimos nuevas tareas sin modelos, donde no se dispone de modelos 3D de los objetos y los métodos deben incorporar objetos únicamente a partir de videos de referencia proporcionados. Segundo, definimos una nueva tarea de detección 6D de objetos más práctica, donde las identidades de los objetos visibles en una imagen de prueba no se proporcionan como entrada. Tercero, presentamos nuevos conjuntos de datos BOP-H3, grabados con sensores de alta resolución y cascos de realidad aumentada/virtual, que se asemejan estrechamente a escenarios del mundo real. BOP-H3 incluye modelos 3D y videos de incorporación para respaldar tanto tareas basadas en modelos como sin modelos. Los participantes compitieron en siete categorías del desafío, cada una definida por una tarea, una configuración de incorporación de objetos y un grupo de conjuntos de datos. Cabe destacar que el mejor método de 2024 para la localización 6D basada en modelos de objetos no vistos (FreeZeV2.1) logra un 22% más de precisión en BOP-Classic-Core que el mejor método de 2023 (GenFlow), y está solo un 4% por detrás del mejor método de 2023 para objetos vistos (GPose2023), aunque es significativamente más lento (24.9 vs 2.7s por imagen). Un método más práctico de 2024 para esta tarea es Co-op, que toma solo 0.8s por imagen y es 25 veces más rápido y un 13% más preciso que GenFlow. Los métodos tienen un ranking similar en detección 6D que en localización 6D, pero con un mayor tiempo de ejecución. En la detección 2D basada en modelos de objetos no vistos, el mejor método de 2024 (MUSE) logra una mejora relativa del 21% en comparación con el mejor método de 2023 (CNOS). Sin embargo, la precisión en la detección 2D de objetos no vistos sigue estando notablemente (-53%) por detrás de la precisión para objetos vistos (GDet2023). El sistema de evaluación en línea permanece abierto y está disponible en http://bop.felk.cvut.cz/.
Presentamos un enfoque novedoso para entrenar modelos de lenguaje pequeños en tareas intensivas de razonamiento para la clasificación de documentos, que combina la destilación de conocimiento con la optimización mediante aprendizaje por refuerzo. Mientras que los métodos existentes suelen depender de costosas anotaciones humanas o de grandes modelos de lenguaje de caja negra, nuestra metodología aprovecha datos web y un modelo de lenguaje maestro (LLM) para generar automáticamente ejemplos de entrenamiento de alta calidad con explicaciones de relevancia. Al plantear la clasificación de documentos como un problema de aprendizaje por refuerzo e incentivar capacidades de razonamiento explícitas, entrenamos un modelo de lenguaje compacto de 3 mil millones de parámetros que alcanza un rendimiento de vanguardia en el benchmark BRIGHT. Nuestro modelo ocupa el tercer lugar en la tabla de clasificación mientras utiliza significativamente menos parámetros que otros enfoques, superando a modelos que son más de 20 veces más grandes. A través de experimentos exhaustivos, demostramos que generar explicaciones durante la inferencia, en lugar de predecir directamente puntuaciones de relevancia, permite un razonamiento más efectivo con modelos de lenguaje más pequeños. La naturaleza autosupervisada de nuestro método ofrece una solución escalable e interpretable para los sistemas modernos de recuperación de información.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) destacan en tareas de visión y lenguaje, pero también presentan riesgos significativos de generar contenido dañino, particularmente a través de ataques de jailbreak. Los ataques de jailbreak se refieren a manipulaciones intencionales que eluden los mecanismos de seguridad en los modelos, lo que lleva a la generación de contenido inapropiado o inseguro. Detectar tales ataques es crucial para garantizar el despliegue responsable de los MLLMs. Los métodos existentes de detección de jailbreak enfrentan tres desafíos principales: (1) Muchos dependen de los estados ocultos o gradientes del modelo, lo que limita su aplicabilidad a modelos de caja blanca, donde el funcionamiento interno del modelo es accesible; (2) Implican un alto costo computacional debido al análisis basado en incertidumbre, lo que limita la detección en tiempo real, y (3) Requieren conjuntos de datos dañinos completamente etiquetados, que a menudo son escasos en entornos del mundo real. Para abordar estos problemas, presentamos un marco adaptable en tiempo de prueba llamado JAILDAM. Nuestro método utiliza un enfoque basado en memoria guiado por representaciones de conocimiento inseguro impulsadas por políticas, eliminando la necesidad de exposición explícita a datos dañinos. Al actualizar dinámicamente el conocimiento inseguro durante el tiempo de prueba, nuestro marco mejora la generalización a estrategias de jailbreak no vistas, manteniendo la eficiencia. Los experimentos en múltiples benchmarks de jailbreak para modelos de lenguaje visual (VLM) demuestran que JAILDAM ofrece un rendimiento de vanguardia en la detección de contenido dañino, mejorando tanto la precisión como la velocidad.
El aumento del cómputo en tiempo de prueba ha surgido como una dirección prometedora para mejorar el rendimiento de los modelos de lenguaje, particularmente en escenarios donde el ajuste fino del modelo es poco práctico o imposible debido a limitaciones computacionales o a la privacidad de los pesos del modelo. Sin embargo, los métodos existentes de búsqueda en tiempo de prueba que utilizan un modelo de recompensa (RM, por sus siglas en inglés) suelen degradarse en calidad a medida que escala el cómputo, debido a la sobreoptimización de lo que son, en esencia, proxies de recompensa imperfectos. Introducimos QAlign, un nuevo enfoque de alineación en tiempo de prueba. A medida que escalamos el cómputo en tiempo de prueba, QAlign converge a muestrear la distribución alineada óptima para cada indicación individual. Al adoptar avances recientes en cadenas de Markov Monte Carlo para la generación de texto, nuestro método permite obtener salidas mejor alineadas sin modificar el modelo subyacente ni siquiera requerir acceso a los logits. Demostramos la efectividad de QAlign en benchmarks de razonamiento matemático (GSM8K y GSM-Symbolic) utilizando un RM específico para la tarea, mostrando mejoras consistentes sobre métodos existentes de cómputo en tiempo de prueba como best-of-n y votación por mayoría. Además, cuando se aplica con RMs más realistas entrenados en el conjunto de datos de preferencias Tulu 3, QAlign supera a la optimización directa de preferencias (DPO, por sus siglas en inglés), best-of-n, votación por mayoría y votación por mayoría ponderada en una amplia gama de conjuntos de datos (GSM8K, MATH500, IFEval, MMLU-Redux y TruthfulQA). Como una solución práctica para alinear modelos de lenguaje en tiempo de prueba utilizando cómputo adicional sin degradación, nuestro enfoque expande los límites de la capacidad que se puede obtener de modelos de lenguaje listos para usar sin necesidad de entrenamiento adicional.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están avanzando a un ritmo sin precedentes a nivel global, con regiones que adoptan cada vez más estos modelos para aplicaciones en su idioma principal. La evaluación de estos modelos en diversos entornos lingüísticos, especialmente en lenguas de bajos recursos, se ha convertido en un desafío importante tanto para la academia como para la industria. Los marcos de evaluación existentes se centran de manera desproporcionada en el inglés y en un puñado de lenguas de altos recursos, pasando por alto el rendimiento realista de los LLMs en escenarios multilingües y de bajos recursos. Para abordar esta brecha, presentamos GlotEval, un marco ligero diseñado para la evaluación masivamente multilingüe. Compatible con siete tareas clave (traducción automática, clasificación de texto, resumen, generación abierta, comprensión lectora, etiquetado de secuencias y evaluación intrínseca), que abarcan desde decenas hasta cientos de idiomas, GlotEval destaca la evaluación comparativa multilingüe consistente, plantillas de instrucciones específicas por idioma y traducción automática no centrada en el inglés. Esto permite un diagnóstico preciso de las fortalezas y debilidades de los modelos en diversos contextos lingüísticos. Un estudio de caso sobre traducción multilingüe demuestra la aplicabilidad de GlotEval para evaluaciones multilingües y específicas por idioma.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) exhiben disparidades significativas en su rendimiento entre idiomas, beneficiando principalmente a los idiomas de alto recurso mientras marginan a los subrepresentados. El Pretrenamiento Continuo (CPT, por sus siglas en inglés) ha surgido como un enfoque prometedor para abordar este desequilibrio, aunque la efectividad relativa de las estrategias de datos monolingües, bilingües y aumentados con código sigue siendo poco clara. Este estudio evalúa sistemáticamente 36 configuraciones de CPT que involucran tres modelos base multilingües, en más de 30 idiomas categorizados como altruistas, egoístas y estancados, abarcando diversos niveles de recursos. Nuestros hallazgos revelan tres insights principales: (1) El CPT bilingüe mejora la clasificación multilingüe, pero a menudo causa problemas de mezcla de idiomas durante la generación. (2) Incluir datos de código de programación durante el CPT mejora consistentemente la precisión en la clasificación multilingüe, beneficiando particularmente a los idiomas de bajo recurso, pero introduce una compensación al degradar ligeramente la calidad de la generación. (3) Contrario a trabajos previos, observamos desviaciones sustanciales en las clasificaciones de idiomas según su impacto en la transferencia cruzada de idiomas: los idiomas clasificados como altruistas a menudo afectan negativamente a idiomas relacionados, los idiomas egoístas muestran un comportamiento condicional y dependiente de la configuración, y los idiomas estancados demuestran una adaptabilidad sorprendente bajo ciertas condiciones de CPT. Estas interacciones matizadas enfatizan la complejidad del aprendizaje de representaciones multilingües, destacando la importancia de estudios sistemáticos sobre clasificaciones de idiomas generalizables para informar futuras estrategias de CPT multilingüe.