Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos CameraBench, un conjunto de datos a gran escala y un punto de referencia diseñado para evaluar y mejorar la comprensión del movimiento de la cámara. CameraBench consta de aproximadamente 3,000 videos diversos de internet, anotados por expertos mediante un riguroso proceso de control de calidad en múltiples etapas. Una de nuestras contribuciones es una taxonomía de primitivas de movimiento de cámara, diseñada en colaboración con cinematógrafos. Descubrimos, por ejemplo, que algunos movimientos como "seguir" (o seguimiento) requieren comprender el contenido de la escena, como sujetos en movimiento. Realizamos un estudio a gran escala con humanos para cuantificar el rendimiento de las anotaciones humanas, revelando que la experiencia en el dominio y el entrenamiento basado en tutoriales pueden mejorar significativamente la precisión. Por ejemplo, un novato puede confundir el zoom (un cambio de parámetros intrínsecos) con el avance hacia adelante (un cambio de parámetros extrínsecos), pero puede ser entrenado para diferenciar ambos. Utilizando CameraBench, evaluamos modelos de Estructura a partir del Movimiento (SfM) y Modelos de Video-Lenguaje (VLMs), encontrando que los modelos SfM tienen dificultades para capturar primitivas semánticas que dependen del contenido de la escena, mientras que los VLMs tienen dificultades para capturar primitivas geométricas que requieren una estimación precisa de trayectorias. Luego, ajustamos un VLM generativo en CameraBench para lograr lo mejor de ambos mundos y mostramos sus aplicaciones, incluyendo subtítulos aumentados con movimiento, respuesta a preguntas en video y recuperación de video-texto. Esperamos que nuestra taxonomía, punto de referencia y tutoriales impulsen futuros esfuerzos hacia el objetivo final de comprender los movimientos de la cámara en cualquier video.
Presentamos Skywork R1V2, un modelo de razonamiento multimodal de próxima generación y un avance significativo respecto a su predecesor, Skywork R1V. En su núcleo, R1V2 introduce un paradigma híbrido de aprendizaje por refuerzo que armoniza la guía de modelos de recompensa con estrategias basadas en reglas, abordando así el desafío persistente de equilibrar capacidades de razonamiento sofisticadas con una amplia generalización. Para mejorar aún más la eficiencia del entrenamiento, proponemos el mecanismo de Búfer de Muestras Selectivas (SSB, por sus siglas en inglés), que contrarresta eficazmente el dilema de las "Ventajas Desvanecidas" inherente a la Optimización de Políticas Relativas de Grupo (GRPO) al priorizar muestras de alto valor durante el proceso de optimización. Es notable que observamos que señales excesivas de refuerzo pueden inducir alucinaciones visuales—un fenómeno que monitoreamos sistemáticamente y mitigamos mediante umbrales de recompensa calibrados a lo largo del proceso de entrenamiento. Los resultados empíricos confirman la capacidad excepcional de R1V2, con desempeños líderes en benchmarks como 62.6 en OlympiadBench, 79.0 en AIME2024, 63.6 en LiveCodeBench y 74.0 en MMMU. Estos resultados subrayan la superioridad de R1V2 sobre los modelos de código abierto existentes y demuestran un progreso significativo en la reducción de la brecha de rendimiento con los sistemas propietarios líderes, incluyendo Gemini 2.5 y OpenAI o4-mini. Los pesos del modelo Skywork R1V2 han sido liberados públicamente para promover la apertura y la reproducibilidad https://huggingface.co/Skywork/Skywork-R1V2-38B.
El despliegue eficiente de modelos de lenguaje grandes (LLMs) de 1 bit se ve obstaculizado por los valores atípicos en las activaciones, lo que complica la cuantización a bajos anchos de bits. Presentamos BitNet v2, un marco novedoso que permite la cuantización nativa de activaciones de 4 bits para LLMs de 1 bit. Para abordar los valores atípicos en las activaciones de la atención y la red de alimentación directa, proponemos H-BitLinear, un módulo que aplica una transformación de Hadamard en línea antes de la cuantización de las activaciones. Esta transformación suaviza las distribuciones de activaciones abruptas en formas más parecidas a las gaussianas, adecuadas para la representación de bajo bit. Los experimentos muestran que BitNet v2 entrenado desde cero con activaciones de 8 bits iguala el rendimiento de BitNet b1.58. Crucialmente, BitNet v2 logra una degradación mínima del rendimiento cuando se entrena con activaciones nativas de 4 bits, reduciendo significativamente la huella de memoria y el costo computacional para la inferencia por lotes.
Evaluar las capacidades de comprensión de video en sistemas de IA multimodal puede medir efectivamente sus habilidades de entendimiento y razonamiento. La mayoría de los puntos de referencia para la evaluación de video se limitan a un solo idioma, generalmente el inglés, y presentan predominantemente videos arraigados en contextos culturales occidentales. En este artículo, presentamos VideoVista-CulturalLingo, el primer punto de referencia de evaluación de video diseñado para cerrar la brecha cultural, lingüística y de dominio en la comprensión de video. Nuestro trabajo se diferencia de los puntos de referencia existentes de las siguientes maneras: 1) Diversidad cultural, incorporando culturas de China, América del Norte y Europa; 2) Multilingüismo, con preguntas presentadas en chino e inglés, dos de los idiomas más hablados; y 3) Amplio dominio, con videos obtenidos de cientos de dominios creados por humanos. VideoVista-CulturalLingo contiene 1,389 videos y 3,134 pares de preguntas y respuestas, y hemos evaluado 24 modelos grandes de video recientes, ya sean de código abierto o propietarios. A partir de los resultados del experimento, observamos que: 1) Los modelos existentes tienen un peor desempeño en preguntas centradas en China que en las centradas en Occidente, particularmente aquellas relacionadas con la historia china; 2) Los modelos de código abierto actuales aún muestran limitaciones en la comprensión temporal, especialmente en la tarea de Localización de Eventos, alcanzando una puntuación máxima de solo 45.2%; 3) Los modelos principales demuestran un fuerte desempeño en preguntas científicas generales, mientras que los modelos de código abierto muestran un desempeño débil en matemáticas.
Presentamos Kimi-Audio, un modelo de base de audio de código abierto que sobresale en comprensión, generación y conversación de audio. Detallamos las prácticas empleadas en la construcción de Kimi-Audio, incluyendo la arquitectura del modelo, la curación de datos, la receta de entrenamiento, el despliegue de inferencia y la evaluación. Específicamente, utilizamos un tokenizador de audio de 12.5 Hz, diseñamos una novedosa arquitectura basada en LLM con características continuas como entrada y tokens discretos como salida, y desarrollamos un detokenizador de transmisión por fragmentos basado en emparejamiento de flujo. Curación de un conjunto de datos de preentrenamiento que consta de más de 13 millones de horas de datos de audio que cubren una amplia gama de modalidades, incluyendo habla, sonido y música, y construimos una canalización para crear datos de post-entrenamiento de alta calidad y diversidad. Inicializado a partir de un LLM preentrenado, Kimi-Audio se somete a un preentrenamiento continuo tanto en datos de audio como de texto con varias tareas cuidadosamente diseñadas, y luego se ajusta para soportar una variedad de tareas relacionadas con el audio. Una evaluación extensa muestra que Kimi-Audio alcanza un rendimiento de vanguardia en una serie de benchmarks de audio, incluyendo reconocimiento de voz, comprensión de audio, respuesta a preguntas de audio y conversación de voz. Publicamos los códigos, los puntos de control del modelo, así como las herramientas de evaluación en https://github.com/MoonshotAI/Kimi-Audio.
El análisis multimodal del lenguaje es un campo en rápida evolución que aprovecha múltiples modalidades para mejorar la comprensión de la semántica de alto nivel subyacente en las expresiones conversacionales humanas. A pesar de su importancia, pocas investigaciones han explorado la capacidad de los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) para comprender la semántica a nivel cognitivo. En este artículo, presentamos MMLA, un punto de referencia integral diseñado específicamente para abordar esta brecha. MMLA comprende más de 61K expresiones multimodales extraídas tanto de escenarios simulados como del mundo real, cubriendo seis dimensiones clave de la semántica multimodal: intención, emoción, acto de diálogo, sentimiento, estilo de habla y comportamiento comunicativo. Evaluamos ocho ramas principales de modelos de lenguaje (LLMs) y MLLMs utilizando tres métodos: inferencia zero-shot, ajuste supervisado y ajuste por instrucción. Experimentos exhaustivos revelan que incluso los modelos ajustados logran solo entre un 60% y un 70% de precisión, lo que subraya las limitaciones de los MLLMs actuales para comprender el lenguaje humano complejo. Creemos que MMLA servirá como una base sólida para explorar el potencial de los modelos de lenguaje de gran escala en el análisis multimodal del lenguaje y proporcionará recursos valiosos para avanzar en este campo. Los conjuntos de datos y el código están disponibles en https://github.com/thuiar/MMLA.
El número de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) preentrenados está aumentando de manera constante, aunque la mayoría están diseñados predominantemente para el idioma inglés. Si bien los LLMs de última generación pueden manejar otros idiomas, debido a la contaminación lingüística o a cierto grado de datos de preentrenamiento multilingüe, no están optimizados para idiomas no ingleses, lo que resulta en una codificación ineficiente (alta "fertilidad" de tokens) y una velocidad de inferencia más lenta. En este trabajo, comparamos exhaustivamente una variedad de técnicas de adaptación de vocabulario para optimizar LLMs en inglés para el idioma italiano, y proponemos Semantic Alignment Vocabulary Adaptation (SAVA), un método novedoso que aprovecha el mapeo neuronal para la sustitución de vocabulario. SAVA logra un rendimiento competitivo en múltiples tareas posteriores, mejorando las estrategias de alineación fundamentadas. Adaptamos dos LLMs: Mistral-7b-v0.1, reduciendo la fertilidad de tokens en un 25\%, y Llama-3.1-8B, optimizando el vocabulario y reduciendo el número de parámetros en 1 billón. Demostramos que, tras la adaptación del vocabulario, estos modelos pueden recuperar su rendimiento con una etapa relativamente limitada de entrenamiento continuo en el idioma objetivo. Finalmente, probamos las capacidades de los modelos adaptados en diversas tareas de opción múltiple y generativas.
La atención dispersa ofrece una estrategia prometedora para extender las capacidades de contexto largo en Transformadores LLM, sin embargo, su viabilidad, sus compensaciones entre eficiencia y precisión, y los estudios sistemáticos de escalabilidad siguen sin explorarse. Para abordar esta brecha, realizamos una comparación cuidadosa de métodos de atención dispersa sin entrenamiento en diferentes escalas de modelos, longitudes de secuencia y niveles de dispersión, utilizando una colección diversa de tareas de secuencias largas, incluyendo algunas novedosas que se basan en lenguaje natural mientras permanecen controlables y fáciles de evaluar. Basándonos en nuestros experimentos, reportamos una serie de hallazgos clave: 1) un análisis isoFLOPS revela que, para secuencias muy largas, los modelos más grandes y altamente dispersos son preferibles a los más pequeños y densos. 2) El nivel de dispersión alcanzable mientras se garantiza estadísticamente la preservación de la precisión es mayor durante la decodificación que durante el prefilling, y se correlaciona con el tamaño del modelo en el primer caso. 3) No existe una estrategia clara que funcione mejor en todas las tareas y fases, ya que se necesitan diferentes unidades de dispersión o adaptabilidad de presupuesto para distintos escenarios. Incluso niveles moderados de dispersión a menudo resultan en una degradación significativa del rendimiento en al menos una tarea, destacando que la atención dispersa no es una solución universal. 4) Introducimos y validamos nuevas leyes de escalabilidad específicamente diseñadas para la atención dispersa, proporcionando evidencia de que nuestros hallazgos probablemente se mantengan más allá de nuestro rango de experimentos. A través de estas ideas, demostramos que la atención dispersa es una herramienta clave para mejorar las capacidades de los Transformadores LLM en el procesamiento de secuencias más largas, pero requiere una evaluación cuidadosa de las compensaciones para aplicaciones sensibles al rendimiento.
Presentamos una nueva generación de modelos de razonamiento pequeños para RAG, búsqueda y resumen de fuentes. Pleias-RAG-350m y Pleias-RAG-1B están entrenados de manera intermedia en un gran conjunto de datos sintéticos que emula la recuperación de una amplia variedad de fuentes abiertas multilingües del Common Corpus. Ofrecen soporte nativo para citas y fundamentación con citas literales, e integran múltiples características asociadas con flujos de trabajo RAG, como enrutamiento de consultas, reformulación de consultas y reordenamiento de fuentes. Pleias-RAG-350m y Pleias-RAG-1B superan a los modelos de lenguaje pequeños (SLM) con menos de 4 mil millones de parámetros en benchmarks estandarizados de RAG (HotPotQA, 2wiki) y son competitivos con modelos más grandes populares, como Qwen-2.5-7B, Llama-3.1-8B y Gemma-3-4B. Hasta la fecha, son los únicos SLM que mantienen un rendimiento consistente en RAG en los principales idiomas europeos y aseguran una fundamentación sistemática de referencias para las afirmaciones. Debido a su tamaño y facilidad de despliegue en infraestructuras limitadas, junto con una mayor factualidad por diseño, estos modelos abren un abanico de nuevos casos de uso para la IA generativa.
Proponemos entrenar un modelo de generación de videos personalizados basado en sujetos mediante la separación del aprendizaje específico del sujeto de la dinámica temporal en un entorno de cero-shot sin ajustes adicionales. Un método tradicional para la personalización de videos que no requiere ajustes suele depender de grandes conjuntos de datos de videos anotados, los cuales son computacionalmente costosos y requieren una extensa anotación. En contraste con el enfoque anterior, introducimos el uso directo de un conjunto de datos de personalización de imágenes para entrenar modelos de personalización de videos, factorizando la personalización de videos en dos aspectos: (1) inyección de identidad a través del conjunto de datos de personalización de imágenes y (2) preservación del modelado temporal con un pequeño conjunto de videos no anotados mediante el método de entrenamiento de imagen a video. Además, empleamos la eliminación aleatoria de tokens de imágenes con inicialización aleatoria de imágenes durante el ajuste fino de imagen a video para mitigar el problema de copiar y pegar. Para mejorar aún más el aprendizaje, introducimos un cambio estocástico durante la optimización conjunta de características específicas del sujeto y temporales, mitigando el olvido catastrófico. Nuestro método logra una fuerte consistencia del sujeto y escalabilidad, superando a los modelos existentes de personalización de videos en entornos de cero-shot, demostrando la efectividad de nuestro marco de trabajo.
El razonamiento efectivo sigue siendo un desafío fundamental para los modelos de lenguaje de gran escala (LLMs) en el dominio financiero, donde las tareas a menudo requieren conocimiento específico del área, cálculos numéricos precisos y una estricta adherencia a las normas de cumplimiento. Proponemos DianJin-R1, un marco potenciado por razonamiento diseñado para abordar estos desafíos mediante supervisión aumentada con razonamiento y aprendizaje por refuerzo. El núcleo de nuestro enfoque es DianJin-R1-Data, un conjunto de datos de alta calidad construido a partir de CFLUE, FinQA y un corpus propietario de cumplimiento (Chinese Compliance Check, CCC), que combina diversos escenarios de razonamiento financiero con anotaciones verificadas. Nuestros modelos, DianJin-R1-7B y DianJin-R1-32B, se ajustan a partir de Qwen2.5-7B-Instruct y Qwen2.5-32B-Instruct utilizando un formato estructurado que genera tanto pasos de razonamiento como respuestas finales. Para refinar aún más la calidad del razonamiento, aplicamos la Optimización de Política Relativa en Grupo (GRPO), un método de aprendizaje por refuerzo que incorpora señales de recompensa duales: una que fomenta salidas estructuradas y otra que premia la corrección de las respuestas. Evaluamos nuestros modelos en cinco benchmarks: tres conjuntos de datos financieros (CFLUE, FinQA y CCC) y dos benchmarks de razonamiento general (MATH-500 y GPQA-Diamond). Los resultados experimentales muestran que los modelos DianJin-R1 superan consistentemente a sus contrapartes sin razonamiento, especialmente en tareas financieras complejas. Además, en el conjunto de datos del mundo real CCC, nuestros modelos de razonamiento de una sola llamada igualan o incluso superan el rendimiento de sistemas multiagente que requieren un costo computacional significativamente mayor. Estos hallazgos demuestran la efectividad de DianJin-R1 para mejorar el razonamiento financiero mediante supervisión estructurada y aprendizaje alineado con recompensas, ofreciendo una solución escalable y práctica para aplicaciones del mundo real.
Dado un único ejemplo etiquetado, la segmentación en contexto tiene como objetivo segmentar los objetos correspondientes. Este escenario, conocido como segmentación one-shot en el aprendizaje de pocos ejemplos, explora la capacidad de generalización del modelo de segmentación y se ha aplicado a diversas tareas de visión, incluyendo la comprensión de escenas y la edición de imágenes/videos. Aunque los recientes modelos Segment Anything (SAM) han logrado resultados de vanguardia en la segmentación interactiva, estos enfoques no son directamente aplicables a la segmentación en contexto. En este trabajo, proponemos el método Dual Consistency SAM (DC-SAM) basado en ajuste de prompts para adaptar SAM y SAM2 a la segmentación en contexto tanto de imágenes como de videos. Nuestras ideas clave son mejorar las características del codificador de prompts de SAM en la segmentación proporcionando prompts visuales de alta calidad. Al generar una máscara previa, fusionamos las características de SAM para alinear mejor el codificador de prompts. Luego, diseñamos una atención cruzada cíclicamente consistente sobre las características fusionadas y los prompts visuales iniciales. A continuación, se proporciona un diseño de doble rama utilizando los prompts positivos y negativos discriminativos en el codificador de prompts. Además, diseñamos una estrategia simple de entrenamiento de máscara-tubo para adoptar nuestro método de doble consistencia en el tubo de máscaras. Aunque el DC-SAM propuesto está principalmente diseñado para imágenes, puede extenderse sin problemas al dominio de video con el soporte de SAM2. Dada la ausencia de segmentación en contexto en el dominio de video, hemos creado y construido manualmente el primer benchmark a partir de conjuntos de datos existentes de segmentación de video, denominado In-Context Video Object Segmentation (IC-VOS), para evaluar mejor la capacidad en contexto del modelo. Experimentos extensivos demuestran que nuestro método alcanza un 55.5 (+1.4) mIoU en COCO-20i, un 73.0 (+1.1) mIoU en PASCAL-5i, y una puntuación J&F de 71.52 en el benchmark IC-VOS propuesto. Nuestro código fuente y benchmark están disponibles en https://github.com/zaplm/DC-SAM.