Artículos de investigación en IA seleccionados diariamente con traducciones
La diacritización de textos en árabe sigue siendo un desafío persistente en el procesamiento del lenguaje natural debido a la riqueza morfológica del idioma. En este artículo, presentamos Sadeed, un enfoque novedoso basado en un modelo de lenguaje de solo decodificador ajustado finamente, adaptado de Kuwain 1.5B Hennara et al. [2025], un modelo compacto originalmente entrenado en diversos corpus árabes. Sadeed se ajusta finamente en conjuntos de datos diacritizados de alta calidad, cuidadosamente seleccionados y construidos mediante un riguroso proceso de limpieza y normalización de datos. A pesar de utilizar recursos computacionales modestos, Sadeed logra resultados competitivos en comparación con modelos de lenguaje grandes propietarios y supera a los modelos tradicionales entrenados en dominios similares. Además, destacamos limitaciones clave en las prácticas actuales de evaluación comparativa para la diacritización del árabe. Para abordar estos problemas, presentamos SadeedDiac-25, un nuevo punto de referencia diseñado para permitir una evaluación más justa y completa en diversos géneros de texto y niveles de complejidad. Juntos, Sadeed y SadeedDiac-25 proporcionan una base sólida para avanzar en las aplicaciones de PNL en árabe, incluyendo la traducción automática, la conversión de texto a voz y las herramientas de aprendizaje de idiomas.
Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés), como OpenAI-o1 y DeepSeek-R1, demuestran capacidades impresionantes para el razonamiento de largo alcance. Sin embargo, su dependencia de conocimientos internos estáticos limita su rendimiento en tareas complejas y con gran demanda de conocimiento, y dificulta su capacidad para producir informes de investigación exhaustivos que requieren la síntesis de información diversa de la web. Para abordar esto, proponemos WebThinker, un agente de investigación profunda que capacita a los LRMs para buscar en la web de manera autónoma, navegar por páginas web y redactar informes de investigación durante el proceso de razonamiento. WebThinker integra un módulo de Explorador Web Profundo, permitiendo que los LRMs busquen, naveguen y extraigan información de la web de manera dinámica cuando se encuentran con lagunas de conocimiento. También emplea una estrategia autónoma de Pensar-Buscar-y-Redactar, que permite al modelo intercalar de manera fluida el razonamiento, la recopilación de información y la redacción de informes en tiempo real. Para mejorar aún más la utilización de herramientas de investigación, introducimos una estrategia de entrenamiento basada en Aprendizaje por Refuerzo (RL) mediante la Optimización Directa de Preferencias (DPO) iterativa en línea. Experimentos exhaustivos en benchmarks de razonamiento complejo (GPQA, GAIA, WebWalkerQA, HLE) y tareas de generación de informes científicos (Glaive) demuestran que WebThinker supera significativamente a los métodos existentes y a sistemas propietarios robustos. Nuestro enfoque mejora la fiabilidad y aplicabilidad de los LRMs en escenarios complejos, allanando el camino para sistemas de investigación profunda más capaces y versátiles. El código está disponible en https://github.com/RUC-NLPIR/WebThinker.
Presentamos Phi-4-reasoning, un modelo de razonamiento de 14 mil millones de parámetros que logra un rendimiento sólido en tareas de razonamiento complejo. Entrenado mediante ajuste fino supervisado de Phi-4 en un conjunto cuidadosamente seleccionado de indicaciones "enseñables"—elegidas por su nivel adecuado de complejidad y diversidad—y demostraciones de razonamiento generadas utilizando o3-mini, Phi-4-reasoning produce cadenas de razonamiento detalladas que aprovechan eficazmente el cómputo en tiempo de inferencia. Además, desarrollamos Phi-4-reasoning-plus, una variante mejorada mediante una breve fase de aprendizaje por refuerzo basado en resultados, que ofrece un mayor rendimiento al generar trazas de razonamiento más extensas. En una amplia gama de tareas de razonamiento, ambos modelos superan significativamente a modelos de mayor tamaño y de pesos abiertos, como el modelo DeepSeek-R1-Distill-Llama-70B, y se acercan a los niveles de rendimiento del modelo completo DeepSeek-R1. Nuestras evaluaciones exhaustivas abarcan puntos de referencia en razonamiento matemático y científico, codificación, resolución de problemas algorítmicos, planificación y comprensión espacial. Curiosamente, también observamos una transferencia no trivial de mejoras a benchmarks de propósito general. En este informe, ofrecemos información detallada sobre nuestros datos de entrenamiento, metodologías de entrenamiento y evaluaciones. Demostramos que el beneficio de una cuidadosa selección de datos para el ajuste fino supervisado (SFT) se extiende a los modelos de lenguaje de razonamiento y puede amplificarse aún más mediante el aprendizaje por refuerzo (RL). Finalmente, nuestra evaluación señala oportunidades para mejorar cómo evaluamos el rendimiento y la robustez de los modelos de razonamiento.
Chain-of-Thought (CoT) mejora significativamente las capacidades de razonamiento formal en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) al entrenarlos para generar explícitamente pasos intermedios de razonamiento. Aunque los LLMs se benefician fácilmente de estas técnicas, mejorar el razonamiento en los Modelos de Lenguaje Pequeños (SLMs, por sus siglas en inglés) sigue siendo un desafío debido a su capacidad limitada. Trabajos recientes de Deepseek-R1 demuestran que la destilación a partir de datos sintéticos generados por LLMs puede mejorar sustancialmente la capacidad de razonamiento de los SLMs. Sin embargo, la receta detallada de modelado no se ha revelado. En este trabajo, presentamos una receta sistemática de entrenamiento para SLMs que consta de cuatro pasos: (1) entrenamiento intermedio a gran escala con datos diversos de CoT largo destilados, (2) ajuste fino supervisado con datos de CoT largo de alta calidad, (3) Rollout DPO utilizando un conjunto de datos de preferencias cuidadosamente seleccionado, y (4) Aprendizaje por Refuerzo (RL, por sus siglas en inglés) con Recompensa Verificable. Aplicamos nuestro método en Phi-4-Mini, un modelo compacto de 3.8 mil millones de parámetros. El modelo resultante, Phi-4-Mini-Reasoning, supera, en tareas de razonamiento matemático, a modelos de razonamiento mucho más grandes, por ejemplo, superando a DeepSeek-R1-Distill-Qwen-7B por 3.2 puntos y a DeepSeek-R1-Distill-Llama-8B por 7.7 puntos en Math-500. Nuestros resultados validan que una receta de entrenamiento cuidadosamente diseñada, con datos de CoT de alta calidad a gran escala, es efectiva para desbloquear fuertes capacidades de razonamiento incluso en modelos pequeños con recursos limitados.
El reciente desarrollo de los modelos de lenguaje de razonamiento (RLMs, por sus siglas en inglés) representa una nueva evolución en los modelos de lenguaje de gran escala. En particular, el lanzamiento reciente de DeepSeek-R1 ha generado un amplio impacto social y ha despertado entusiasmo en la comunidad de investigación para explorar el paradigma de razonamiento explícito en los modelos de lenguaje. Sin embargo, los detalles de implementación de los modelos publicados no han sido completamente liberados por DeepSeek, incluyendo DeepSeek-R1-Zero, DeepSeek-R1 y los modelos pequeños destilados. Como resultado, han surgido numerosos estudios de replicación con el objetivo de reproducir el alto rendimiento alcanzado por DeepSeek-R1, logrando un desempeño comparable mediante procedimientos de entrenamiento similares y recursos de datos completamente abiertos. Estos trabajos han investigado estrategias viables para el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo basado en recompensas verificables (RLVR), centrándose en la preparación de datos y el diseño de métodos, obteniendo así diversas ideas valiosas. En este informe, proporcionamos un resumen de los estudios de replicación recientes para inspirar futuras investigaciones. Nos enfocamos principalmente en SFT y RLVR como dos direcciones principales, introduciendo los detalles sobre la construcción de datos, el diseño de métodos y los procedimientos de entrenamiento de los estudios de replicación actuales. Además, concluimos hallazgos clave a partir de los detalles de implementación y los resultados experimentales reportados por estos estudios, con el objetivo de inspirar futuras investigaciones. También discutimos técnicas adicionales para mejorar los RLMs, destacando el potencial de ampliar el alcance de aplicación de estos modelos y analizando los desafíos en su desarrollo. Con este estudio, buscamos ayudar a investigadores y desarrolladores de RLMs a mantenerse actualizados con los últimos avances y fomentar nuevas ideas para seguir mejorando estos modelos.
Presentamos softpick, un reemplazo directo y rectificado, no sumado a uno, para softmax en los mecanismos de atención de transformadores que elimina los sumideros de atención y las activaciones masivas. Nuestros experimentos con modelos de 340M de parámetros demuestran que softpick mantiene un rendimiento equivalente al de softmax en benchmarks estándar mientras logra una tasa de sumidero del 0%. El transformador con softpick produce estados ocultos con una curtosis significativamente menor (340 vs 33,510) y genera mapas de atención dispersos (46.97% de dispersión). Los modelos que utilizan softpick superan consistentemente a los que usan softmax cuando se cuantizan, con ventajas particularmente marcadas en precisiones de menor cantidad de bits. Nuestro análisis y discusión muestran cómo softpick tiene el potencial de abrir nuevas posibilidades para la cuantización, el entrenamiento de baja precisión, la optimización de dispersión, la poda y la interpretabilidad. Nuestro código está disponible en https://github.com/zaydzuhri/softpick-attention.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) destacan en tareas simples de visión y lenguaje, pero enfrentan dificultades cuando se enfrentan a tareas complejas que requieren múltiples capacidades, como reconocer objetos simultáneamente, contarlos y comprender sus relaciones espaciales. Esto podría ser, en parte, el resultado de que el Ajuste de Instrucción Visual (VIT, por sus siglas en inglés), un paso crítico en el entrenamiento de los MLLMs, tradicionalmente se ha centrado en escalar el volumen de datos, pero no en la complejidad composicional de los ejemplos de entrenamiento. Proponemos COMPACT (Ajuste de Capacidades Visuales de Atómico a Complejo COMPosicional), que genera un conjunto de datos de entrenamiento que controla explícitamente la complejidad composicional de los ejemplos. Los datos de COMPACT permiten que los MLLMs se entrenen en combinaciones de capacidades atómicas para aprender capacidades complejas de manera más eficiente. En todos los puntos de referencia, COMPACT logra un rendimiento comparable al VIT de LLaVA-665k utilizando menos del 10% de su presupuesto de datos, e incluso lo supera en varios, especialmente en aquellos que involucran tareas complejas que requieren múltiples capacidades. Por ejemplo, COMPACT logra una mejora sustancial del 83.3% en MMStar y del 94.0% en MM-Vet en comparación con el VIT a gran escala en preguntas particularmente complejas que requieren cuatro o más capacidades atómicas. COMPACT ofrece una receta escalable, eficiente en datos y de ajuste visual composicional para mejorar en tareas complejas de visión y lenguaje.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) utilizan razonamiento paso a paso para resolver problemas complejos. La práctica de evaluación estándar implica generar una traza de razonamiento completa y evaluar la corrección de la respuesta final presentada al concluirla. En este artículo, cuestionamos la dependencia de la respuesta final planteando las siguientes dos preguntas: ¿Representa la respuesta final de manera confiable la conclusión óptima del modelo? ¿Pueden diferentes caminos de razonamiento producir resultados distintos? Para responder estas preguntas, analizamos los pasos intermedios de razonamiento, denominados subpensamientos, y proponemos un método basado en nuestros hallazgos. Nuestro enfoque consiste en segmentar una traza de razonamiento en subpensamientos secuenciales basados en indicadores lingüísticos. Comenzamos solicitando al modelo que genere continuaciones a partir del punto final de cada subpensamiento intermedio. Extraemos una respuesta potencial de cada continuación completada que se origina en diferentes subpensamientos. Descubrimos que al agregar estas respuestas seleccionando la más frecuente (la moda), a menudo se obtiene una precisión significativamente mayor en comparación con depender únicamente de la respuesta derivada de la traza completa original. El análisis de la consistencia entre las respuestas derivadas de diferentes subpensamientos revela características que se correlacionan con la confianza y la corrección del modelo, sugiriendo potencial para identificar respuestas menos confiables. Nuestros experimentos en varios LLMs y conjuntos de datos desafiantes de razonamiento matemático (AIME2024 y AIME2025) muestran mejoras consistentes en la precisión, con ganancias de hasta el 13\% y el 10\% respectivamente. La implementación está disponible en: https://github.com/hammoudhasan/SubthoughtReasoner.
La IA generativa está transformando el arte, los videojuegos y, de manera más destacada, la animación. Los recientes avances en modelos fundacionales y de difusión han reducido el tiempo y el costo de producir contenido animado. Los personajes son componentes centrales de la animación, involucrando movimiento, emociones, gestos y expresiones faciales. El ritmo y la amplitud de los avances en los últimos meses dificultan mantener una visión coherente del campo, lo que motiva la necesidad de una revisión integradora. A diferencia de las revisiones anteriores que tratan avatares, gestos o animación facial de manera aislada, este estudio ofrece una perspectiva única y completa sobre todas las principales aplicaciones de IA generativa para la animación de personajes. Comenzamos examinando el estado del arte en animación facial, renderización de expresiones, síntesis de imágenes, creación de avatares, modelado de gestos, síntesis de movimiento, generación de objetos y síntesis de texturas. Destacamos investigaciones líderes, implementaciones prácticas, conjuntos de datos comúnmente utilizados y tendencias emergentes en cada área. Para apoyar a los recién llegados, también proporcionamos una sección de antecedentes completa que introduce modelos fundacionales y métricas de evaluación, equipando a los lectores con el conocimiento necesario para ingresar al campo. Discutimos desafíos abiertos y trazamos futuras direcciones de investigación, proporcionando una hoja de ruta para avanzar en las tecnologías de animación de personajes impulsadas por IA. Este estudio está diseñado como un recurso para investigadores y desarrolladores que ingresan al campo de la animación generativa con IA o campos relacionados. Los recursos están disponibles en: https://github.com/llm-lab-org/Generative-AI-for-Character-Animation-Survey.
A medida que los modelos de lenguaje de gran escala (LLMs) basados en transformadores se integran cada vez más en la sociedad, han revolucionado dominios como la ingeniería de software, la escritura creativa y las artes digitales. Sin embargo, su adopción en el ámbito de la ciberseguridad sigue siendo limitada debido a desafíos como la escasez de datos de entrenamiento especializados y la complejidad de representar conocimientos específicos de ciberseguridad. Para abordar estas brechas, presentamos Foundation-Sec-8B, un LLM centrado en ciberseguridad construido sobre la arquitectura Llama 3.1 y mejorado mediante un preentrenamiento continuo en un corpus de ciberseguridad cuidadosamente seleccionado. Evaluamos Foundation-Sec-8B en puntos de referencia establecidos y nuevos en ciberseguridad, demostrando que iguala a Llama 3.1-70B y GPT-4o-mini en ciertas tareas específicas de ciberseguridad. Al liberar nuestro modelo al público, buscamos acelerar el progreso y la adopción de herramientas impulsadas por IA en contextos de ciberseguridad tanto públicos como privados.
En los últimos años, la generación de videos ha experimentado avances significativos. Sin embargo, aún persisten desafíos en la generación de movimientos e interacciones complejas. Para abordar estos desafíos, presentamos ReVision, un marco plug-and-play que integra explícitamente conocimiento físico parametrizado en 3D en un modelo preentrenado de generación de videos condicional, mejorando significativamente su capacidad para generar videos de alta calidad con movimientos e interacciones complejas. Específicamente, ReVision consta de tres etapas. Primero, se utiliza un modelo de difusión de video para generar un video preliminar. Luego, extraemos un conjunto de características 2D y 3D del video preliminar para construir una representación centrada en objetos 3D, la cual es refinada por nuestro modelo propuesto de conocimiento físico parametrizado para producir una secuencia de movimiento 3D precisa. Finalmente, esta secuencia de movimiento refinada se retroalimenta al mismo modelo de difusión de video como condicionamiento adicional, permitiendo la generación de videos consistentes en movimiento, incluso en escenarios que involucran acciones e interacciones complejas. Validamos la efectividad de nuestro enfoque en Stable Video Diffusion, donde ReVision mejora significativamente la fidelidad y coherencia del movimiento. Notablemente, con solo 1.500 millones de parámetros, incluso supera a un modelo de generación de video de última generación con más de 13.000 millones de parámetros en la generación de videos complejos por un margen considerable. Nuestros resultados sugieren que, al incorporar conocimiento físico 3D, incluso un modelo de difusión de video relativamente pequeño puede generar movimientos e interacciones complejas con mayor realismo y controlabilidad, ofreciendo una solución prometedora para la generación de videos físicamente plausibles.
Los Modelos de Lenguaje de Gran Escala (LLMs) para IA Generativa han logrado avances notables, evolucionando hacia herramientas sofisticadas y versátiles ampliamente adoptadas en diversos dominios y aplicaciones. Sin embargo, la considerable sobrecarga de memoria causada por su gran número de parámetros, combinada con las altas demandas computacionales del mecanismo de atención, plantea desafíos significativos para lograr baja latencia y alto rendimiento en los servicios de inferencia de LLMs. Los avances recientes, impulsados por investigaciones innovadoras, han acelerado considerablemente el progreso en este campo. Este artículo ofrece una revisión exhaustiva de estos métodos, cubriendo enfoques fundamentales a nivel de instancia, estrategias detalladas a nivel de clúster, direcciones emergentes en escenarios específicos y otras áreas diversas pero importantes. A nivel de instancia, revisamos la ubicación del modelo, la programación de solicitudes, la predicción de la longitud de decodificación, la gestión de almacenamiento y el paradigma de desagregación. A nivel de clúster, exploramos el despliegue en clústeres de GPU, el equilibrio de carga multi-instancia y las soluciones de servicios en la nube. Para escenarios emergentes, organizamos la discusión en torno a tareas específicas, módulos y métodos auxiliares. Para garantizar una visión integral, también destacamos varias áreas especializadas pero críticas. Finalmente, esbozamos posibles direcciones de investigación para seguir avanzando en el campo de la inferencia de LLMs.
La escalabilidad de datos y los puntos de referencia estandarizados para evaluación han impulsado avances significativos en el procesamiento del lenguaje natural y la visión por computadora. Sin embargo, la robótica enfrenta desafíos únicos en la escalabilidad de datos y el establecimiento de protocolos de evaluación. La recopilación de datos del mundo real es intensiva en recursos e ineficiente, mientras que la evaluación comparativa en escenarios del mundo real sigue siendo altamente compleja. Los datos sintéticos y la simulación ofrecen alternativas prometedoras, aunque los esfuerzos existentes a menudo carecen de calidad, diversidad y estandarización en los puntos de referencia. Para abordar estos desafíos, presentamos RoboVerse, un marco integral que incluye una plataforma de simulación, un conjunto de datos sintéticos y puntos de referencia unificados. Nuestra plataforma de simulación admite múltiples simuladores y configuraciones robóticas, permitiendo transiciones fluidas entre diferentes entornos. El conjunto de datos sintéticos, que presenta física de alta fidelidad y renderizado fotorrealista, se construye mediante múltiples enfoques. Además, proponemos puntos de referencia unificados para el aprendizaje por imitación y el aprendizaje por refuerzo, permitiendo la evaluación en diferentes niveles de generalización. En el núcleo de la plataforma de simulación se encuentra MetaSim, una infraestructura que abstrae diversos entornos de simulación en una interfaz universal. Reestructura los entornos de simulación existentes en un sistema de configuración independiente del simulador, así como una API que alinea las funcionalidades de diferentes simuladores, como el lanzamiento de entornos de simulación, la carga de activos con estados iniciales, el avance del motor de física, etc. Esta abstracción garantiza la interoperabilidad y la extensibilidad. Experimentos exhaustivos demuestran que RoboVerse mejora el rendimiento del aprendizaje por imitación, el aprendizaje por refuerzo, el aprendizaje de modelos del mundo y la transferencia de simulación a realidad. Estos resultados validan la confiabilidad de nuestro conjunto de datos y puntos de referencia, estableciendo a RoboVerse como una solución robusta para avanzar en el aprendizaje robótico.
La interpretación multimodal de imágenes biomédicas abre nuevas oportunidades en el análisis de imágenes biomédicas. Los enfoques convencionales de IA suelen basarse en entrenamientos desarticulados, es decir, modelos de lenguaje de gran escala (LLMs) para la generación de textos clínicos y modelos de segmentación para la extracción de objetivos, lo que resulta en una implementación inflexible en el mundo real y en la incapacidad de aprovechar la información biomédica holística. Con este fin, presentamos UniBiomed, el primer modelo fundacional universal para la interpretación fundamentada de imágenes biomédicas. UniBiomed se basa en una novedosa integración de un modelo de lenguaje multimodal (MLLM) y el modelo Segment Anything (SAM), que unifica eficazmente la generación de textos clínicos y la segmentación de objetos biomédicos correspondientes para una interpretación fundamentada. De esta manera, UniBiomed es capaz de abordar una amplia gama de tareas biomédicas en diez modalidades diversas de imágenes biomédicas. Para desarrollar UniBiomed, hemos creado un conjunto de datos a gran escala que comprende más de 27 millones de tripletas de imágenes, anotaciones y descripciones textuales en diez modalidades de imágenes. Una validación extensa en 84 conjuntos de datos internos y externos demostró que UniBiomed logra un rendimiento de vanguardia en segmentación, reconocimiento de enfermedades, diagnóstico basado en regiones, respuesta visual a preguntas y generación de informes. Además, a diferencia de modelos anteriores que dependen de expertos clínicos para pre-diagnosticar imágenes y elaborar manualmente indicaciones textuales o visuales precisas, UniBiomed puede proporcionar una interpretación fundamentada y automatizada de extremo a extremo para el análisis de imágenes biomédicas. Esto representa un cambio de paradigma novedoso en los flujos de trabajo clínicos, que mejorará significativamente la eficiencia diagnóstica. En resumen, UniBiomed representa un avance innovador en la IA biomédica, desbloqueando capacidades de interpretación fundamentada para un análisis de imágenes biomédicas más preciso y eficiente.
El análisis conjunto, una aplicación del diseño experimental factorial, es una herramienta popular en la investigación de ciencias sociales para estudiar preferencias multidimensionales. En tales experimentos en el contexto del análisis político, se solicita a los encuestados que elijan entre dos candidatos políticos hipotéticos con características seleccionadas al azar, que pueden incluir afiliación partidista, posiciones políticas, género y raza. Consideramos el problema de identificar perfiles óptimos de candidatos. Dado que el número de combinaciones únicas de características supera con creces el número total de observaciones en un experimento conjunto típico, es imposible determinar el perfil óptimo con exactitud. Para abordar este desafío de identificación, derivamos una intervención estocástica óptima que representa una distribución de probabilidad de varios atributos destinada a lograr el resultado promedio más favorable. Primero consideramos un entorno en el que un partido político optimiza la selección de su candidato. Luego pasamos al caso más realista en el que dos partidos políticos optimizan simultáneamente y en oposición mutua la selección de sus propios candidatos. Aplicamos la metodología propuesta a un experimento conjunto existente sobre la elección de candidatos para la presidencia de Estados Unidos. Encontramos que, en contraste con el enfoque no adversarial, los resultados esperados en el régimen adversarial caen dentro del rango de los resultados electorales históricos, y las estrategias óptimas sugeridas por el método tienen más probabilidades de coincidir con los candidatos observados en la realidad en comparación con las estrategias derivadas de un enfoque no adversarial. Estos hallazgos indican que incorporar dinámicas adversariales en el análisis conjunto puede proporcionar una perspectiva única sobre los datos de ciencias sociales obtenidos de experimentos.