Artículos de investigación en IA seleccionados diariamente con traducciones
A pesar de sus capacidades notables, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) enfrentan dificultades para aprovechar de manera efectiva la información de interacciones históricas en entornos dinámicos y complejos. Los sistemas de memoria permiten que los LLMs superen las interacciones sin estado al introducir mecanismos de almacenamiento, recuperación y utilización de información persistente. Sin embargo, los sistemas de memoria existentes suelen introducir un sobrecosto significativo en tiempo y recursos computacionales. Con este fin, presentamos un nuevo sistema de memoria llamado LightMem, que equilibra el rendimiento y la eficiencia de los sistemas de memoria. Inspirado en el modelo de memoria humana de Atkinson-Shiffrin, LightMem organiza la memoria en tres etapas complementarias. En primer lugar, la memoria sensorial inspirada en la cognición filtra rápidamente la información irrelevante mediante compresión ligera y agrupa la información según sus temas. A continuación, la memoria a corto plazo consciente de los temas consolida estos grupos temáticos, organizando y resumiendo el contenido para un acceso más estructurado. Finalmente, la memoria a largo plazo con actualización durante el sueño emplea un procedimiento fuera de línea que desacopla la consolidación de la inferencia en línea. Los experimentos en LongMemEval con arquitecturas GPT y Qwen muestran que LightMem supera a los baselines fuertes en precisión (hasta un 10.9% de mejora) mientras reduce el uso de tokens hasta 117 veces, las llamadas API hasta 159 veces y el tiempo de ejecución en más de 12 veces. El código está disponible en https://github.com/zjunlp/LightMem.
Presentamos la desagregación de atención central (CAD, por sus siglas en inglés), una técnica que mejora el entrenamiento de modelos de lenguaje de gran contexto al desacoplar el cálculo de la atención central, softmax(QK^T)V, del resto del modelo y ejecutarlo en un grupo separado de dispositivos. En los sistemas existentes, la atención central se coloca junto con otras capas; en contextos largos, su crecimiento computacional cuadrático en comparación con el crecimiento casi lineal de otros componentes provoca desequilibrios de carga y retrasos en los grupos paralelos de datos y tuberías. CAD se basa en dos observaciones. Primero, la atención central no tiene estado: no tiene parámetros entrenables y solo datos transitorios mínimos, por lo que el equilibrio se reduce a la programación de tareas limitadas por el cálculo. Segundo, es componible: los núcleos de atención modernos mantienen una alta eficiencia al procesar lotes fusionados de fragmentos a nivel de token con longitudes arbitrarias. CAD divide la atención central en tareas a nivel de token y las distribuye a servidores de atención dedicados, que reagrupan dinámicamente las tareas para igualar el cálculo sin sacrificar la eficiencia del núcleo. Implementamos CAD en un sistema llamado DistCA, que utiliza un esquema de ejecución ping-pong para superponer completamente la comunicación con el cálculo y la ejecución en el lugar en los servidores de atención para reducir el uso de memoria. En 512 GPUs H200 y longitudes de contexto de hasta 512k tokens, DistCA mejora el rendimiento de entrenamiento de extremo a extremo hasta 1.35x, elimina los retrasos en los grupos paralelos de datos y tuberías, y logra un equilibrio casi perfecto de cálculo y memoria.
Los modelos generativos de mundos (WMs, por sus siglas en inglés) pueden ahora simular entornos con un realismo visual sorprendente, lo que plantea naturalmente la pregunta de si pueden dotar a agentes corporizados de percepción predictiva para la toma de decisiones. El progreso en esta cuestión se ha visto limitado por una evaluación fragmentada: la mayoría de los puntos de referencia existentes adoptan protocolos de bucle abierto que enfatizan la calidad visual de manera aislada, dejando sin resolver el problema central de la utilidad corporizada, es decir, ¿realmente ayudan los WMs a los agentes a tener éxito en tareas corporizadas? Para abordar esta brecha, presentamos World-in-World, la primera plataforma abierta que evalúa WMs en un entorno de bucle cerrado que refleja las interacciones reales entre agentes y su entorno. World-in-World proporciona una estrategia unificada de planificación en línea y una API de acciones estandarizada, permitiendo que WMs heterogéneos participen en la toma de decisiones. Hemos seleccionado cuatro entornos de bucle cerrado que evalúan rigurosamente diversos WMs, priorizan el éxito en la tarea como métrica principal y van más allá del enfoque común en la calidad visual; también presentamos la primera ley de escalado de datos para modelos de mundos en entornos corporizados. Nuestro estudio revela tres sorpresas: (1) la calidad visual por sí sola no garantiza el éxito en la tarea, la controlabilidad es más importante; (2) escalar después del entrenamiento con datos de acción-observación es más efectivo que mejorar los generadores de video preentrenados; y (3) asignar más recursos de cómputo en tiempo de inferencia permite que los WMs mejoren sustancialmente el rendimiento en bucle cerrado.
Los avances recientes en la generación de texto a imagen (T2I) destacan la importancia de contar con puntos de referencia confiables para evaluar con qué precisión las imágenes generadas reflejan la semántica de sus indicaciones textuales. Sin embargo, (1) los puntos de referencia existentes carecen de la diversidad de escenarios de indicaciones y del soporte multilingüe, ambos esenciales para la aplicabilidad en el mundo real; (2) ofrecen solo evaluaciones generales en dimensiones principales, cubriendo un rango limitado de subdimensiones, y no logran una evaluación detallada en subdimensiones específicas. Para abordar estas limitaciones, presentamos UniGenBench++, un punto de referencia unificado de evaluación semántica para la generación T2I. Específicamente, consta de 600 indicaciones organizadas jerárquicamente para garantizar tanto cobertura como eficiencia: (1) abarca diversos escenarios del mundo real, es decir, 5 temas principales de indicaciones y 20 subtemas; (2) explora exhaustivamente la consistencia semántica de los modelos T2I en 10 criterios principales y 27 subcriterios de evaluación, con cada indicación evaluando múltiples puntos de prueba. Para evaluar rigurosamente la robustez de los modelos frente a variaciones en el idioma y la longitud de las indicaciones, proporcionamos versiones en inglés y chino de cada indicación en formas cortas y largas. Aprovechando el conocimiento general del mundo y las capacidades de comprensión detallada de imágenes de un Modelo de Lenguaje Multimodal (MLLM) de código cerrado, es decir, Gemini-2.5-Pro, se desarrolla una canalización efectiva para la construcción confiable del punto de referencia y la evaluación simplificada de modelos. Además, para facilitar aún más el uso comunitario, entrenamos un modelo de evaluación robusto que permite la evaluación sin conexión de las salidas de los modelos T2I. A través de una evaluación integral de modelos T2I tanto de código abierto como cerrado, revelamos sistemáticamente sus fortalezas y debilidades en diversos aspectos.
Presentamos Ring-1T, el primer modelo de pensamiento de código abierto y de última generación con un billón de parámetros. Cuenta con un billón de parámetros en total y activa aproximadamente 50 mil millones por token. Entrenar modelos de esta escala a nivel de billones de parámetros introduce desafíos sin precedentes, como la desalineación entre entrenamiento e inferencia, ineficiencias en el procesamiento de despliegues y cuellos de botella en el sistema de aprendizaje por refuerzo (RL). Para abordar estos problemas, hemos desarrollado tres innovaciones interconectadas: (1) IcePop estabiliza el entrenamiento de RL mediante el enmascaramiento y recorte de discrepancias a nivel de token, resolviendo la inestabilidad causada por desajustes entre entrenamiento e inferencia; (2) C3PO++ mejora la utilización de recursos para despliegues largos bajo un presupuesto de token mediante su partición dinámica, logrando así una alta eficiencia temporal; y (3) ASystem, un marco de RL de alto rendimiento diseñado para superar los cuellos de botella sistémicos que dificultan el entrenamiento de modelos de billones de parámetros. Ring-1T obtiene resultados revolucionarios en benchmarks críticos: 93.4 en AIME-2025, 86.72 en HMMT-2025, 2088 en CodeForces y 55.94 en ARC-AGI-v1. Destaca especialmente su resultado a nivel de medalla de plata en la IMO-2025, lo que subraya sus capacidades excepcionales de razonamiento. Al liberar el modelo completo de 1T parámetros MoE a la comunidad, proporcionamos acceso directo a capacidades de razonamiento de vanguardia para la investigación. Esta contribución marca un hito significativo en la democratización de la inteligencia de razonamiento a gran escala y establece un nuevo estándar para el rendimiento de modelos de código abierto.
Aunque los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) tienen un potencial significativo para impulsar el descubrimiento químico, los LLMs actuales carecen de conocimientos químicos fundamentales, producen trayectorias de razonamiento poco confiables y muestran un rendimiento subóptimo en diversas tareas químicas. Para abordar estos desafíos, proponemos Chem-R, un modelo de Razonamiento Químico generalizable diseñado para emular los procesos deliberativos de los químicos. Chem-R se entrena a través de un marco de tres fases que construye progresivamente capacidades avanzadas de razonamiento, incluyendo: 1) Entrenamiento de Fundamentos Químicos, que establece conocimientos químicos básicos. 2) Destilación de Protocolos de Razonamiento Químico, incorporando trazas de razonamiento estructuradas y similares a las de expertos para guiar la resolución sistemática y confiable de problemas. 3) Optimización de Política Relativa de Grupo Multi-tarea, que optimiza el modelo para un rendimiento equilibrado en diversas tareas a nivel molecular y de reacción. Esta canalización estructurada permite que Chem-R alcance un rendimiento de vanguardia en evaluaciones integrales, superando a los principales modelos de lenguaje de gran escala, como Gemini-2.5-Pro y DeepSeek-R1, hasta en un 46% en tareas moleculares y un 66% en tareas de reacción. Además, Chem-R también supera consistentemente a los modelos de fundamentos químicos existentes en tareas tanto a nivel molecular como de reacción. Estos resultados destacan la robusta generalización, interpretabilidad y potencial de Chem-R como base para el descubrimiento químico impulsado por IA de próxima generación.
La generación de videos largos con Transformadores de Difusión (DiTs) se ve limitada por el escalado cuadrático de la atención completa con respecto a la longitud de la secuencia. Dado que la atención es altamente redundante, las salidas están dominadas por un subconjunto pequeño de pares consulta-clave. Los métodos dispersos existentes dependen de estimaciones gruesas por bloques, cuyos compromisos entre precisión y eficiencia están restringidos por el tamaño del bloque. Este artículo introduce la Atención de Mezcla de Grupos (MoGA), una atención dispersa eficiente que utiliza un enrutador de tokens ligero y entrenable para emparejar tokens con precisión sin estimaciones por bloques. A través del enrutamiento semántico, MoGA permite interacciones efectivas a larga distancia. Como método libre de núcleos, MoGA se integra perfectamente con pilas de atención modernas, incluyendo FlashAttention y paralelismo de secuencias. Basándonos en MoGA, desarrollamos un modelo eficiente de generación de videos largos que produce, de extremo a extremo, videos de nivel minuto, multiescena, 480p a 24 fps, con una longitud de contexto de aproximadamente 580k. Experimentos exhaustivos en diversas tareas de generación de videos validan la efectividad de nuestro enfoque.
Si bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) destacan en la comprensión holística, enfrentan dificultades para capturar un mundo denso con escenas complejas, lo que requiere un análisis detallado de intrincados detalles y las interrelaciones entre objetos. Los MLLMs a nivel de región han representado un paso prometedor. Sin embargo, intentos anteriores generalmente se han optimizado para comprender regiones dadas de manera aislada, descuidando contextos globales cruciales. Para abordar esto, presentamos Grasp Any Region (GAR) para una comprensión visual integral a nivel de región. Potenciado por una técnica efectiva de reproducción de características alineadas con la Región de Interés (RoI), GAR permite (1) una percepción precisa al aprovechar los contextos globales necesarios, y (2) modelar interacciones entre múltiples indicaciones. Juntos, logran naturalmente (3) un razonamiento composicional avanzado para responder preguntas específicas de formato libre sobre cualquier región, cambiando el paradigma de la descripción pasiva al diálogo activo. Además, construimos GAR-Bench, que no solo proporciona una evaluación más precisa de la comprensión de una sola región, sino que, más importante aún, mide interacciones y razonamientos complejos entre múltiples regiones. Experimentos extensos han demostrado que GAR-1B no solo mantiene capacidades de descripción de última generación, por ejemplo, superando a DAM-3B en +4.5 en DLC-Bench, sino que también sobresale en modelar relaciones entre múltiples indicaciones con capacidades de comprensión avanzadas, incluso superando a InternVL3-78B en GAR-Bench-VQA. Más importante aún, nuestro GAR-8B en modo zero-shot incluso supera a VideoRefer-7B en VideoRefer-BenchQ, lo que indica que sus fuertes capacidades pueden transferirse fácilmente a videos.
Presentamos DeepSeek-OCR como una investigación inicial sobre la viabilidad de comprimir contextos largos mediante mapeo óptico 2D. DeepSeek-OCR consta de dos componentes: DeepEncoder y DeepSeek3B-MoE-A570M como decodificador. Específicamente, DeepEncoder sirve como el motor central, diseñado para mantener bajas activaciones con entradas de alta resolución mientras logra altas tasas de compresión para garantizar un número óptimo y manejable de tokens visuales. Los experimentos muestran que cuando el número de tokens de texto es hasta 10 veces mayor que el de tokens visuales (es decir, una tasa de compresión < 10x), el modelo puede alcanzar una precisión de decodificación (OCR) del 97%. Incluso con una tasa de compresión de 20x, la precisión de OCR se mantiene en aproximadamente un 60%. Esto muestra un gran potencial para áreas de investigación como la compresión de contextos históricos largos y los mecanismos de olvido en LLMs. Más allá de esto, DeepSeek-OCR también demuestra un alto valor práctico. En OmniDocBench, supera a GOT-OCR2.0 (256 tokens/página) utilizando solo 100 tokens visuales, y supera a MinerU2.0 (6000+ tokens por página en promedio) mientras utiliza menos de 800 tokens visuales. En producción, DeepSeek-OCR puede generar datos de entrenamiento para LLMs/VLMs a una escala de más de 200k páginas por día (con una sola A100-40G). Los códigos y los pesos del modelo son de acceso público en http://github.com/deepseek-ai/DeepSeek-OCR.
Aunque los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado competencia en la generación de descripciones de videos, las aplicaciones prácticas requieren subtítulos que sigan instrucciones específicas del usuario en lugar de generar descripciones exhaustivas y sin restricciones. Sin embargo, los puntos de referencia actuales evalúan principalmente la exhaustividad descriptiva, pasando por alto en gran medida las capacidades de seguimiento de instrucciones. Para abordar esta brecha, presentamos IF-VidCap, un nuevo punto de referencia para evaluar la generación controlada de subtítulos de videos, que contiene 1,400 muestras de alta calidad. A diferencia de los puntos de referencia existentes para la generación de subtítulos de videos o el seguimiento general de instrucciones, IF-VidCap incorpora un marco sistemático que evalúa los subtítulos en dos dimensiones: corrección del formato y corrección del contenido. Nuestra evaluación exhaustiva de más de 20 modelos destacados revela un panorama matizado: a pesar de la continua dominación de los modelos propietarios, la brecha de rendimiento se está cerrando, con las soluciones de código abierto de primer nivel alcanzando ahora una paridad cercana. Además, encontramos que los modelos especializados en la generación de subtítulos densos tienen un rendimiento inferior al de los MLLMs de propósito general en instrucciones complejas, lo que indica que el trabajo futuro debería avanzar simultáneamente tanto en la riqueza descriptiva como en la fidelidad de seguimiento de instrucciones.
Aunque los modelos de difusión alcanzan una calidad de generación de vanguardia, todavía presentan un muestreo computacionalmente costoso. Trabajos recientes abordan este problema mediante métodos de optimización basados en gradientes que destilan un solucionador de EDO de difusión de pocos pasos a partir del proceso de muestreo completo, reduciendo el número de evaluaciones de funciones de docenas a solo unas pocas. Sin embargo, estos enfoques suelen depender de técnicas de entrenamiento intrincadas y no se centran explícitamente en preservar detalles de grano fino. En este artículo, presentamos el Solucionador Generalizado: una parametrización simple del muestreador de EDO que no requiere trucos adicionales de entrenamiento y mejora la calidad sobre los enfoques existentes. Además, combinamos la pérdida de destilación original con entrenamiento adversario, lo que mitiga artefactos y mejora la fidelidad de los detalles. Llamamos al método resultante Solucionador Adversario Generalizado y demostramos su rendimiento superior en comparación con los métodos de entrenamiento de solucionadores existentes bajo restricciones de recursos similares. El código está disponible en https://github.com/3145tttt/GAS.
La personalización fiel de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para alinearse con las preferencias individuales de los usuarios es una tarea crítica pero desafiante. Mientras que el ajuste fino supervisado (SFT, por sus siglas en inglés) alcanza rápidamente una meseta de rendimiento, el aprendizaje por refuerzo estándar basado en retroalimentación humana (RLHF, por sus siglas en inglés) también enfrenta dificultades con los matices de la personalización. Los modelos de recompensa basados en escalares son propensos a la manipulación de recompensas, lo que conduce a respuestas verbosas y superficialmente personalizadas. Para abordar estas limitaciones, proponemos **Critique-Post-Edit**, un marco robusto de aprendizaje por refuerzo que permite una personalización más fiel y controlable. Nuestro marco integra dos componentes clave: (1) un **Modelo Generativo de Recompensa Personalizado (GRM, por sus siglas en inglés)** que proporciona puntuaciones multidimensionales y críticas textuales para resistir la manipulación de recompensas, y (2) un mecanismo de **Critique-Post-Edit** donde el modelo de política revisa sus propias salidas basándose en estas críticas para un aprendizaje más dirigido y eficiente. Bajo una evaluación rigurosa controlada por longitud, nuestro método supera sustancialmente al PPO estándar en benchmarks de personalización. El modelo personalizado Qwen2.5-7B logra una mejora promedio del 11\% en la tasa de victoria, y el modelo personalizado Qwen2.5-14B supera el rendimiento de GPT-4.1. Estos resultados demuestran un camino práctico hacia una personalización fiel, eficiente y controlable.
Aunque los avances recientes en los modelos de visión-lenguaje (VLMs) han logrado un progreso notable en una amplia gama de tareas multimodales, comprender las relaciones espaciales en 3D a partir de vistas limitadas sigue siendo un desafío significativo. Los métodos de razonamiento anteriores generalmente dependen de texto puro (por ejemplo, mapas cognitivos topológicos) o de indicios visuales en 2D. Sin embargo, su capacidad representativa limitada dificulta el rendimiento en tareas específicas que requieren imaginación espacial en 3D. Para abordar esta limitación, proponemos 3DThinker, un marco que puede explotar eficazmente la rica información geométrica incrustada en las imágenes mientras razona, como lo hacen los humanos. Nuestro marco es el primero en permitir la mentalización en 3D durante el razonamiento sin ninguna entrada previa en 3D, y no depende de datos en 3D explícitamente etiquetados para el entrenamiento. Específicamente, nuestro entrenamiento consta de dos etapas. Primero, realizamos un entrenamiento supervisado para alinear el latente en 3D generado por el VLM durante el razonamiento con el de un modelo base en 3D (por ejemplo, VGGT). Luego, optimizamos toda la trayectoria de razonamiento únicamente basándonos en señales de resultado, refinando así la mentalización en 3D subyacente. Experimentos extensos en múltiples benchmarks muestran que 3DThinker supera consistentemente a las líneas base sólidas y ofrece una nueva perspectiva hacia la unificación de representaciones en 3D en el razonamiento multimodal. Nuestro código estará disponible en https://github.com/zhangquanchen/3DThinker.
La marca de agua multilingüe tiene como objetivo hacer que los resultados de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) sean rastreables a través de idiomas, aunque los métodos actuales aún no logran este objetivo. A pesar de las afirmaciones de robustez interlingüística, estos métodos solo se evalúan en idiomas de alto recurso. Demostramos que los métodos existentes de marca de agua multilingüe no son verdaderamente multilingües: no logran mantener su robustez frente a ataques de traducción en idiomas de recursos medios y bajos. Rastreamos este fallo al agrupamiento semántico, que falla cuando el vocabulario del tokenizador contiene muy pocos tokens de palabras completas para un idioma dado. Para abordar este problema, presentamos STEAM, un método de detección basado en retro-traducción que restaura la fuerza de la marca de agua perdida durante la traducción. STEAM es compatible con cualquier método de marca de agua, robusto frente a diferentes tokenizadores e idiomas, no invasivo y fácilmente extensible a nuevos idiomas. Con mejoras promedio de +0.19 AUC y +40%p TPR@1% en 17 idiomas, STEAM ofrece un camino simple y robusto hacia una marca de agua más justa en diversos idiomas.
El reciente desarrollo de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) ha avanzado significativamente la capacidad de la IA para comprender modalidades visuales. Sin embargo, los puntos de referencia de evaluación existentes se limitan a respuestas de preguntas de un solo turno, pasando por alto la complejidad de los diálogos de múltiples turnos en escenarios del mundo real. Para cerrar esta brecha, presentamos MT-Video-Bench, un punto de referencia holístico para la comprensión de videos que evalúa MLLMs en diálogos de múltiples turnos. Específicamente, nuestro MT-Video-Bench evalúa principalmente seis competencias centrales que se centran en la percepción y la interactividad, abarcando 987 diálogos de múltiples turnos cuidadosamente seleccionados de diversos dominios. Estas capacidades están rigurosamente alineadas con aplicaciones del mundo real, como el análisis interactivo de deportes y la tutoría inteligente basada en videos de múltiples turnos. Con MT-Video-Bench, evaluamos extensamente varios MLLMs de última generación, tanto de código abierto como cerrado, revelando sus discrepancias significativas en el rendimiento y limitaciones en el manejo de diálogos de video de múltiples turnos. El punto de referencia estará disponible públicamente para fomentar futuras investigaciones.
Los avances recientes en la generación de videos han permitido producir contenidos visualmente atractivos, con aplicaciones amplias en la creación de contenido, entretenimiento y realidad virtual. Sin embargo, la mayoría de los modelos existentes basados en transformadores de difusión para la generación de videos están limitados a salidas de baja resolución (<=720P) debido a la complejidad computacional cuadrática del mecanismo de atención con respecto al ancho y alto de la salida. Este cuello de botella computacional hace que la generación nativa de videos de alta resolución (1080P/2K/4K) sea poco práctica tanto para el entrenamiento como para la inferencia. Para abordar este desafío, presentamos UltraGen, un novedoso marco de generación de videos que permite i) una síntesis eficiente y ii) de extremo a extremo de videos nativos de alta resolución. Específicamente, UltraGen cuenta con una arquitectura jerárquica de atención de doble rama basada en la descomposición de atención global-local, que desacopla la atención completa en una rama de atención local para contenido regional de alta fidelidad y una rama de atención global para la coherencia semántica general. Además, proponemos una estrategia de modelado global comprimido espacialmente para aprender eficientemente las dependencias globales, y un mecanismo de atención local jerárquico entre ventanas para reducir los costos computacionales mientras se mejora el flujo de información entre diferentes ventanas locales. Experimentos extensivos demuestran que UltraGen puede escalar efectivamente modelos preentrenados de videos de baja resolución a 1080P e incluso a 4K por primera vez, superando a los métodos existentes de vanguardia y a las canalizaciones de dos etapas basadas en superresolución tanto en evaluaciones cualitativas como cuantitativas.
La calidad de los datos desempeña un papel crucial en la mejora del ajuste fino supervisado (SFT, por sus siglas en inglés) para modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), y la selección de datos a nivel de token ha surgido como una dirección prometedora debido a su naturaleza detallada. A pesar de su sólido rendimiento empírico, los métodos existentes de selección a nivel de token comparten dos limitaciones clave: (1) requieren entrenar o acceder a un modelo de referencia adicional, y (2) dependen únicamente de la información de pérdida para la selección de tokens, lo que no permite preservar adecuadamente tokens semánticamente importantes que no son favorecidos por métricas basadas en pérdida. Para abordar estos desafíos, proponemos ssToken, un enfoque de Selección de Tokens Automodulado y Consciente de la Semántica. ssToken aprovecha modelos históricos fácilmente accesibles para calcular la diferencia de pérdida por token con el modelo actual, lo que sirve como una señal automodulada que permite al modelo seleccionar tokens de manera adaptativa a lo largo de su trayectoria de optimización, en lugar de depender de la pérdida excesiva de un modelo de referencia entrenado fuera de línea, como en trabajos anteriores. Además, introducimos una métrica de estimación de importancia de tokens basada en atención y consciente de la semántica, ortogonal a la selección basada en pérdida y que proporciona información semántica complementaria para un filtrado más efectivo. Experimentos extensos en diferentes familias y escalas de modelos demuestran que tanto la selección automodulada como la selección consciente de la semántica superan individualmente el ajuste fino con todos los datos, mientras que su integración—ssToken—logra ganancias sinérgicas y supera aún más los métodos anteriores de selección a nivel de token, ofreciendo mejoras en el rendimiento mientras mantiene la eficiencia en el entrenamiento.
El codificador de texto original de CLIP está limitado por una longitud máxima de entrada de 77 tokens, lo que dificulta su capacidad para procesar textos largos y realizar una comprensión semántica detallada. Además, el codificador de texto de CLIP carece de soporte para entradas multilingües. Todas estas limitaciones restringen significativamente su aplicabilidad en una gama más amplia de tareas. Estudios recientes han intentado reemplazar el codificador de texto de CLIP con un codificador basado en LLM (Modelo de Lenguaje Grande) para mejorar su capacidad en el procesamiento de textos largos, la comprensión multilingüe y la comprensión semántica detallada. Sin embargo, dado que los espacios de representación de los LLM y el espacio de visión-lenguaje de CLIP se entrenan previamente de manera independiente sin alineación previa, la alineación directa mediante aprendizaje contrastivo puede perturbar la alineación intrínseca de visión-lenguaje en el codificador de imágenes de CLIP, lo que lleva a una subutilización del conocimiento adquirido durante el preentrenamiento. Para abordar este desafío, proponemos ProCLIP, un marco de alineación progresiva de visión-lenguaje basado en aprendizaje curricular, que alinea eficazmente el codificador de imágenes de CLIP con un codificador basado en LLM. Específicamente, ProCLIP primero destila conocimiento del codificador de texto de CLIP en el codificador basado en LLM para aprovechar el rico conocimiento preentrenado de CLIP, al mismo tiempo que establece una alineación inicial entre el codificador LLM y el codificador de imágenes de CLIP. Posteriormente, ProCLIP alinea aún más el codificador de imágenes de CLIP con el codificador basado en LLM mediante ajuste contrastivo de imagen-texto, empleando regularización de auto-destilación para evitar el sobreajuste. Para lograr una alineación más efectiva, se utilizan pérdidas de alineación semántica de instancia y pérdidas de alineación de estructura de incrustación durante la herencia de representación y el ajuste contrastivo. El código está disponible en https://github.com/VisionXLab/ProCLIP.
En los últimos años, los modelos generativos a gran escala para contenido visual (por ejemplo, imágenes, videos y objetos/escenas 3D) han logrado avances notables. Sin embargo, el entrenamiento de modelos de generación de videos a gran escala sigue siendo particularmente desafiante y requiere muchos recursos debido a la alineación multimodal texto-video, las secuencias largas involucradas y las complejas dependencias espacio-temporales. Para abordar estos desafíos, presentamos un marco de entrenamiento que optimiza cuatro pilares: (i) procesamiento de datos, (ii) arquitectura del modelo, (iii) estrategia de entrenamiento y (iv) infraestructura para modelos de generación de videos a gran escala. Estas optimizaciones han proporcionado ganancias significativas en eficiencia y mejoras en el rendimiento en todas las etapas de preprocesamiento de datos, compresión de video, escalado de parámetros, preentrenamiento basado en currículo y post-entrenamiento centrado en la alineación. Nuestro modelo resultante, MUG-V 10B, iguala a los generadores de video más recientes de vanguardia en general y, en tareas de generación de video orientadas al comercio electrónico, supera a los principales baselines de código abierto en evaluaciones humanas. Más importante aún, hemos liberado toda la pila, incluyendo los pesos del modelo, el código de entrenamiento a gran escala basado en Megatron-Core y las canalizaciones de inferencia para la generación y mejora de videos. Hasta donde sabemos, esta es la primera publicación pública de código de entrenamiento para generación de video a gran escala que aprovecha Megatron-Core para lograr una alta eficiencia de entrenamiento y un escalado casi lineal en múltiples nodos. Los detalles están disponibles en https://github.com/Shopee-MUG/MUG-V{nuestra página web}.
El razonamiento sobre relaciones espaciales dinámicas es esencial, ya que tanto los observadores como los objetos suelen moverse simultáneamente. Aunque los modelos de visión-lenguaje (VLMs) y los modelos de expertise visual destacan en tareas 2D y escenarios estáticos, su capacidad para comprender completamente escenarios dinámicos en 3D sigue siendo limitada. Introducimos la Inteligencia Espacial Dinámica y proponemos DSI-Bench, un benchmark con cerca de 1,000 videos dinámicos y más de 1,700 preguntas anotadas manualmente que cubren nueve patrones de movimiento desacoplados de observadores y objetos. Diseños espaciales y temporalmente simétricos reducen sesgos y permiten una evaluación sistemática del razonamiento de los modelos sobre el movimiento propio y el movimiento de los objetos. Nuestra evaluación de 14 VLMs y modelos expertos revela limitaciones clave: los modelos a menudo confunden el movimiento del observador y del objeto, exhiben sesgos semánticos y no logran inferir con precisión las relaciones relativas en escenarios dinámicos. Nuestro DSI-Bench proporciona hallazgos valiosos y perspectivas sobre el desarrollo futuro de modelos generales y de expertise con inteligencia espacial dinámica.
Si bien los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) muestran potencial en el comercio automatizado, aún enfrentan limitaciones críticas. Los marcos de trabajo multiagente más destacados a menudo presentan ineficiencias, generan señales inconsistentes y carecen de la optimización de extremo a extremo necesaria para aprender una estrategia coherente a partir de la retroalimentación del mercado. Para abordar esto, presentamos AlphaQuanter, un marco de trabajo de agente único que utiliza aprendizaje por refuerzo (RL, por sus siglas en inglés) para aprender una política dinámica sobre un flujo de trabajo de decisión aumentado con herramientas y transparente, lo que permite a un solo agente orquestar herramientas de manera autónoma y adquirir información de forma proactiva según la demanda, estableciendo un proceso de razonamiento transparente y auditable. Experimentos exhaustivos demuestran que AlphaQuanter alcanza un rendimiento de vanguardia en métricas financieras clave. Además, su razonamiento interpretable revela estrategias sofisticadas, ofreciendo perspectivas novedosas y valiosas para los operadores humanos. Nuestro código para la adquisición de datos y el entrenamiento del agente está disponible públicamente en: https://github.com/AlphaQuanter/AlphaQuanter.
En este trabajo, demostramos que es posible extraer cantidades significativas de datos de entrenamiento de alineación de un modelo post-entrenado, lo cual es útil para guiar al modelo a mejorar ciertas capacidades, como el razonamiento de contexto largo, la seguridad, el seguimiento de instrucciones y las matemáticas. Si bien la mayoría de los trabajos relacionados sobre memorización se han centrado en medir el éxito de la extracción de datos de entrenamiento mediante la coincidencia de cadenas, argumentamos que los modelos de incrustación son más adecuados para nuestros objetivos específicos. Las distancias medidas a través de un modelo de incrustación de alta calidad pueden identificar similitudes semánticas entre cadenas que una métrica diferente, como la distancia de edición, tendría dificultades para capturar. De hecho, en nuestra investigación, la coincidencia aproximada de cadenas habría subestimado gravemente (por una estimación conservadora de 10 veces) la cantidad de datos que se pueden extraer debido a artefactos triviales que reducen la métrica. Curiosamente, encontramos que los modelos regurgitan fácilmente los datos de entrenamiento que se utilizaron en fases de post-entrenamiento, como SFT o RL. Demostramos que estos datos pueden usarse luego para entrenar un modelo base, recuperando una cantidad significativa del rendimiento original. Creemos que nuestro trabajo expone un riesgo posiblemente pasado por alto hacia la extracción de datos de alineación. Finalmente, nuestro trabajo abre una discusión interesante sobre los efectos posteriores de las prácticas de destilación: dado que los modelos parecen estar regurgitando aspectos de su conjunto de entrenamiento, la destilación puede considerarse, por lo tanto, como un entrenamiento indirecto en el conjunto de datos original del modelo.
El razonamiento en video utilizando Modelos Multimodales de Gran Escala (LMMs) depende de costosos procesos de aprendizaje por refuerzo (RL) y cadenas de pensamiento extensas, lo que resulta en una sobrecarga computacional significativa tanto durante el entrenamiento como en la inferencia. Además, los mecanismos que controlan el proceso de pensamiento en estos modelos de razonamiento son muy limitados. En este artículo, utilizando la entropía de la salida del modelo como señal, descubrimos que los modelos de alta calidad atraviesan una serie de micro-exploraciones y micro-explotaciones que mantienen el proceso de razonamiento fundamentado (es decir, evitan un exceso de aleatoriedad mientras el modelo explora o piensa una respuesta). Observamos además que, una vez que este proceso de "pensamiento" concluye, los modelos más precisos demuestran una mejor convergencia al reducir significativamente la entropía mediante una fase final de explotación (es decir, una convergencia más segura hacia una trayectoria de solución). Luego, utilizamos estas nuevas ideas teóricamente fundamentadas para ajustar el comportamiento del modelo directamente durante la inferencia, sin emplear RL ni ajuste supervisado. Específicamente, durante la inferencia, nuestro enfoque propuesto, denominado V-Reason (Video-Reason), adapta la caché de valores del LMM mediante unos pocos pasos de optimización en un controlador pequeño y entrenable utilizando un objetivo basado en la entropía, es decir, no se requiere supervisión de ningún conjunto de datos ni RL. Este ajuste mejora el comportamiento de micro-exploración y explotación del modelo durante la inferencia. Nuestros experimentos muestran que nuestro método propuesto logra mejoras significativas sobre los modelos base ajustados por instrucción en varios conjuntos de datos de razonamiento en video, reduciendo la brecha con los modelos entrenados con RL a un 0.6% de precisión promedio sin ningún entrenamiento, mientras ofrece beneficios masivos en eficiencia: los tokens de salida se reducen en un 58.6% en comparación con el modelo RL.
Las aplicaciones de diagnóstico médico requieren modelos que puedan procesar entradas médicas multimodales (imágenes, historiales de pacientes, resultados de laboratorio) y generar resultados diversos, incluyendo tanto informes textuales como contenido visual (anotaciones, máscaras de segmentación e imágenes). A pesar de esta necesidad, los sistemas de IA médica existentes interrumpen este proceso unificado: los modelos de comprensión de imágenes médicas interpretan las imágenes pero no pueden generar resultados visuales, mientras que los modelos de generación de imágenes médicas sintetizan imágenes pero no pueden proporcionar explicaciones textuales. Esto conduce a brechas en la representación de datos, la integración de características y las capacidades multimodales a nivel de tareas. Con este fin, proponemos un marco multinivel que se inspira en los flujos de trabajo de diagnóstico a través del paradigma Observación-Conocimiento-Análisis (OKA). Específicamente, en el nivel de observación, construimos UniMed-5M, un conjunto de datos que comprende más de 5.6 millones de muestras que reformatean datos unimodales diversos en pares multimodales para la observación fundamental. En el nivel de conocimiento, proponemos el Aprendizaje Curricular Progresivo que introduce sistemáticamente el conocimiento multimodal médico. En el nivel de análisis, presentamos UniMedVL, el primer modelo médico unificado multimodal para el análisis simultáneo de tareas de comprensión y generación de imágenes dentro de una única arquitectura. UniMedVL logra un rendimiento superior en cinco puntos de referencia de comprensión de imágenes médicas, mientras iguala la calidad de generación de modelos especializados en ocho modalidades de imágenes médicas. Crucialmente, nuestra arquitectura unificada permite el intercambio bidireccional de conocimiento: las tareas de generación mejoran las características de comprensión visual, demostrando que la integración de capacidades tradicionalmente separadas dentro de un marco médico único desbloquea mejoras en diversas tareas de visión y lenguaje médico. El código está disponible en https://github.com/uni-medical/UniMedVL.
Presentamos Mono4DGS-HDR, el primer sistema para reconstruir escenas 4D de alto rango dinámico (HDR, por sus siglas en inglés) renderizables a partir de videos monoculares de bajo rango dinámico (LDR) capturados con exposiciones alternas y sin pose específica. Para abordar este problema tan desafiante, proponemos un marco unificado con un enfoque de optimización en dos etapas basado en Gaussian Splatting. La primera etapa aprende una representación HDR del video en el espacio de coordenadas de cámara ortográfica, eliminando la necesidad de poses de cámara y permitiendo una reconstrucción inicial robusta del video HDR. La segunda etapa transforma los Gaussianos del video al espacio mundial y refina conjuntamente los Gaussianos mundiales con las poses de la cámara. Además, proponemos una estrategia de regularización de luminancia temporal para mejorar la consistencia temporal de la apariencia HDR. Dado que esta tarea no ha sido estudiada previamente, construimos un nuevo punto de referencia de evaluación utilizando conjuntos de datos disponibles públicamente para la reconstrucción de videos HDR. Experimentos exhaustivos demuestran que Mono4DGS-HDR supera significativamente a soluciones alternativas adaptadas de métodos de vanguardia tanto en calidad de renderizado como en velocidad.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) son razonadores potentes en lenguaje natural, pero sus acciones suelen limitarse a la generación de tokens de vocabulario. Como resultado, las interacciones con entornos externos —como operadores simbólicos o simuladores— deben expresarse mediante texto en formatos predefinidos, analizarse y dirigirse a interfaces externas. Esto sobrecarga el lenguaje del modelo con tareas tanto de razonamiento como de control, y requiere un analizador manual, externo al LLM. Para abordar este problema, desacoplamos las interacciones con el entorno del lenguaje al internalizarlas en un Espacio de Acción Expandido (ExpA), más allá del vocabulario. El modelo comienza razonando en el entorno de lenguaje predeterminado, pero puede activar acciones de enrutamiento y cambiar a un entorno externo en cualquier momento. A partir de ahí, el modelo solo puede invocar acciones específicas del entorno, recibir retroalimentación del mismo y, potencialmente, volver a enrutarse al lenguaje como resultado. Para fomentar una exploración efectiva del espacio de acción expandido y de nuevos entornos, introducimos el Aprendizaje por Refuerzo en el Espacio de Acción Expandido (EARL, por sus siglas en inglés) con optimización de políticas contrafactuales. En tareas que requieren interacciones multiturno y planificación contingente, EARL supera a líneas de base sólidas con acciones restringidas al vocabulario. Demuestra un rendimiento robusto en el aprendizaje multitarea basado en calculadoras y, en el problema de ordenamiento parcialmente observado, logra una precisión perfecta en Sort-4 mientras descubre de manera autónoma un algoritmo eficiente competitivo con diseños clásicos.
Los agentes de código son cada vez más confiados para corregir errores de manera autónoma en plataformas como GitHub, sin embargo, su evaluación de seguridad se centra casi exclusivamente en la corrección funcional. En este artículo, revelamos un nuevo tipo de amenaza para los agentes de código en el mundo real: los parches funcionalmente correctos pero vulnerables (FCV, por sus siglas en inglés), que pasan todos los casos de prueba pero contienen código vulnerable. Con nuestro FCV-Ataque propuesto, que puede ser deliberadamente creado por atacantes maliciosos o introducido implícitamente por desarrolladores benignos, demostramos que los modelos de lenguaje de última generación (LLM, por sus siglas en inglés) (por ejemplo, ChatGPT y Claude) y los andamiajes de agentes (por ejemplo, SWE-agent y OpenHands) son todos vulnerables a esta amenaza FCV; en 12 combinaciones de agente-modelo en SWE-Bench, el ataque solo requiere acceso de caja negra y una única consulta al agente de código para ejecutarse. Por ejemplo, para CWE-538 (vulnerabilidad de exposición de información), el FCV-Ataque alcanza una tasa de éxito del 40.7% en GPT-5 Mini + OpenHands. Nuestros resultados revelan una importante amenaza de seguridad pasada por alto por los paradigmas de evaluación actuales y urgen al desarrollo de defensas conscientes de la seguridad para los agentes de código.
Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) se están aplicando cada vez más en la investigación científica, pero aún no está claro si pueden comprender y razonar de manera confiable sobre la complejidad multimodal de los artículos científicos. Un desafío central radica en detectar y resolver inconsistencias entre texto, figuras, tablas y ecuaciones, problemas que suelen ser sutiles, específicos del dominio y que, en última instancia, socavan la claridad, la reproducibilidad y la confianza. Los puntos de referencia existentes pasan por alto este problema, ya sea aislando modalidades individuales o basándose en errores sintéticos que no capturan la complejidad del mundo real. Presentamos PRISMM-Bench (Conjunto de Inconsistencias Sometidas a Revisión por Pares para Modelos Multimodales), el primer punto de referencia basado en inconsistencias reales señaladas por revisores en artículos científicos. A través de una canalización de múltiples etapas que incluye minería de revisiones, filtrado asistido por LLM y verificación humana, recopilamos 262 inconsistencias de 242 artículos. Basándonos en este conjunto, diseñamos tres tareas: identificación de inconsistencias, remedio y emparejamiento de pares, que evalúan la capacidad de un modelo para detectar, corregir y razonar sobre inconsistencias en diferentes modalidades. Además, para abordar el notorio problema de los atajos de elección única en la evaluación de opción múltiple, donde los modelos explotan patrones de respuesta sin comprender verdaderamente la pregunta, introducimos representaciones de respuestas basadas en JSON estructurado que minimizan los sesgos lingüísticos al reducir la dependencia de indicios estilísticos superficiales. Evaluamos 21 LMMs líderes, incluyendo modelos de gran escala de código abierto (GLM-4.5V 106B, InternVL3 78B) y modelos propietarios (Gemini 2.5 Pro, GPT-5 con alto razonamiento). Los resultados revelan un rendimiento sorprendentemente bajo (26.1-54.2%), subrayando el desafío del razonamiento científico multimodal y motivando el avance hacia asistentes científicos confiables.
El fundamento de la ciencia reproducible radica en protocolos que son precisos, lógicamente ordenados y ejecutables. La generación autónoma de estos protocolos mediante consultas en lenguaje natural podría mejorar significativamente la eficiencia del proceso de reproducción. Sin embargo, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) líderes actuales a menudo generan protocolos incompletos o inconsistentes, lo que limita su utilidad. Para abordar esta limitación, primero presentamos SciRecipe, un conjunto de datos a gran escala de más de 12,000 protocolos estructurados que abarcan 27 subcampos biológicos e incluyen tareas de comprensión y resolución de problemas. Para mejorar aún más la generación de protocolos, proponemos el paradigma "Sketch-and-Fill", que separa el análisis, la estructuración y la expresión para garantizar que cada paso sea explícito y verificable. Complementando esto, el mecanismo de recompensa basado en componentes estructurados evalúa la granularidad de los pasos, el orden de las acciones y la fidelidad semántica, alineando la optimización del modelo con la confiabilidad experimental. Sobre la base de estos componentes, desarrollamos Thoth, entrenado a través de un proceso escalonado de Conocimiento-a-Acción que avanza desde la adquisición de conocimiento hasta el razonamiento operativo y, finalmente, la generación de protocolos robustos y ejecutables. En múltiples puntos de referencia, Thoth supera consistentemente tanto a los LLMs propietarios como a los de código abierto, logrando mejoras significativas en la alineación de pasos, la secuenciación lógica y la precisión semántica. Nuestro enfoque allana el camino para asistentes científicos confiables que conectan el conocimiento con la ejecución experimental. Todos los datos, códigos y modelos se publicarán públicamente.
La calidad de la imagen es un factor crítico para ofrecer contenido visualmente atractivo en plataformas web. Sin embargo, las imágenes a menudo sufren degradación debido a operaciones con pérdida aplicadas por las redes sociales en línea (OSNs, por sus siglas en inglés), lo que afecta negativamente la experiencia del usuario. La restauración de imágenes es el proceso de recuperar una imagen limpia y de alta calidad a partir de una entrada degradada. Recientemente, los modelos de restauración de imágenes multitarea (todo en uno) han ganado una atención significativa debido a su capacidad para manejar simultáneamente diferentes tipos de degradación de imágenes. Sin embargo, estos modelos suelen tener un número excesivamente alto de parámetros entrenables, lo que los hace computacionalmente ineficientes. En este artículo, proponemos una estrategia para comprimir modelos de restauración de imágenes multitarea. Nuestro objetivo es descubrir subredes altamente dispersas dentro de modelos profundos sobreparametrizados que puedan igualar o incluso superar el rendimiento de sus contrapartes densas. El modelo propuesto, denominado MIR-L, utiliza una estrategia de poda iterativa que elimina los pesos de baja magnitud en múltiples rondas, mientras restablece los pesos restantes a su inicialización original. Este proceso iterativo es importante para la optimización del modelo de restauración de imágenes multitarea, descubriendo efectivamente "boletos ganadores" que mantienen o superan el rendimiento de vanguardia en niveles altos de dispersión. La evaluación experimental en conjuntos de datos de referencia para las tareas de eliminación de lluvia, desenfoque y reducción de ruido muestra que MIR-L retiene solo el 10% de los parámetros entrenables mientras mantiene un alto rendimiento en la restauración de imágenes. Nuestro código, conjuntos de datos y modelos preentrenados están disponibles públicamente en https://github.com/Thomkat/MIR-L.
Un desafío central en la inferencia de modelos de lenguaje de gran escala es el equilibrio entre la velocidad de generación y la calidad de la salida. Los modelos autorregresivos producen texto de alta calidad pero generan tokens de manera secuencial. Los modelos de difusión pueden generar tokens en paralelo, pero a menudo requieren muchas iteraciones para alcanzar la misma calidad. Proponemos la difusión planificada, un método híbrido que combina las fortalezas de ambos paradigmas. La difusión planificada funciona en dos etapas: primero, el modelo crea un plan autorregresivo breve que divide la salida en segmentos más pequeños e independientes. Segundo, el modelo genera estos segmentos simultáneamente utilizando difusión. Este enfoque amplía la frontera de Pareto entre velocidad y calidad y ofrece un camino práctico hacia la generación de texto más rápida y de alta calidad. En AlpacaEval, un conjunto de 805 indicaciones de seguimiento de instrucciones, la difusión planificada logra un equilibrio Pareto-óptimo entre calidad y latencia, alcanzando una aceleración de 1.27x a 1.81x sobre la generación autorregresiva con solo una caída del 0.87% al 5.4% en la tasa de éxito, respectivamente. Nuestro análisis de sensibilidad muestra que el mecanismo de planificación de la difusión planificada es mínimo y confiable, y existen controles simples en tiempo de ejecución para proporcionar un control flexible del equilibrio entre calidad y latencia.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) exhiben una alineación fuerte pero superficial: rechazan directamente consultas dañinas cuando se espera un rechazo al inicio de un turno del asistente, pero esta protección colapsa una vez que una continuación dañina está en marcha (ya sea a través de ataques adversarios o mediante ataques de prellenado dañino por parte del asistente). Esto plantea una pregunta fundamental: ¿Puede desbloquearse la alineación superficial innata de los LLMs para garantizar la seguridad en profundidades de generación arbitrarias? Para lograr este objetivo, proponemos Alineación a Cualquier Profundidad (ADA, por sus siglas en inglés), una defensa efectiva en tiempo de inferencia con un costo computacional insignificante. ADA se basa en nuestra observación de que la alineación se concentra en los tokens de cabecera del asistente debido a su uso repetido en el entrenamiento de rechazo superficial, y estos tokens poseen los fuertes sesgos de alineación del modelo. Al reintroducir estos tokens en medio del flujo, ADA induce al modelo a reevaluar la nocividad y recuperar los rechazos en cualquier punto de la generación. En diversas familias de modelos de código abierto (Llama, Gemma, Mistral, Qwen, DeepSeek y gpt-oss), ADA logra un rendimiento robusto en seguridad sin requerir cambios en los parámetros del modelo base. Asegura una tasa de rechazo cercana al 100% frente a ataques adversarios de prellenado que van desde decenas hasta miles de tokens. Además, ADA reduce la tasa de éxito promedio de ataques adversarios destacados (como GCG, AutoDAN, PAIR y TAP) a menos del 3%. Todo esto se logra manteniendo la utilidad en tareas benignas con un mínimo de rechazos excesivos. ADA conserva esta resiliencia incluso después de que el modelo base se somete a ajustes posteriores de instrucción (benignos o adversarios).
Los modelos de lenguaje grande ajustados por instrucciones (IT-LLMs, por sus siglas en inglés) exhiben un razonamiento sólido en tareas de cero disparos, pero su capacidad para ejecutar instrucciones simples y autónomas sigue siendo poco explorada, a pesar de que esto es fundamental para el seguimiento de instrucciones complejas. Evaluamos 20 IT-LLMs en versiones modificadas de los benchmarks MMLU y MMLU-Pro, variando sistemáticamente el formato de las etiquetas de opción (alfabético, numérico, romano) mientras se mantenía su significado idéntico bajo cuatro paradigmas: (1) Con instrucciones explícitas, los cambios en las etiquetas causan grandes variaciones en el rendimiento (por ejemplo, -30.45% para romano vs. numérico), revelando un sesgo hacia el formato de las instrucciones. (2) Sin instrucciones, el rendimiento disminuye aún más (hasta -10.84%) y la sensibilidad a las etiquetas se intensifica, destacando el papel de la guía explícita. (3) Cuando se eliminan los contenidos de las opciones, los modelos no superan los baselines de elección aleatoria, excepto con etiquetas numéricas, lo que sugiere una adherencia débil a las directivas atómicas. (4) Los ejemplos de tres disparos no producen mejoras significativas en robustez o fidelidad, y los análisis de generación muestran errores persistentes en las etiquetas, especialmente en formatos no numéricos. A través de diferentes tamaños de modelos, los LLMs más grandes logran una mayor precisión pero siguen siendo inconsistentes en el seguimiento de instrucciones. Estos resultados exponen las insuficiencias de los paradigmas actuales de ajuste por instrucciones y resaltan la necesidad de métodos de evaluación y estrategias de entrenamiento que aborden explícitamente el seguimiento de instrucciones atómicas.
¿Qué pasaría si los agentes artificiales no solo pudieran comunicarse, sino también evolucionar, adaptarse y transformar sus mundos de maneras que no podemos predecir completamente? Con los modelos de lenguaje (llm) impulsando ahora sistemas multiagente y simulaciones sociales, estamos presenciando nuevas posibilidades para modelar entornos abiertos y en constante cambio. Sin embargo, la mayoría de las simulaciones actuales siguen limitadas a entornos estáticos, caracterizados por tareas predefinidas, dinámicas limitadas y criterios de evaluación rígidos. Estas limitaciones les impiden capturar la complejidad de las sociedades del mundo real. En este artículo, argumentamos que los puntos de referencia estáticos y específicos de tareas son fundamentalmente inadecuados y deben ser reconsiderados. Revisamos críticamente las arquitecturas emergentes que combinan llm con dinámicas multiagente, destacamos obstáculos clave como equilibrar estabilidad y diversidad, evaluar comportamientos inesperados y escalar hacia una mayor complejidad, e introducimos una nueva taxonomía para este campo en rápida evolución. Finalmente, presentamos una hoja de ruta de investigación centrada en la apertura, la coevolución continua y el desarrollo de ecosistemas de IA resilientes y socialmente alineados. Hacemos un llamado a la comunidad para que vaya más allá de los paradigmas estáticos y ayude a dar forma a la próxima generación de simulaciones multiagente adaptativas y socialmente conscientes.
Estudiamos la predicción a corto plazo de los recuentos semanales de incidentes terroristas utilizando la Base de Datos Global de Terrorismo (GTD, 1970-2016). Construimos una pipeline reproducible con divisiones temporales fijas y evaluamos una LSTM Bidireccional (BiLSTM) frente a anclajes clásicos sólidos (naive estacional, lineal/ARIMA) y una línea de base profunda de LSTM-Atención. En el conjunto de prueba reservado, la BiLSTM alcanza un RMSE de 6.38, superando a LSTM-Atención (9.19; +30.6%) y a una línea de base de regresión lineal con retraso (+35.4% de mejora en RMSE), con mejoras paralelas en MAE y MAPE. Las ablaciones que varían la memoria temporal, la longitud del historial de entrenamiento, la granularidad espacial, el tamaño de retrospectiva y los grupos de características muestran que los modelos entrenados con datos históricos largos generalizan mejor; una retrospectiva moderada (20-30 semanas) proporciona un contexto sólido; y la codificación bidireccional es crucial para capturar tanto los patrones de acumulación como los de consecuencias dentro de la ventana. El análisis de grupos de características indica que la estructura a corto plazo (recuentos retrasados y estadísticas móviles) contribuye más, con características geográficas y de víctimas añadiendo un incremento adicional. Publicamos código, configuraciones y tablas de resultados compactas, y proporcionamos un documento de datos/ética que documenta la licencia de GTD y su uso exclusivo para investigación. En general, el estudio ofrece una referencia transparente y superadora de líneas de base para la predicción de incidentes en GTD.
Los datos verificables y confiables se han convertido en un factor clave para el avance de las capacidades de los modelos de lenguaje modernos, permitiendo un aprendizaje por refuerzo estable con recompensas verificables y una destilación efectiva que transfiere competencias en tareas de matemáticas, programación y agentes autónomos. Sin embargo, la construcción de datos sintéticos verificables y generalizables sigue siendo un desafío debido a la generación propensa a la alucinación y a los artefactos de verificación débiles o triviales que no logran distinguir soluciones sólidas de las débiles. Los enfoques existentes suelen depender de heurísticas específicas para cada tarea o filtros post-hoc que no se transfieren entre dominios y carecen de un evaluador universal y fundamentado de la verificabilidad. En este trabajo, presentamos un marco de síntesis de datos evolutivo, independiente de la tarea, guiado por estrategias y verificable mediante ejecución que, a partir de una supervisión mínima inicial, sintetiza conjuntamente problemas, soluciones candidatas diversas y artefactos de verificación, y descubre iterativamente estrategias mediante un evaluador basado en consistencia que exige concordancia entre verificaciones anotadas por humanos y las inducidas por estrategias. Esta metodología transforma el filtrado en una síntesis fundamentada: ensambla de manera confiable instancias de entrenamiento coherentes y verificables y generaliza sin reglas específicas del dominio. Nuestros experimentos demuestran la efectividad del enfoque propuesto bajo los paradigmas de entrenamiento RLVR y destilación de modelos. Los resultados muestran que el entrenamiento con nuestros datos sintetizados produce mejoras significativas en las tareas de LiveCodeBench y AgentBench-OS, destacando la robusta generalización de nuestro marco.
Los modelos de lenguaje de gran escala (LLMs) potenciados con herramientas están surgiendo como agentes de investigación profunda, sistemas que descomponen consultas complejas, recuperan evidencia externa y sintetizan respuestas fundamentadas. Sin embargo, los agentes actuales siguen limitados por una recuperación superficial, métricas de alineación débiles y un comportamiento frágil en el uso de herramientas. Presentamos PokeeResearch-7B, un agente de investigación profunda de 7 mil millones de parámetros construido bajo un marco unificado de aprendizaje por refuerzo para robustez, alineación y escalabilidad. PokeeResearch-7B es entrenado mediante un marco de Aprendizaje por Refuerzo a partir de Retroalimentación de IA (RLAIF) sin anotaciones, optimizando políticas utilizando señales de recompensa basadas en LLM que capturan precisión factual, fidelidad en las citas y adherencia a las instrucciones. Un andamiaje de razonamiento multicall impulsado por cadena de pensamiento mejora aún más la robustez mediante autoverificación y recuperación adaptativa ante fallos en las herramientas. Entre 10 puntos de referencia populares de investigación profunda, PokeeResearch-7B logra un rendimiento de vanguardia entre los agentes de investigación profunda de escala 7B. Esto destaca que un diseño cuidadoso de aprendizaje por refuerzo y razonamiento puede producir agentes de IA eficientes, resilientes y aptos para la investigación. El modelo y el código de inferencia se publican bajo licencia MIT en https://github.com/Pokee-AI/PokeeResearchOSS.