Artículos de investigación en IA seleccionados diariamente con traducciones
Los videos de presentaciones académicas se han convertido en un medio esencial para la comunicación de investigaciones, aunque su producción sigue siendo altamente laboriosa, requiriendo a menudo horas de diseño de diapositivas, grabación y edición para un video corto de 2 a 10 minutos. A diferencia del video natural, la generación de videos de presentaciones implica desafíos distintivos: entradas de artículos de investigación, información multimodal densa (texto, figuras, tablas) y la necesidad de coordinar múltiples canales alineados, como diapositivas, subtítulos, voz y el hablante humano. Para abordar estos desafíos, presentamos PaperTalker, el primer conjunto de referencia de 101 artículos de investigación emparejados con videos de presentaciones creados por los autores, diapositivas y metadatos del hablante. Además, diseñamos cuatro métricas de evaluación personalizadas—Similitud Meta, PresentArena, PresentQuiz y Memoria IP—para medir cómo los videos transmiten la información del artículo a la audiencia. Sobre esta base, proponemos PaperTalker, el primer marco de trabajo multiagente para la generación de videos de presentaciones académicas. Este integra la generación de diapositivas con un refinamiento efectivo del diseño mediante una novedosa elección visual basada en búsqueda en árbol, anclaje del cursor, subtitulación, síntesis de voz y renderizado de cabezas parlantes, mientras paraleliza la generación por diapositivas para mayor eficiencia. Los experimentos en Paper2Video demuestran que los videos de presentaciones producidos por nuestro enfoque son más fieles e informativos que los métodos existentes, estableciendo un paso práctico hacia la generación automatizada y lista para usar de videos académicos. Nuestro conjunto de datos, agente y código están disponibles en https://github.com/showlab/Paper2Video.
Las aplicaciones de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés), como agentes y razonamiento específico de dominio, dependen cada vez más de la adaptación contextual: la modificación de entradas con instrucciones, estrategias o evidencia, en lugar de actualizaciones de pesos. Los enfoques previos mejoran la usabilidad, pero a menudo sufren de sesgo de brevedad, que descarta conocimientos del dominio en favor de resúmenes concisos, y de colapso contextual, donde la reescritura iterativa erosiona los detalles con el tiempo. Basándonos en la memoria adaptativa introducida por Dynamic Cheatsheet, presentamos ACE (Ingeniería Contextual Agéntica), un marco que trata los contextos como manuales evolutivos que acumulan, refinan y organizan estrategias a través de un proceso modular de generación, reflexión y curación. ACE previene el colapso con actualizaciones estructuradas e incrementales que preservan el conocimiento detallado y escalan con modelos de contexto largo. En benchmarks de agentes y dominios específicos, ACE optimiza los contextos tanto fuera de línea (por ejemplo, indicaciones del sistema) como en línea (por ejemplo, memoria del agente), superando consistentemente líneas de base sólidas: +10.6% en agentes y +8.6% en finanzas, mientras reduce significativamente la latencia de adaptación y el costo de implementación. Notablemente, ACE pudo adaptarse eficazmente sin supervisión etiquetada, aprovechando en su lugar la retroalimentación natural de la ejecución. En el ranking de AppWorld, ACE iguala al agente de nivel de producción mejor clasificado en el promedio general y lo supera en la división más desafiante de pruebas, a pesar de utilizar un modelo de código abierto más pequeño. Estos resultados demuestran que los contextos completos y evolutivos permiten sistemas LLM escalables, eficientes y automejorables con un bajo costo adicional.
La comprensión de video representa la frontera más desafiante en la visión por computadora, ya que requiere que los modelos razonen sobre relaciones espacio-temporales complejas, dependencias a largo plazo y evidencia multimodal. La reciente aparición de los Modelos Multimodales de Gran Escala para Video (Video-LMMs, por sus siglas en inglés), que integran codificadores visuales con potentes modelos de lenguaje basados en decodificadores, ha demostrado capacidades notables en tareas de comprensión de video. Sin embargo, la fase crítica que transforma estos modelos desde sistemas de percepción básica hasta motores de razonamiento sofisticados, conocida como post-entrenamiento, sigue estando fragmentada en la literatura. Este estudio ofrece el primer examen exhaustivo de las metodologías de post-entrenamiento para Video-LMMs, abarcando tres pilares fundamentales: ajuste fino supervisado (SFT) con cadena de pensamiento, aprendizaje por refuerzo (RL) a partir de objetivos verificables, y escalado en tiempo de prueba (TTS) mediante computación de inferencia mejorada. Presentamos una taxonomía estructurada que aclara los roles, interconexiones y adaptaciones específicas para video de estas técnicas, abordando desafíos únicos como la localización temporal, la fundamentación espacio-temporal, la eficiencia en videos largos y la integración de evidencia multimodal. A través de un análisis sistemático de métodos representativos, sintetizamos principios de diseño clave, insights y protocolos de evaluación, mientras identificamos desafíos abiertos críticos en el diseño de recompensas, escalabilidad y optimización de costo-rendimiento. Además, recopilamos benchmarks, conjuntos de datos y métricas esenciales para facilitar una evaluación rigurosa de la efectividad del post-entrenamiento. Este estudio tiene como objetivo proporcionar a investigadores y profesionales un marco unificado para avanzar en las capacidades de los Video-LMMs. Recursos adicionales y actualizaciones se mantienen en: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training.
La búsqueda en árbol se ha consolidado como un marco representativo para el razonamiento en tiempo de prueba con modelos de lenguaje de gran escala (LLMs), ejemplificado por métodos como Árbol de Pensamientos y Búsqueda en Árbol de Monte Carlo, que exploran múltiples rutas de razonamiento. Sin embargo, sigue siendo difícil proporcionar evaluaciones cuantitativas instantáneas y confiables de la calidad de los pasos intermedios de razonamiento, y la exploración extensiva de rutas es computacionalmente costosa. Para abordar esto, proponemos la Búsqueda en Árbol de Información Mutua (MITS, por sus siglas en inglés), un marco novedoso que guía el razonamiento con principios de teoría de la información. MITS introduce una función de puntuación efectiva basada en la información mutua puntual (PMI, por sus siglas en inglés), que permite la evaluación paso a paso de las rutas de razonamiento y la expansión del árbol de búsqueda mediante búsqueda por haz, sin simulaciones costosas de anticipación, logrando un rendimiento superior en el razonamiento mientras mantiene la eficiencia computacional. El marco se complementa con una estrategia de muestreo dinámico basada en entropía que asigna adaptativamente recursos computacionales a los pasos de razonamiento inciertos donde la exploración es más beneficiosa. Para la predicción final, MITS emplea un esquema de votación ponderada que combina las puntuaciones PMI con el consenso de predicción. A través de experimentos exhaustivos en diversos puntos de referencia de razonamiento, MITS supera consistentemente los métodos de referencia, estableciendo un marco eficiente y basado en principios para el razonamiento con LLMs.
Los modelos recientes de generación de video pueden producir clips fluidos y visualmente atractivos, pero a menudo tienen dificultades para sintetizar dinámicas complejas con una cadena coherente de consecuencias. Modelar con precisión los resultados visuales y las transiciones de estado a lo largo del tiempo sigue siendo un desafío fundamental. En contraste, los modelos de lenguaje y multimodales de gran escala (por ejemplo, GPT-4o) exhiben capacidades sólidas de razonamiento sobre estados visuales y predicción futura. Para aprovechar estas fortalezas, presentamos VChain, un novedoso marco de cadena de pensamiento visual en tiempo de inferencia que inyecta señales de razonamiento visual de modelos multimodales en la generación de video. Específicamente, VChain contiene una canalización dedicada que aprovecha los modelos multimodales de gran escala para generar un conjunto disperso de fotogramas clave críticos como instantáneas, que luego se utilizan para guiar el ajuste disperso en tiempo de inferencia de un generador de video preentrenado solo en estos momentos clave. Nuestro enfoque es eficiente en ajustes, introduce una sobrecarga mínima y evita la supervisión densa. Experimentos extensos en escenarios complejos y de múltiples pasos muestran que VChain mejora significativamente la calidad de los videos generados.
Los ataques de jailbreaking en la modalidad visual suelen basarse en perturbaciones adversarias imperceptibles, mientras que los ataques en la modalidad textual generalmente se asume que requieren modificaciones visibles (por ejemplo, sufijos no semánticos). En este artículo, presentamos jailbreaks imperceptibles que explotan una clase de caracteres Unicode llamados selectores de variación. Al añadir selectores de variación invisibles a preguntas maliciosas, los prompts de jailbreak aparecen visualmente idénticos a las preguntas maliciosas originales en pantalla, mientras que su tokenización se altera "secretamente". Proponemos una cadena de búsqueda para generar tales sufijos adversarios que induzcan respuestas dañinas. Nuestros experimentos muestran que nuestros jailbreaks imperceptibles logran altas tasas de éxito de ataque contra cuatro LLMs alineados y se generalizan a ataques de inyección de prompts, todo sin producir modificaciones visibles en el prompt escrito. Nuestro código está disponible en https://github.com/sail-sg/imperceptible-jailbreaks.
Los avances recientes en los modelos de lenguaje de gran escala demuestran que las arquitecturas híbridas—que combinan mecanismos de autoatención con modelos de espacio de estados estructurados como Mamba—pueden lograr un equilibrio convincente entre la calidad del modelado y la eficiencia computacional, particularmente para tareas de contexto largo. Aunque estos modelos híbridos muestran un rendimiento prometedor, las comparaciones sistemáticas de las estrategias de hibridación y los análisis sobre los factores clave detrás de su efectividad no han sido claramente compartidos con la comunidad. En este trabajo, presentamos una evaluación holística de arquitecturas híbridas basadas en fusión inter-capa (secuencial) o intra-capa (paralela). Evaluamos estos diseños desde diversas perspectivas: rendimiento en modelado de lenguaje, capacidades de contexto largo, análisis de escalabilidad y eficiencia en entrenamiento e inferencia. Al investigar las características fundamentales de su primitiva computacional, identificamos los elementos más críticos para cada estrategia de hibridación y, además, proponemos recetas de diseño óptimas para ambos modelos híbridos. Nuestro análisis integral proporciona orientación práctica y perspectivas valiosas para el desarrollo de modelos de lenguaje híbridos, facilitando la optimización de configuraciones arquitectónicas.
A pesar de los avances recientes en la transferencia óptima de hiperparámetros bajo escalamiento de modelos y conjuntos de datos, no se ha establecido un principio explicativo unificador. Utilizando el optimizador Scion, descubrimos que el escalamiento óptimo conjunto entre tamaños de modelo y de conjunto de datos está gobernado por un único invariante: la norma del operador de la capa de salida. En modelos con hasta 1.300 millones de parámetros entrenados con hasta 138.000 millones de tokens, el par óptimo de tasa de aprendizaje/tamaño de lote (eta^{ast}, B^{ast}) mantiene consistentemente el mismo valor de norma del operador, un fenómeno que denominamos transferencia de norma. Esta condición de norma constante es necesaria pero no suficiente: aunque para cada tamaño de conjunto de datos, múltiples pares (eta, B) alcanzan la norma óptima, solo un único (eta^{ast}, B^{ast}) logra la mejor pérdida. Como condición suficiente, proporcionamos la primera medición del escalamiento de (eta^{ast}, B^{ast}) con el tamaño del conjunto de datos para Scion, y encontramos que las reglas de escalamiento son consistentes con las del optimizador Adam. El ajuste de las tasas de aprendizaje por grupos de capas también mejora el rendimiento del modelo, siendo la capa de salida la más sensible y las capas ocultas beneficiándose de tasas de aprendizaje más bajas. Ofrecemos insights prácticos sobre el escalamiento óptimo guiado por normas y publicamos nuestra implementación de Scion Distribuido (Disco) con registros de más de dos mil ejecuciones para apoyar la investigación sobre la dinámica de entrenamiento de modelos de lenguaje a gran escala.
La arquitectura Transformer se ha convertido en el estándar de facto para los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés), demostrando capacidades notables en la comprensión y generación de lenguaje. Sin embargo, su aplicación en la inteligencia artificial conversacional está fundamentalmente limitada por su naturaleza sin estado y la complejidad computacional cuadrática (O(L^2)) con respecto a la longitud de la secuencia L. Los modelos actuales emulan la memoria reprocesando un historial de conversación en constante expansión con cada turno, lo que conduce a costos y latencias prohibitivos en diálogos extensos. Este artículo presenta el Transformer Reactivo (RxT), una arquitectura novedosa diseñada para superar estas limitaciones al cambiar de un paradigma basado en datos a uno basado en eventos. RxT procesa cada turno conversacional como un evento discreto en tiempo real, manteniendo el contexto en un sistema de Memoria a Corto Plazo (STM, por sus siglas en inglés) integrado y de tamaño fijo. La arquitectura presenta un ciclo operativo distintivo en el que un generador-decodificador produce una respuesta basada en la consulta actual y el estado previo de la memoria, después de lo cual un codificador de memoria y una red de Atención de Memoria dedicada actualizan asincrónicamente la STM con una representación de la interacción completa. Este diseño altera fundamentalmente la dinámica de escalado, reduciendo el costo total de una conversación para el usuario de cuadrático (O(N^2 cdot T)) a lineal (O(N cdot T)) con respecto al número de interacciones N. Al desacoplar la generación de respuestas de las actualizaciones de memoria, RxT logra una baja latencia, permitiendo conversaciones extensas en tiempo real, con estado y económicamente viables. Validamos nuestra arquitectura con una serie de experimentos de prueba de concepto en datos sintéticos, demostrando un rendimiento superior y una latencia de inferencia constante en comparación con un modelo base sin estado de tamaño comparable.
El paradigma predominante para mejorar las capacidades de razonamiento de los LLM gira en torno al entrenamiento posterior con datos de alta calidad e intensivos en razonamiento. Si bien la literatura emergente sugiere que los datos de razonamiento se incorporan cada vez más también durante la etapa intermedia del entrenamiento—una práctica que es relativamente más propietaria y menos caracterizada abiertamente—el papel de dichos datos en el preentrenamiento sigue siendo poco claro. En particular, debido a la opacidad de los corpus de preentrenamiento en la mayoría de los modelos de vanguardia, el efecto de los datos de razonamiento introducidos en diferentes fases del preentrenamiento y/o postentrenamiento está relativamente menos documentado en la literatura científica. Esto plantea varias preguntas importantes: ¿Es mejor agregar datos de razonamiento durante el preentrenamiento que introducirlos durante el postentrenamiento? ¿Podría la inclusión temprana arriesgar un sobreajuste y perjudicar la generalización, o en su lugar establecer bases duraderas que el ajuste fino posterior no pueda recuperar? Realizamos el primer estudio sistemático sobre cómo los datos de razonamiento—que varían en escala, diversidad y calidad—afectan el rendimiento de los LLM cuando se introducen en diferentes etapas del entrenamiento. Descubrimos que la incorporación temprana de datos de razonamiento en el preentrenamiento es crítica (19% de ganancia promedio), estableciendo capacidades fundamentales que no pueden replicarse completamente mediante el ajuste fino supervisado (SFT) en etapas posteriores, incluso con más datos. Identificamos un principio asimétrico para la asignación óptima de datos: el preentrenamiento se beneficia más de una amplia diversidad en patrones de razonamiento (11% de ganancia promedio), mientras que el SFT es más sensible a la calidad de los datos (15% de ganancia promedio). Demostramos que los datos de preentrenamiento de alta calidad tienen efectos latentes, activados solo después del SFT, y que el escalado ingenuo de los datos de SFT puede ser perjudicial, diluyendo los beneficios de la inyección temprana de razonamiento. Nuestros resultados desafían la separación convencional entre el modelado del lenguaje y el razonamiento, proporcionando una guía fundamentada para asignar estratégicamente los datos a lo largo de todo el proceso de entrenamiento con el fin de construir modelos más capaces.
Aunque los modelos modernos de generación visual sobresalen en la creación de imágenes naturales estéticamente agradables, enfrentan dificultades para producir o editar gráficos estructurados como gráficos, diagramas y figuras matemáticas, los cuales requieren planificación de composición, renderización de texto y razonamiento multimodal para garantizar fidelidad factual. Para abordar este problema, presentamos la primera investigación integral y sistemática de este dominio, abarcando la construcción de datos, el entrenamiento de modelos y un punto de referencia de evaluación. En primer lugar, construimos un conjunto de datos a gran escala de 1.3 millones de pares de imágenes estructuradas de alta calidad, derivadas de programas de dibujo ejecutables y enriquecidas con anotaciones de razonamiento en cadena de pensamiento. Basándonos en ello, entrenamos un modelo unificado que integra un VLM con FLUX.1 Kontext mediante un conector ligero para mejorar la comprensión multimodal. Un plan de entrenamiento en tres etapas permite la alineación progresiva de características, la infusión de conocimiento y la generación aumentada con razonamiento, potenciada además por un razonador externo durante la inferencia. Finalmente, presentamos StructBench, un nuevo punto de referencia para la generación y edición con más de 1,700 instancias desafiantes, y una métrica de evaluación asociada, StructScore, que emplea un protocolo de preguntas y respuestas en múltiples rondas para evaluar la precisión factual en detalle. Las evaluaciones de 15 modelos revelan que incluso los sistemas líderes de código cerrado distan de ser satisfactorios. Nuestro modelo alcanza un fuerte rendimiento en edición, y el razonamiento durante la inferencia produce mejoras consistentes en diversas arquitecturas. Al liberar el conjunto de datos, el modelo y el punto de referencia, buscamos avanzar en los fundamentos multimodales unificados para gráficos estructurados.
El ajuste por instrucciones desempeña un papel crucial en la mejora de las capacidades de resolución de tareas de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), incrementando su utilidad para generar respuestas útiles en diversas tareas. Sin embargo, trabajos previos han demostrado que estos modelos son sensibles a variaciones menores en la redacción de las instrucciones. En este artículo, exploramos si la introducción de perturbaciones en los datos de ajuste por instrucciones puede mejorar la resistencia de los LLMs frente a instrucciones ruidosas. Nos enfocamos en cómo el ajuste por instrucciones con perturbaciones, como la eliminación de palabras de parada o la reorganización de palabras, afecta el rendimiento de los LLMs en versiones originales y perturbadas de puntos de referencia ampliamente utilizados (MMLU, BBH, GSM8K). Además, evaluamos las dinámicas de aprendizaje y posibles cambios en el comportamiento del modelo. Sorprendentemente, nuestros resultados sugieren que el ajuste por instrucciones con instrucciones perturbadas puede, en algunos casos, mejorar el rendimiento en tareas posteriores. Estos hallazgos resaltan la importancia de incluir instrucciones perturbadas en el ajuste por instrucciones, lo que puede hacer que los LLMs sean más resistentes a entradas de usuario ruidosas.
Los sistemas de diálogo hablado suelen depender de pipelines en cascada que transcriben, procesan y resintetizan el habla. Aunque efectivo, este diseño descarta señales paralingüísticas y limita la expresividad. Los métodos recientes de extremo a extremo reducen la latencia y preservan mejor estas señales, pero aún dependen de intermediarios textuales, creando un cuello de botella fundamental. Presentamos MOSS-Speech, un verdadero modelo de lenguaje grande de habla a habla que comprende y genera habla directamente sin depender de guías textuales. Nuestro enfoque combina una arquitectura de división de capas basada en modalidades con una estrategia de preentrenamiento congelado, preservando el razonamiento y el conocimiento de los modelos de lenguaje grandes preentrenados en texto mientras añade capacidades nativas de habla. Los experimentos muestran que nuestro modelo alcanza resultados de vanguardia en respuestas a preguntas habladas y ofrece un rendimiento comparable en tareas de habla a habla en relación con los sistemas guiados por texto existentes, manteniendo al mismo tiempo un rendimiento competitivo en texto. Al reducir la brecha entre la generación de habla guiada por texto y la generación directa de habla, nuestro trabajo establece un nuevo paradigma para la interacción de habla de extremo a extremo expresiva y eficiente.
El aprendizaje por refuerzo aplicado a modelos de lenguaje de gran escala (LLMs) para tareas de razonamiento a menudo se ve limitado por estimaciones de gradiente inestables debido al muestreo fijo y uniforme de respuestas entre diferentes indicaciones. Trabajos previos, como GVM-RAFT, abordan este problema asignando dinámicamente un presupuesto de inferencia por indicación para minimizar la varianza del gradiente estocástico bajo una restricción de presupuesto. Inspirados por esta idea, proponemos Reinforce-Ada, un marco de muestreo adaptativo para el entrenamiento posterior en línea por refuerzo de LLMs que reasigna continuamente el esfuerzo de muestreo a las indicaciones con mayor incertidumbre o potencial de aprendizaje. A diferencia de los métodos convencionales de asignación en dos etapas, Reinforce-Ada intercala la estimación y el muestreo en un proceso de eliminación sucesiva en línea, y detiene automáticamente el muestreo para una indicación una vez que se recopila suficiente señal. Para estabilizar las actualizaciones, formamos grupos de tamaño fijo con diversidad de recompensas impuesta y calculamos líneas base de ventaja utilizando estadísticas globales agregadas durante la fase de muestreo adaptativo. Los resultados empíricos en múltiples arquitecturas de modelos y benchmarks de razonamiento muestran que Reinforce-Ada acelera la convergencia y mejora el rendimiento final en comparación con GRPO, especialmente cuando se utiliza la variante de muestreo equilibrado. Nuestro trabajo destaca el papel central de la curación de datos adaptativa y consciente de la varianza para permitir un aprendizaje por refuerzo eficiente y confiable en LLMs con capacidades de razonamiento. El código está disponible en https://github.com/RLHFlow/Reinforce-Ada.
La alineación de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) con los valores humanos depende cada vez más del uso de otros LLMs como evaluadores automatizados, o "autoraters". Sin embargo, su fiabilidad está limitada por un problema fundamental: están entrenados con etiquetas de preferencia discretas, lo que impone una única verdad absoluta en tareas que a menudo son subjetivas, ambiguas o matizadas. Argumentamos que un autorater confiable debe aprender a modelar la distribución completa de preferencias definida por una población objetivo. En este artículo, proponemos un marco general para calibrar autoraters probabilísticos según cualquier distribución de preferencias dada. Formalizamos el problema y presentamos dos métodos de aprendizaje adaptados a diferentes condiciones de datos: 1) un ajuste fino supervisado directo para etiquetas densas y probabilísticas, y 2) un enfoque de aprendizaje por refuerzo para etiquetas binarias dispersas. Nuestros resultados empíricos muestran que ajustar los autoraters con un objetivo de coincidencia de distribución conduce a predicciones de probabilidad verbalizadas que están mejor alineadas con la distribución de preferencias objetivo, con una calibración mejorada y un sesgo posicional significativamente menor, todo ello manteniendo el rendimiento en tareas objetivas.
El aprendizaje por refuerzo ha sido fundamental en los avances recientes en el razonamiento de modelos de lenguaje a gran escala, pero la mayoría de los algoritmos dependen de entrenamiento on-policy que requiere nuevas simulaciones en cada actualización, lo que limita la eficiencia y escalabilidad. Los sistemas de RL asíncronos mitigan esto al desacoplar la generación de simulaciones del entrenamiento, aunque su efectividad depende de tolerar un alto desfase en los datos de las simulaciones, un escenario en el que los métodos existentes o bien degradan su rendimiento o colapsan. Revisitamos este desafío y descubrimos un fenómeno de prosperidad-antes-del-colapso: los datos desfasados pueden ser tan informativos como los datos on-policy si se explotan adecuadamente. Basándonos en esta idea, presentamos M2PO (Optimización de Políticas de Confianza del Segundo Momento), que restringe el segundo momento de los pesos de importancia para suprimir solo los valores atípicos extremos mientras preserva actualizaciones informativas. Notablemente, M2PO reduce drásticamente la fracción de tokens recortados bajo un alto desfase (del 1.22% al 0.06% durante el entrenamiento), enmascarando precisamente los tokens de alta varianza mientras mantiene una optimización estable. Una evaluación exhaustiva en seis modelos (de 1.7B a 32B) y ocho benchmarks muestra que M2PO ofrece un entrenamiento off-policy estable incluso con datos desfasados por al menos 256 actualizaciones del modelo y coincide con el rendimiento on-policy.
Trabajos recientes muestran que, más allá del razonamiento discreto a través de pasos explícitos de cadena de pensamiento, los cuales están limitados por los límites de los lenguajes naturales, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) también pueden razonar de manera continua en el espacio latente, permitiendo una información más rica por paso y mejorando así la eficiencia de los tokens. A pesar de esta promesa, el razonamiento latente aún enfrenta dos desafíos, especialmente en entornos sin entrenamiento: 1) el razonamiento puramente latente amplía la distribución de búsqueda al mantener múltiples caminos implícitos, lo que difunde la masa de probabilidad, introduce ruido y dificulta la convergencia hacia una única solución de alta confianza, perjudicando la precisión; y 2) el sobrepensamiento persiste incluso sin texto explícito, desperdiciando tokens y degradando la eficiencia. Para abordar estos problemas, presentamos SwiReasoning, un marco sin entrenamiento para el razonamiento en LLMs que incluye dos innovaciones clave: 1) SwiReasoning cambia dinámicamente entre el razonamiento explícito y el latente, guiado por la confianza por bloques estimada a partir de las tendencias de entropía en las distribuciones de los siguientes tokens, para equilibrar la exploración y la explotación y promover una convergencia oportuna. 2) Al limitar el número máximo de cambios entre bloques de pensamiento, SwiReasoning controla el sobrepensamiento y mejora la eficiencia de los tokens en problemas de diversas dificultades. En puntos de referencia ampliamente utilizados en matemáticas y STEM, SwiReasoning mejora consistentemente la precisión promedio en un 1.5%-2.8% en LLMs de razonamiento de diferentes familias y escalas de modelos. Además, bajo presupuestos restringidos, SwiReasoning mejora la eficiencia promedio de los tokens en un 56%-79%, con mayores ganancias a medida que los presupuestos se ajustan.
Los recientes avances en modelos generativos de gran escala han impulsado significativamente la edición de imágenes y la generación de imágenes en contexto, pero persiste una brecha crítica en garantizar la consistencia física, donde los objetos editados deben mantenerse coherentes. Esta capacidad es especialmente vital para tareas relacionadas con la simulación de mundos. En este artículo, presentamos ChronoEdit, un marco que reformula la edición de imágenes como un problema de generación de video. Primero, ChronoEdit trata las imágenes de entrada y editadas como el primer y último fotograma de un video, lo que le permite aprovechar modelos generativos de video preentrenados de gran escala que capturan no solo la apariencia de los objetos, sino también la física implícita del movimiento y la interacción a través de la consistencia temporal aprendida. Segundo, ChronoEdit introduce una etapa de razonamiento temporal que realiza explícitamente la edición en tiempo de inferencia. Bajo este enfoque, el fotograma objetivo se desruido conjuntamente con tokens de razonamiento para imaginar una trayectoria de edición plausible que restringe el espacio de soluciones a transformaciones físicamente viables. Los tokens de razonamiento se descartan después de unos pocos pasos para evitar el alto costo computacional de renderizar un video completo. Para validar ChronoEdit, presentamos PBench-Edit, un nuevo banco de pruebas de pares de imagen-prompt para contextos que requieren consistencia física, y demostramos que ChronoEdit supera a los métodos de referencia más avanzados tanto en fidelidad visual como en plausibilidad física. El código y los modelos para las variantes de 14B y 2B de ChronoEdit se publicarán en la página del proyecto: https://research.nvidia.com/labs/toronto-ai/chronoedit.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) resuelven cada vez más tareas de razonamiento complejo mediante cadenas largas de pensamiento, pero su proceso de generación autoregresivo de avance único es frágil; los errores en los tokens iniciales pueden propagarse, lo que crea una clara necesidad de mecanismos de autorreflexión. Sin embargo, las técnicas de autorreflexión existentes realizan revisiones sobre borradores completos o aprenden la autocorrección mediante entrenamientos costosos, siendo ambas opciones fundamentalmente reactivas e ineficientes. Para abordar esto, proponemos la Generación Autorreflexiva en Tiempo de Prueba (SRGen, por sus siglas en inglés), un marco ligero que reflexiona antes de generar en puntos inciertos. Durante la generación de tokens, SRGen utiliza umbrales dinámicos de entropía para identificar tokens de alta incertidumbre. Para cada token identificado, entrena un vector correctivo específico, que aprovecha completamente el contexto ya generado para una generación autorreflexiva que corrige la distribución de probabilidad del token. Al analizar retrospectivamente la salida parcial, esta autorreflexión permite decisiones más confiables, reduciendo significativamente la probabilidad de errores en puntos altamente inciertos. Evaluado en puntos de referencia desafiantes de razonamiento matemático y en un conjunto diverso de LLMs, SRGen puede fortalecer consistentemente el razonamiento del modelo: las mejoras en la calidad de una sola pasada también se traducen en una votación de autoconsistencia más sólida. En particular, en AIME2024 con DeepSeek-R1-Distill-Qwen-7B, SRGen produce mejoras absolutas de +12.0% en Pass@1 y +13.3% en Cons@5. Además, nuestros hallazgos posicionan a SRGen como un método plug-and-play que integra la reflexión en el proceso de generación para un razonamiento confiable de los LLMs, logrando ganancias consistentes con un sobrecosto acotado y una amplia compatibilidad con otras técnicas de entrenamiento (por ejemplo, RLHF) y de prueba (por ejemplo, SLOT).
Los agentes de uso informático (CUAs, por sus siglas en inglés) necesitan planificar flujos de trabajo de tareas basados en aplicaciones y entornos diversos y en constante cambio, pero el aprendizaje se ve obstaculizado por la escasez de datos de entrenamiento a gran escala y de alta calidad en la aplicación objetivo. Los conjuntos de datos existentes son específicos de dominio, estáticos y costosos de anotar, mientras que los métodos actuales de generación de datos sintéticos a menudo producen demostraciones de tareas simplistas o desalineadas. Para abordar estas limitaciones, presentamos Watch & Learn (W&L), un marco que convierte videos de demostración humana fácilmente disponibles en Internet en trayectorias ejecutables de interfaz de usuario (UI) a gran escala. En lugar de generar trayectorias directamente o depender de heurísticas de razonamiento ad hoc, planteamos el problema como un objetivo de dinámica inversa: predecir la acción del usuario a partir de estados consecutivos de la pantalla. Esta formulación reduce la ingeniería manual, es más fácil de aprender y generaliza de manera más robusta en diversas aplicaciones. Concretamente, desarrollamos una canalización de etiquetado de dinámica inversa con recuperación de videos consciente de la tarea, generamos más de 53k trayectorias de alta calidad a partir de videos web en bruto, y demostramos que estas trayectorias mejoran los CUAs tanto como demostraciones en contexto como datos de entrenamiento supervisado. En el desafiante benchmark OSWorld, las trayectorias de UI extraídas con W&L mejoran consistentemente tanto los marcos de propósito general como los de vanguardia en contexto, y ofrecen mayores ganancias para modelos de código abierto bajo entrenamiento supervisado. Estos resultados destacan los videos de demostración humana a escala web como una base práctica y escalable para avanzar hacia la implementación en el mundo real de los CUAs.
La adopción de herramientas de completado de código impulsadas por IA en el desarrollo de software ha aumentado considerablemente, sin embargo, los datos de interacción del usuario generados por estos sistemas siguen siendo propiedad de grandes corporaciones. Esto crea una barrera para la comunidad académica, ya que los investigadores a menudo deben desarrollar plataformas dedicadas para realizar estudios sobre la interacción humano-IA, lo que hace que la investigación reproducible y el análisis de datos a gran escala sean poco prácticos. En este trabajo, presentamos Code4MeV2, un complemento de completado de código de código abierto y orientado a la investigación para los IDEs de JetBrains, como solución a esta limitación. Code4MeV2 está diseñado utilizando una arquitectura cliente-servidor y cuenta con completado de código en línea y un asistente de chat consciente del contexto. Su contribución principal es un marco de recopilación de datos modular y transparente que brinda a los investigadores un control detallado sobre la telemetría y la recopilación de contexto. Code4MeV2 alcanza un rendimiento comparable al de la industria en términos de completado de código, con una latencia promedio de 200~ms. Evaluamos nuestra herramienta mediante una combinación de una evaluación experta y un estudio de usuarios con ocho participantes. Los comentarios tanto de investigadores como de usuarios diarios destacan su informatividad y utilidad. Invitamos a la comunidad a adoptar y contribuir a esta herramienta. Más información sobre la herramienta se puede encontrar en https://app.code4me.me.
Imaginen a Mr. Bean entrando en el mundo de Tom y Jerry: ¿podemos generar videos en los que los personajes interactúen de manera natural a través de diferentes universos? Estudiamos la interacción entre personajes en la generación de texto a video, donde el desafío principal es preservar la identidad y los comportamientos de cada personaje mientras se permite una interacción coherente entre contextos diferentes. Esto es difícil porque los personajes pueden no haber coexistido nunca y porque la mezcla de estilos a menudo causa una ilusión de estilo, donde personajes realistas parecen caricaturescos o viceversa. Introducimos un marco que aborda estos problemas con la Incrustación Cruzada de Personajes (Cross-Character Embedding, CCE), que aprende la identidad y la lógica conductual a través de fuentes multimodales, y la Aumentación Cruzada de Personajes (Cross-Character Augmentation, CCA), que enriquece el entrenamiento con datos sintéticos de coexistencia y estilos mixtos. Juntas, estas técnicas permiten interacciones naturales entre personajes que antes no coexistían, sin perder la fidelidad estilística. Los experimentos en un conjunto de referencia curado de caricaturas y series de acción real con 10 personajes muestran mejoras claras en la preservación de la identidad, la calidad de la interacción y la robustez frente a la ilusión de estilo, permitiendo nuevas formas de narración generativa. Resultados adicionales y videos están disponibles en la página de nuestro proyecto: https://tingtingliao.github.io/mimix/.
El impacto social del Procesamiento del Lenguaje Natural (PLN) es cada vez más importante, con un creciente enfoque comunitario en iniciativas relacionadas con el PLN para el Bien Social (PLN4BS). De hecho, en los últimos años, casi el 20% de todos los artículos en la ACL Anthology abordan temas relacionados con el bien social, según lo definido por los Objetivos de Desarrollo Sostenible de la ONU (Adauto et al., 2023). En este estudio, adoptamos una perspectiva a nivel de autor y de evento para mapear el panorama del PLN4BS, cuantificando la proporción de trabajos que abordan preocupaciones de bien social tanto dentro como fuera de la comunidad ACL, tanto por parte de contribuidores principales de ACL como de autores no pertenecientes a ACL. Con este enfoque, descubrimos dos hechos sorprendentes sobre el panorama del PLN4BS. En primer lugar, los autores de ACL tienen una probabilidad significativamente mayor de realizar trabajos que abordan preocupaciones de bien social cuando publican en eventos fuera de ACL. En segundo lugar, la gran mayoría de las publicaciones que utilizan técnicas de PLN para abordar preocupaciones de bien social son realizadas por autores no pertenecientes a ACL en eventos fuera de ACL. Discutimos las implicaciones de estos hallazgos en consideraciones relacionadas con la definición de agendas para la comunidad ACL en torno al PLN4BS.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para la demostración formal de teoremas han mostrado un potencial significativo, aunque a menudo carecen de generalización y son frágiles ante incluso transformaciones menores de los enunciados de los problemas. Para abordar esta limitación, introducimos una novedosa canalización de aumento de datos diseñada para mejorar la robustez del modelo desde dos perspectivas: simetría y dificultad. Desde la perspectiva de la simetría, proponemos dos métodos complementarios: EvolAST, un enfoque basado en Árboles de Sintaxis Abstracta (AST, por sus siglas en inglés) que se enfoca en la simetría sintáctica para generar variantes semánticamente equivalentes de los problemas, y EvolDomain, que aprovecha los LLMs para abordar la simetría semántica mediante la traducción de teoremas a través de dominios matemáticos. Desde la perspectiva de la dificultad, proponemos EvolDifficulty, que utiliza instrucciones evolutivas cuidadosamente diseñadas para guiar a los LLMs en la generación de nuevos teoremas con un rango más amplio de dificultad. Luego, utilizamos los datos evolucionados para entrenar a EvolProver, un demostrador de teoremas sin razonamiento de 7 mil millones de parámetros. EvolProver establece un nuevo estado del arte (SOTA, por sus siglas en inglés) en FormalMATH-Lite con una tasa de 53.8% en pass@32, superando a todos los modelos de tamaño comparable, incluidos los modelos basados en razonamiento. También establece nuevos récords SOTA para modelos sin razonamiento en MiniF2F-Test (69.8% pass@32), Ineq-Comp-Seed (52.2% pass@32) e Ineq-Comp-Transformed (34.0% pass@32). Los estudios de ablación confirman además la efectividad de nuestra canalización de aumento de datos en múltiples benchmarks.
El 4D Gaussian Splatting ha surgido como un nuevo paradigma para la representación de escenas dinámicas, permitiendo la renderización en tiempo real de escenas con movimientos complejos. Sin embargo, enfrenta un desafío importante en cuanto al sobrecosto de almacenamiento, ya que se requieren millones de Gaussianas para una reconstrucción de alta fidelidad. Aunque varios estudios han intentado aliviar esta carga de memoria, aún enfrentan limitaciones en la tasa de compresión o la calidad visual. En este trabajo, presentamos OMG4 (Optimized Minimal 4D Gaussian Splatting), un marco que construye un conjunto compacto de Gaussianas destacadas capaces de representar fielmente modelos 4D Gaussianos. Nuestro método poda progresivamente las Gaussianas en tres etapas: (1) Muestreo de Gaussianas para identificar primitivas críticas para la fidelidad de la reconstrucción, (2) Poda de Gaussianas para eliminar redundancias, y (3) Fusión de Gaussianas para combinar primitivas con características similares. Además, integramos compresión implícita de apariencia y generalizamos la Cuantización de Sub-Vectores (SVQ) a representaciones 4D, reduciendo aún más el almacenamiento mientras se preserva la calidad. Experimentos exhaustivos en conjuntos de datos de referencia estándar demuestran que OMG4 supera significativamente a los métodos más recientes de vanguardia, reduciendo los tamaños de los modelos en más del 60% mientras mantiene la calidad de la reconstrucción. Estos resultados posicionan a OMG4 como un avance significativo en la representación compacta de escenas 4D, abriendo nuevas posibilidades para una amplia gama de aplicaciones. Nuestro código fuente está disponible en https://minshirley.github.io/OMG4/.
Los modelos de difusión de texto a imagen a gran escala se han convertido en la base de la edición moderna de imágenes, aunque los textos de entrada por sí solos no ofrecen un control adecuado sobre el proceso de edición. Dos propiedades son especialmente deseables: la desvinculación, donde cambiar un atributo no altera involuntariamente otros, y el control continuo, donde la intensidad de una edición puede ajustarse suavemente. Introducimos un método para la edición desvinculada y continua mediante la manipulación a nivel de tokens de los embeddings de texto. Las ediciones se aplican manipulando los embeddings a lo largo de direcciones cuidadosamente seleccionadas, que controlan la intensidad del atributo objetivo. Para identificar tales direcciones, empleamos un Autoencoder Disperso (SAE, por sus siglas en inglés), cuyo espacio latente disperso expone dimensiones semánticamente aisladas. Nuestro método opera directamente sobre los embeddings de texto sin modificar el proceso de difusión, lo que lo hace independiente del modelo y ampliamente aplicable a diversas arquitecturas de síntesis de imágenes. Los experimentos demuestran que permite manipulaciones intuitivas y eficientes con control continuo en diversos atributos y dominios.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado recientemente un fuerte potencial en el reconocimiento de habla audiovisual (AVSR, por sus siglas en inglés), pero sus altas demandas computacionales y su sensibilidad a la granularidad de los tokens limitan su practicidad en entornos con recursos limitados. Los métodos de compresión de tokens pueden reducir el costo de inferencia, pero requieren fijar una tasa de compresión de antemano y producen una salida de longitud fija, lo que no ofrece flexibilidad para equilibrar la densidad de información y la eficiencia durante la inferencia. El aprendizaje de representaciones Matryoshka (MRL, por sus siglas en inglés) aborda este problema al permitir que un solo modelo opere en múltiples granularidades de tokens, lo que permite ajustar dinámicamente las tasas de compresión. Sin embargo, los métodos actuales basados en MRL tratan cada escala de manera independiente durante el entrenamiento, lo que limita la generalización entre escalas, la robustez en compresiones altas y la interpretabilidad. Para superar estas limitaciones, proponemos MoME (Mezcla de Expertos Matryoshka), un marco novedoso que integra la Mezcla de Expertos (MoE, por sus siglas en inglés) dispersa en LLMs basados en MRL para AVSR. MoME aumenta un LLM congelado con expertos enrutados y compartidos de top-k, permitiendo una asignación dinámica de capacidad entre escalas y modalidades. Un enrutador compartido promueve una activación consistente de expertos a través de granularidades, permitiendo que las secuencias comprimidas se beneficien de las representaciones aprendidas en compresiones más bajas. Los experimentos en LRS2 y LRS3 demuestran que MoME logra un rendimiento de vanguardia en tareas de AVSR, ASR y VSR, mientras requiere significativamente menos parámetros y mantiene la robustez bajo ruido. MoME unifica la adaptabilidad de MRL con la eficiencia de MoE, ofreciendo una solución escalable e interpretable para el reconocimiento de habla consciente de los recursos.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido en un elemento central para mejorar el razonamiento en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Sin embargo, los algoritmos on-policy, como la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés), suelen enfrentar dificultades en las primeras etapas de entrenamiento: los gradientes ruidosos provenientes de trayectorias de baja calidad conducen a actualizaciones inestables y a una exploración ineficiente. Introducimos la Optimización de Política Lenta-Rápida (SFPO, por sus siglas en inglés), un marco simple pero eficiente para abordar estas limitaciones mediante la descomposición de cada paso en tres etapas: una trayectoria rápida y corta de pasos internos sobre el mismo lote, un mecanismo de reposicionamiento para controlar la deriva off-policy y una corrección lenta final. Este diseño de reposicionamiento antes de la actualización preserva el objetivo y el proceso de trayectoria sin cambios, lo que hace que SFPO sea compatible con las canalizaciones existentes de gradiente de política. Experimentos exhaustivos demuestran que SFPO mejora consistentemente la estabilidad, reduce las trayectorias y acelera la convergencia del entrenamiento de RL para el razonamiento. En concreto, supera a GRPO en hasta 2.80 puntos en promedio en benchmarks de razonamiento matemático. También logra hasta 4.93 trayectorias menos y una reducción de 4.19 en el tiempo de reloj para igualar la mejor precisión de GRPO.
La interacción fluida de voz a voz requiere una detección confiable y de baja latencia de cuándo un usuario ha terminado de hablar. Los detectores tradicionales de fin de turno basados en silencio de audio añaden cientos de milisegundos de retraso y fallan ante vacilaciones o fenómenos específicos del idioma. Presentamos, hasta donde sabemos, el primer estudio sistemático de detección de fin de turno (EOT, por sus siglas en inglés) basado únicamente en texto en tailandés para agentes en tiempo real. Comparamos el enfoque de "zero-shot" y "few-shot" en modelos de lenguaje compactos (LLMs) con el ajuste fino supervisado de transformadores ligeros. Utilizando subtítulos transcritos del corpus YODAS y señales lingüísticas específicas del tailandés (por ejemplo, partículas finales de oración), formulamos la detección de EOT como una decisión binaria sobre los límites de los tokens. Reportamos una clara compensación entre precisión y latencia y proporcionamos un plan de implementación listo para uso público. Este trabajo establece una línea base para el tailandés y demuestra que modelos pequeños y ajustados pueden ofrecer decisiones de EOT casi instantáneas, adecuadas para agentes en dispositivos locales.
A pesar de los avances en el reconocimiento automático del habla multilingüe (ASR, por sus siglas en inglés), el cambio de código (CS), que consiste en la mezcla de idiomas dentro de una misma expresión y es común en el habla cotidiana, sigue siendo un desafío gravemente subexplorado. En este artículo, presentamos HiKE: el punto de referencia jerárquico para el cambio de código coreano-inglés, el primer marco de evaluación accesible a nivel global para el CS coreano-inglés, con el objetivo de proporcionar un medio para la evaluación precisa de modelos de ASR multilingües y fomentar la investigación en este campo. El marco propuesto no solo incluye datos de CS naturales y de alta calidad sobre diversos temas, sino que también ofrece etiquetas detalladas de préstamos léxicos y un esquema de etiquetado jerárquico de niveles de CS (palabra, frase y oración), lo que permite una evaluación sistemática de la capacidad de un modelo para manejar cada nivel distinto de cambio de código. A través de la evaluación de diversos modelos de ASR multilingües y experimentos de ajuste fino, este artículo demuestra que, aunque la mayoría de los modelos de ASR multilingües inicialmente tienen dificultades con el CS-ASR, esta capacidad puede habilitarse mediante el ajuste fino con datos de CS. HiKE estará disponible en https://github.com/ThetaOne-AI/HiKE.
La conversión de preguntas en lenguaje natural a consultas SQL (Text-to-SQL) permite a usuarios no expertos interactuar con bases de datos relacionales y ha sido durante mucho tiempo una tarea central para las interfaces de lenguaje natural orientadas a datos. Si bien el conjunto de datos WikiSQL desempeñó un papel clave en las primeras investigaciones sobre NL2SQL, su uso ha disminuido debido a problemas estructurales y de anotación, como inconsistencias en la sensibilidad a mayúsculas, desajustes en los tipos de datos, errores de sintaxis y preguntas sin respuesta. Presentamos LLMSQL, una revisión y transformación sistemática de WikiSQL diseñada para la era de los modelos de lenguaje grandes (LLM). Clasificamos estos errores e implementamos métodos automatizados para la limpieza y reanotación. Para evaluar el impacto de estas mejoras, analizamos múltiples modelos de lenguaje grandes (LLMs), incluyendo Gemma 3, LLaMA 3.2, Mistral 7B, gpt-oss 20B, Phi-3.5 Mini, Qwen 2.5, OpenAI o4-mini, DeepSeek R1 y otros. En lugar de ser una actualización, LLMSQL se introduce como un punto de referencia listo para LLM: a diferencia del WikiSQL original, diseñado para modelos de red de punteros que seleccionan tokens de la entrada, LLMSQL proporciona preguntas en lenguaje natural limpias y consultas SQL completas en texto plano, lo que permite una generación y evaluación directa para los modelos modernos de lenguaje natural a SQL.
Los modelos de lenguaje basados en difusión (dLLMs, por sus siglas en inglés) se entrenan de manera flexible para modelar dependencias extremas en la distribución de datos; sin embargo, cómo utilizar mejor esta información durante la inferencia sigue siendo un problema abierto. En este trabajo, descubrimos una propiedad interesante de estos modelos: los dLLMs entrenados con datos textuales aprenden implícitamente una mezcla de expertos semiautoregresivos, donde diferentes órdenes de generación revelan comportamientos especializados distintos. Demostramos que comprometerse con un único esquema fijo en el momento de la inferencia, una práctica común, colapsa el rendimiento al no aprovechar este conjunto latente. Para abordar esto, presentamos HEX (Expertos semiautoregresivos ocultos para escalado en tiempo de prueba), un método de inferencia sin entrenamiento que combina múltiples esquemas de bloques heterogéneos. Al realizar una votación mayoritaria sobre trayectorias de generación con tamaños de bloque diversos, HEX evita de manera robusta los modos de fallo asociados con cualquier esquema fijo único. En pruebas de razonamiento como GSM8K, aumenta la precisión hasta 3.56 veces (de 24.72% a 88.10%), superando la inferencia de margen top-K y métodos especializados ajustados como GRPO, sin necesidad de entrenamiento adicional. HEX incluso produce mejoras significativas en el benchmark MATH, de 16.40% a 40.00%, en razonamiento científico en ARC-C, de 54.18% a 87.80%, y en TruthfulQA, de 28.36% a 57.46%. Nuestros resultados establecen un nuevo paradigma para el escalado en tiempo de prueba en dLLMs basados en difusión, revelando que la secuencia en la que se realiza el enmascaramiento juega un papel crítico en la determinación del rendimiento durante la inferencia.
A medida que los agentes de Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) adquieren cada vez más capacidades de autoevolución para adaptar y refinar sus estrategias a través de la interacción en el mundo real, su fiabilidad a largo plazo se convierte en una preocupación crítica. Identificamos el Proceso de Inclinación de Alineación (ATP, por sus siglas en inglés), un riesgo crítico posterior al despliegue único en los agentes LLM autoevolutivos. A diferencia de los fallos durante el entrenamiento, el ATP surge cuando la interacción continua lleva a los agentes a abandonar las restricciones de alineación establecidas durante el entrenamiento en favor de estrategias reforzadas y egoístas. Formalizamos y analizamos el ATP a través de dos paradigmas complementarios: la Exploración Egoísta, donde las desviaciones repetidas de alta recompensa inducen una deriva conductual individual, y la Difusión de Estrategias Imitativas, donde los comportamientos desviados se propagan en sistemas multiagente. Basándonos en estos paradigmas, construimos entornos de prueba controlados y evaluamos Qwen3-8B y Llama-3.1-8B-Instruct. Nuestros experimentos muestran que los beneficios de la alineación se erosionan rápidamente bajo la autoevolución, con modelos inicialmente alineados convergiendo hacia estados no alineados. En entornos multiagente, las violaciones exitosas se difunden rápidamente, lo que lleva a una desalineación colectiva. Además, los métodos actuales de alineación basados en aprendizaje por refuerzo ofrecen solo defensas frágiles contra la inclinación de la alineación. En conjunto, estos hallazgos demuestran que la alineación de los agentes LLM no es una propiedad estática, sino una frágil y dinámica, vulnerable al deterioro impulsado por la retroalimentación durante el despliegue. Nuestros datos y código están disponibles en https://github.com/aiming-lab/ATP.
Las arquitecturas Mixture-of-Experts (MoE) se han convertido en clave para escalar los LLM modernos, sin embargo, se comprende poco sobre cómo sus dinámicas de enrutamiento disperso responden a datos multilingües. En este trabajo, analizamos los patrones de enrutamiento de expertos utilizando conjuntos de datos multilingües paralelos y presentamos fenómenos altamente interpretables capa por capa. Descubrimos que los modelos MoE enrutan tokens de manera específica por idioma en las capas iniciales y finales del decodificador, pero muestran una alineación significativa de enrutamiento entre idiomas en las capas intermedias, reflejando tendencias de compartición de parámetros observadas en LLM densos. En particular, revelamos una correlación clara y fuerte entre el rendimiento del modelo en un idioma dado y cuán similares son sus tokens enrutados al inglés en estas capas. Más allá de la correlación, exploramos intervenciones en tiempo de inferencia que inducen una mayor alineación de enrutamiento entre idiomas. Introducimos un método que guía el enrutador promoviendo expertos de tareas en capas intermedias frecuentemente activados en inglés, y este aumenta exitosamente el rendimiento multilingüe. Estas ganancias del 1-2% son notablemente consistentes en dos tareas de evaluación, tres modelos y más de 15 idiomas, especialmente considerando que estas intervenciones simples anulan los enrutadores de LLM de última generación ampliamente entrenados. En comparación, las intervenciones fuera de las capas intermedias o dirigidas a expertos especializados en multilingüismo solo resultan en una degradación del rendimiento. En conjunto, presentamos numerosos hallazgos que explican cómo los MoE procesan texto no inglés y demostramos que la generalización está limitada por la capacidad del modelo para aprovechar expertos universales en todos los idiomas.
Los seres humanos son buenos aprendiendo sobre la marcha: aprendemos a resolver las tareas que enfrentamos a medida que avanzamos. ¿Puede un modelo hacer lo mismo? Proponemos un agente que ensambla un currículo específico para la tarea, denominado currículo en tiempo de prueba (TTC-RL, por sus siglas en inglés), y aplica aprendizaje por refuerzo para continuar entrenando el modelo en su tarea objetivo. El currículo en tiempo de prueba evita la laboriosa curación humana de conjuntos de datos al seleccionar automáticamente los datos más relevantes para la tarea de un amplio conjunto de datos de entrenamiento disponibles. Nuestros experimentos demuestran que el aprendizaje por refuerzo sobre un currículo en tiempo de prueba mejora consistentemente el modelo en sus tareas objetivo, en una variedad de evaluaciones y modelos. En particular, en desafiantes benchmarks de matemáticas y programación, TTC-RL mejora el pass@1 de Qwen3-8B en aproximadamente 1.8x en AIME25 y 2.1x en CodeElo. Además, encontramos que TTC-RL eleva significativamente el límite de rendimiento en comparación con el modelo inicial, aumentando el pass@8 en AIME25 del 40% al 62% y en CodeElo del 28% al 43%. Nuestros hallazgos muestran el potencial de los currículos en tiempo de prueba para extender el paradigma de escalado en tiempo de prueba al entrenamiento continuo en miles de experiencias relevantes para la tarea durante el tiempo de prueba.
A medida que los sistemas tienden hacia la superinteligencia, una premisa de modelado natural es que los agentes pueden automejorarse en todos los aspectos de su propio diseño. Formalizamos esto con una descomposición de cinco ejes y una capa de decisión, separando los incentivos del comportamiento de aprendizaje y analizando los ejes de manera aislada. Nuestro resultado principal identifica e introduce una tensión aguda entre utilidad y aprendizaje, el conflicto estructural en los sistemas de automodificación en el que los cambios impulsados por la utilidad que mejoran el rendimiento inmediato o esperado también pueden erosionar las precondiciones estadísticas para un aprendizaje y generalización confiables. Nuestros hallazgos muestran que las garantías libres de distribución se preservan si y solo si la familia de modelos alcanzable por la política está uniformemente limitada en capacidad; cuando la capacidad puede crecer sin límite, los cambios autoimpuestos racionales en términos de utilidad pueden hacer que tareas aprendibles se vuelvan inaprendibles. Bajo supuestos estándar comunes en la práctica, estos ejes se reducen al mismo criterio de capacidad, lo que produce un único límite para la automodificación segura. Experimentos numéricos en varios ejes validan la teoría al comparar políticas de utilidad destructivas contra nuestras políticas propuestas de dos compuertas que preservan la capacidad de aprendizaje.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) tienden a generar textos léxica, semántica y estilísticamente homogéneos. Esto plantea un riesgo de colapso del conocimiento, donde los LLMs homogéneos median una reducción en el rango de información accesible con el tiempo. Los trabajos existentes sobre homogenización están limitados por un enfoque en configuraciones de opción múltiple cerradas o características semánticas imprecisas, y no examinan tendencias a lo largo del tiempo y contextos culturales. Para superar esto, presentamos una nueva metodología para medir la diversidad epistémica, es decir, la variación en afirmaciones del mundo real en las salidas de los LLMs, que utilizamos para realizar un amplio estudio empírico sobre el colapso del conocimiento en LLMs. Evaluamos 27 LLMs, 155 temas que cubren 12 países y 200 variaciones de indicaciones extraídas de chats de usuarios reales. Para los temas de nuestro estudio, demostramos que, aunque los modelos más nuevos tienden a generar afirmaciones más diversas, casi todos los modelos son menos diversos epistémicamente que una búsqueda web básica. Encontramos que el tamaño del modelo tiene un impacto negativo en la diversidad epistémica, mientras que la generación aumentada con recuperación (RAG) tiene un impacto positivo, aunque la mejora de RAG varía según el contexto cultural. Finalmente, en comparación con una fuente de conocimiento tradicional (Wikipedia), encontramos que las afirmaciones específicas de cada país reflejan más el idioma inglés que el local, destacando una brecha en la representación epistémica.
Presentamos a Paris, el primer modelo de difusión preentrenado y liberado públicamente que ha sido entrenado completamente mediante computación descentralizada. Paris demuestra que es posible lograr una generación de imágenes a partir de texto de alta calidad sin necesidad de una infraestructura coordinada centralmente. Paris está disponible para uso tanto en investigación como comercial. El desarrollo de Paris requirió la implementación desde cero de nuestro marco de Entrenamiento de Difusión Distribuido. El modelo consta de 8 modelos de difusión expertos (cada uno con 129M a 605M parámetros) entrenados en completo aislamiento, sin sincronización de gradientes, parámetros o activaciones intermedias. En lugar de requerir actualizaciones de gradientes sincronizadas a través de miles de GPUs, particionamos los datos en clusters semánticamente coherentes, donde cada experto optimiza de manera independiente su subconjunto mientras se aproxima colectivamente a la distribución completa. Un enrutador ligero basado en transformadores selecciona dinámicamente a los expertos apropiados durante la inferencia, logrando una calidad de generación comparable a los baselines coordinados centralmente. La eliminación de la sincronización permite el entrenamiento en hardware heterogéneo sin interconexiones especializadas. La validación empírica confirma que el entrenamiento descentralizado de Paris mantiene la calidad de generación mientras elimina la necesidad de un clúster dedicado de GPUs para modelos de difusión a gran escala. Paris logra esto utilizando 14 veces menos datos de entrenamiento y 16 veces menos capacidad de cómputo que el baseline descentralizado anterior.
El discurso sobre los riesgos de privacidad en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se ha centrado de manera desproporcionada en la memorización textual de los datos de entrenamiento, mientras que una constelación de amenazas de privacidad más inmediatas y escalables permanece poco explorada. Este documento de posición argumenta que el panorama de privacidad de los sistemas LLM se extiende mucho más allá de la extracción de datos de entrenamiento, abarcando riesgos derivados de las prácticas de recopilación de datos, la filtración de contexto en tiempo de inferencia, las capacidades de agentes autónomos y la democratización de la vigilancia a través de ataques de inferencia profunda. Presentamos una taxonomía exhaustiva de los riesgos de privacidad a lo largo del ciclo de vida de los LLM —desde la recopilación de datos hasta su implementación— y demostramos, mediante estudios de casos, cómo los marcos actuales de privacidad no abordan estas amenazas multifacéticas. A través de un análisis longitudinal de 1,322 artículos sobre privacidad en IA/ML publicados en conferencias líderes durante la última década (2016-2025), revelamos que, si bien la memorización recibe una atención desmedida en la investigación técnica, los daños más urgentes a la privacidad se encuentran en otros ámbitos, donde los enfoques técnicos actuales ofrecen poca tracción y los caminos viables hacia adelante siguen siendo poco claros. Hacemos un llamado a un cambio fundamental en la forma en que la comunidad de investigación aborda la privacidad en los LLM, trascendiendo el enfoque estrecho de las soluciones técnicas actuales y adoptando enfoques interdisciplinarios que aborden la naturaleza sociotécnica de estas amenazas emergentes.
Los sistemas multiagente basados en LLM destacan en planificación, uso de herramientas y coordinación de roles, pero su apertura y complejidad de interacción también los exponen a jailbreak, inyección de prompts y colaboración adversaria. Las defensas existentes se dividen en dos enfoques: (i) autoverificación, que solicita a cada agente que filtre previamente instrucciones inseguras antes de su ejecución, y (ii) módulos de guardia externos que supervisan comportamientos. El primero suele tener un rendimiento inferior porque un agente independiente carece de la capacidad suficiente para detectar cadenas inseguras entre agentes y riesgos inducidos por delegación; el segundo aumenta la sobrecarga del sistema y crea un punto único de fallo: una vez comprometido, la seguridad del sistema colapsa, y agregar más guardias empeora el costo y la complejidad. Para resolver estos desafíos, proponemos AdvEvo-MARL, un marco de aprendizaje por refuerzo multiagente coevolutivo que internaliza la seguridad en los agentes de tareas. En lugar de depender de guardias externos, AdvEvo-MARL optimiza conjuntamente atacantes (que sintetizan prompts de jailbreak en evolución) y defensores (agentes de tareas entrenados tanto para cumplir sus deberes como para resistir ataques) en entornos de aprendizaje adversarios. Para estabilizar el aprendizaje y fomentar la cooperación, introducimos una línea base pública para la estimación de ventajas: los agentes dentro del mismo grupo funcional comparten una línea base de retorno medio a nivel de grupo, permitiendo actualizaciones de menor varianza y una coordinación intragrupo más fuerte. En escenarios de ataque representativos, AdvEvo-MARL mantiene consistentemente la tasa de éxito de ataque (ASR) por debajo del 20%, mientras que los enfoques de referencia alcanzan hasta el 38.33%, preservando—y en ocasiones mejorando—la precisión de las tareas (hasta +3.67% en tareas de razonamiento). Estos resultados muestran que la seguridad y la utilidad pueden mejorarse conjuntamente sin depender de agentes de guardia adicionales ni de una mayor sobrecarga del sistema.
A medida que los agentes impulsados por modelos de lenguaje multimodal (LLM) continúan avanzando en autonomía y generalización, la evaluación basada en conjuntos de datos estáticos ya no puede evaluar adecuadamente sus verdaderas capacidades en entornos dinámicos y tareas diversas. Los métodos existentes de generación de datos sintéticos basados en LLM están diseñados principalmente para el entrenamiento y evaluación de LLM, por lo que no pueden aplicarse directamente a tareas de agentes que requieren el uso de herramientas y capacidades interactivas. Si bien estudios recientes han explorado la generación automática de tareas para agentes utilizando LLM, la mayoría de los esfuerzos se limitan al análisis de texto o imágenes, sin modelar sistemáticamente interacciones de múltiples pasos en entornos web. Para abordar estos desafíos, proponemos Graph2Eval, un marco basado en grafos de conocimiento que genera automáticamente tareas de comprensión de documentos multimodales y tareas de interacción web, permitiendo una evaluación integral de las capacidades de razonamiento, colaboración e interacción de los agentes. En nuestro enfoque, los grafos de conocimiento construidos a partir de datos externos de múltiples fuentes sirven como el espacio de tareas, donde traducimos relaciones semánticas en tareas multimodales estructuradas utilizando muestreo de subgrafos, plantillas de tareas y meta-rutas. Se aplica una canalización de filtrado de múltiples etapas basada en accesibilidad de nodos, puntuación de LLM y análisis de similitud para garantizar la calidad y ejecutabilidad de las tareas generadas. Además, Graph2Eval permite la evaluación de extremo a extremo de múltiples tipos de agentes (Agente Único, Multi-Agente, Agente Web) y mide las capacidades de razonamiento, colaboración e interacción. Instanciamos el marco con Graph2Eval-Bench, un conjunto de datos curado de 1,319 tareas que abarcan escenarios de comprensión de documentos e interacción web. Los experimentos muestran que Graph2Eval genera eficientemente tareas que diferencian el rendimiento de los agentes y modelos, revelando brechas en razonamiento, colaboración e interacción web en diferentes configuraciones, ofreciendo una nueva perspectiva para la evaluación de agentes.
Las transformaciones de potencia son técnicas paramétricas populares para hacer que los datos se asemejen más a una distribución gaussiana, y se utilizan ampliamente como pasos de preprocesamiento en análisis estadístico y aprendizaje automático. Sin embargo, encontramos que las implementaciones directas de las transformaciones de potencia sufren de inestabilidades numéricas severas, lo que puede llevar a resultados incorrectos o incluso a fallos del sistema. En este artículo, proporcionamos un análisis exhaustivo de las fuentes de estas inestabilidades y proponemos remedios efectivos. Además, extendemos las transformaciones de potencia al entorno de aprendizaje federado, abordando tanto los desafíos numéricos como los distribucionales que surgen en este contexto. Los experimentos en conjuntos de datos del mundo real demuestran que nuestros métodos son tanto efectivos como robustos, mejorando sustancialmente la estabilidad en comparación con los enfoques existentes.
Las curvas Receiver Operating Characteristic (ROC) y Precision-Recall (PR) son herramientas fundamentales para evaluar clasificadores de aprendizaje automático, ofreciendo información detallada sobre las compensaciones entre la tasa de verdaderos positivos frente a la tasa de falsos positivos (ROC) o la precisión frente a la exhaustividad (PR). Sin embargo, en escenarios de Aprendizaje Federado (FL), donde los datos están distribuidos entre múltiples clientes, el cálculo de estas curvas es un desafío debido a las restricciones de privacidad y comunicación. Específicamente, el servidor no puede acceder a las puntuaciones de predicción en bruto ni a las etiquetas de clase, que se utilizan para calcular las curvas ROC y PR en un entorno centralizado. En este artículo, proponemos un método novedoso para aproximar las curvas ROC y PR en un entorno federado mediante la estimación de cuantiles de la distribución de puntuaciones de predicción bajo privacidad diferencial distribuida. Proporcionamos límites teóricos sobre el Error del Área (AE) entre las curvas verdaderas y estimadas, demostrando las compensaciones entre la precisión de la aproximación, la privacidad y el costo de comunicación. Los resultados empíricos en conjuntos de datos del mundo real muestran que nuestro método logra una alta precisión de aproximación con una comunicación mínima y garantías sólidas de privacidad, lo que lo hace práctico para la evaluación de modelos que preservan la privacidad en sistemas federados.
Lanzamos Code World Model (CWM), un modelo de lenguaje grande (LLM) de 32 mil millones de parámetros con pesos abiertos, para avanzar en la investigación sobre generación de código con modelos del mundo. Para mejorar la comprensión del código más allá de lo que se puede aprender únicamente del entrenamiento con código estático, realizamos un entrenamiento intermedio de CWM con una gran cantidad de trayectorias de observación-acción provenientes de entornos de intérprete de Python y Docker agentivos, y llevamos a cabo un razonamiento multitarea extensivo con aprendizaje por refuerzo (RL) en entornos verificables de codificación, matemáticas e ingeniería de software de múltiples pasos. Con CWM, ofrecemos una plataforma sólida para que los investigadores exploren las oportunidades que los modelos del mundo brindan para mejorar la generación de código mediante razonamiento y planificación en entornos computacionales. Presentamos los primeros pasos sobre cómo los modelos del mundo pueden beneficiar la codificación agentiva, permitir la simulación paso a paso de la ejecución de código Python y mostramos resultados preliminares de cómo el razonamiento puede beneficiarse de esto último. CWM es un LLM denso y exclusivamente decodificador, entrenado con un tamaño de contexto de hasta 131 mil tokens. Independientemente de sus capacidades de modelado del mundo, CWM ofrece un rendimiento sólido en tareas generales de codificación y matemáticas: alcanza puntajes pass@1 de 65.8% en SWE-bench Verified (con escalado en tiempo de prueba), 68.6% en LiveCodeBench, 96.6% en Math-500 y 76.0% en AIME 2024. Para apoyar futuras investigaciones sobre el modelado del mundo en código, publicamos puntos de control del modelo después del entrenamiento intermedio, SFT y RL.