Artículos de investigación en IA seleccionados diariamente con traducciones
La generación de código en contextos extensos se está volviendo cada vez más crucial, ya que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) deben razonar sobre grandes volúmenes de información en las bases de código. Aunque los avances recientes permiten a los LLMs de código procesar entradas largas, los altos costos de API y la latencia en la generación siguen siendo cuellos de botella significativos. Las técnicas existentes de poda de contexto, como LLMLingua, logran resultados prometedores para texto general, pero pasan por alto las estructuras y dependencias específicas del código, lo que lleva a un rendimiento subóptimo en tareas de programación. En este artículo, proponemos LongCodeZip, un novedoso marco de compresión de código plug-and-play diseñado específicamente para LLMs de código. LongCodeZip emplea una estrategia de dos etapas: (1) compresión de grano grueso, que identifica y clasifica fragmentos a nivel de función utilizando la perplejidad condicional respecto a la instrucción, conservando solo las funciones más relevantes; y (2) compresión de grano fino, que segmenta las funciones retenidas en bloques basados en la perplejidad y selecciona un subconjunto óptimo bajo un presupuesto de tokens adaptativo para maximizar la relevancia. Las evaluaciones en múltiples tareas, incluyendo completado de código, resumen y respuesta a preguntas, muestran que LongCodeZip supera consistentemente a los métodos base, logrando una relación de compresión de hasta 5.6x sin degradar el rendimiento de la tarea. Al reducir efectivamente el tamaño del contexto mientras preserva la información esencial, LongCodeZip permite a los LLMs escalar mejor a escenarios de código del mundo real y a gran escala, avanzando en la eficiencia y capacidad de las aplicaciones de inteligencia de código.
Los modelos de difusión han revolucionado la generación de imágenes y videos, logrando una calidad visual sin precedentes. Sin embargo, su dependencia de arquitecturas basadas en transformadores conlleva costos computacionales prohibitivamente altos, especialmente al extender la generación a videos largos. Trabajos recientes han explorado formulaciones autorregresivas para la generación de videos largos, generalmente mediante la destilación de modelos bidireccionales de corto alcance. No obstante, dado que los modelos maestros no pueden sintetizar videos largos, la extrapolación de los modelos estudiantiles más allá de su horizonte de entrenamiento suele resultar en una degradación pronunciada de la calidad, derivada de la acumulación de errores en el espacio latente continuo. En este artículo, proponemos un enfoque simple pero efectivo para mitigar la degradación de calidad en la generación de videos de largo horizonte, sin requerir supervisión de modelos maestros de videos largos ni reentrenamiento en conjuntos de datos de videos extensos. Nuestro enfoque se centra en aprovechar el conocimiento profundo de los modelos maestros para proporcionar guía al modelo estudiantil a través de segmentos muestreados extraídos de videos largos autogenerados. Nuestro método mantiene la consistencia temporal mientras escala la longitud del video hasta 20 veces más allá de la capacidad del modelo maestro, evitando problemas comunes como la sobreexposición y la acumulación de errores sin recalcular fotogramas superpuestos como en métodos anteriores. Al escalar el cómputo, nuestro método demuestra la capacidad de generar videos de hasta 4 minutos y 15 segundos, equivalente al 99.9% del máximo alcance soportado por la incrustación posicional de nuestro modelo base y más de 50 veces más largo que el de nuestro modelo de referencia. Los experimentos en puntos de referencia estándar y en nuestro nuevo punto de referencia propuesto demuestran que nuestro enfoque supera sustancialmente a los métodos de referencia tanto en fidelidad como en consistencia. Nuestra demostración de videos de largo horizonte puede encontrarse en https://self-forcing-plus-plus.github.io/.
El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) es un paradigma emergente para mejorar la capacidad de razonamiento de los modelos de lenguaje grandes. Sin embargo, el entrenamiento estándar on-policy descarta las experiencias de ejecución después de una sola actualización, lo que conduce a ineficiencia computacional e inestabilidad. Si bien trabajos previos en RL han destacado los beneficios de reutilizar experiencias pasadas, el papel de las características de la experiencia en la configuración de la dinámica de aprendizaje de modelos de razonamiento grandes sigue siendo poco explorado. En este artículo, somos los primeros en investigar qué hace que una experiencia de razonamiento sea valiosa e identificamos la corrección de la ejecución y la entropía como indicadores efectivos del valor de la experiencia. Basándonos en estas ideas, proponemos ExGRPO (Optimización de Política Relativa de Grupo Experiencial), un marco que organiza y prioriza experiencias valiosas, y emplea un objetivo de política mixta para equilibrar la exploración con la explotación de experiencias. Los experimentos en cinco modelos base (1.5B-8B parámetros) muestran que ExGRPO mejora consistentemente el rendimiento de razonamiento en benchmarks matemáticos/generales, con una ganancia promedio de +3.5/7.6 puntos sobre RLVR on-policy. Además, ExGRPO estabiliza el entrenamiento tanto en modelos más fuertes como más débiles donde los métodos on-policy fallan. Estos resultados destacan la gestión de experiencias basada en principios como un ingrediente clave para un RLVR eficiente y escalable.
Los métodos de representación de escenas 3D como Neural Radiance Fields (NeRF) y 3D Gaussian Splatting (3DGS) han avanzado significativamente en la síntesis de nuevas vistas. A medida que estos métodos se vuelven prevalentes, abordar sus vulnerabilidades se vuelve crucial. Analizamos la robustez de 3DGS frente a ataques de envenenamiento a nivel de imagen y proponemos un novedoso método de envenenamiento guiado por densidad. Nuestro método inyecta estratégicamente puntos gaussianos en regiones de baja densidad identificadas mediante Kernel Density Estimation (KDE), incrustando objetos ilusorios dependientes del punto de vista que son claramente visibles desde las vistas envenenadas, mientras afectan mínimamente las vistas inocentes. Además, introducimos una estrategia de ruido adaptativo para perturbar la consistencia multi-vista, mejorando aún más la efectividad del ataque. Proponemos un protocolo de evaluación basado en KDE para evaluar sistemáticamente la dificultad del ataque, permitiendo un benchmarking objetivo para futuras investigaciones. Experimentos extensivos demuestran el rendimiento superior de nuestro método en comparación con las técnicas más avanzadas. Página del proyecto: https://hentci.github.io/stealthattack/
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado recientemente capacidades sólidas como agentes autónomos, mostrando potencial en razonamiento, uso de herramientas y toma de decisiones secuenciales. Si bien los puntos de referencia anteriores han evaluado a los agentes LLM en dominios como la ingeniería de software y el descubrimiento científico, el dominio financiero sigue siendo poco explorado, a pesar de su relevancia directa para el valor económico y la toma de decisiones de alto riesgo. Los puntos de referencia financieros existentes principalmente prueban el conocimiento estático a través de preguntas y respuestas, pero no logran capturar la naturaleza dinámica e iterativa del comercio. Para abordar esta brecha, presentamos StockBench, un punto de referencia libre de contaminación diseñado para evaluar a los agentes LLM en entornos realistas de comercio de acciones de varios meses. Los agentes reciben señales diarias del mercado —incluyendo precios, fundamentales y noticias— y deben tomar decisiones secuenciales de compra, venta o retención. El rendimiento se evalúa utilizando métricas financieras como el rendimiento acumulado, la máxima pérdida potencial y el ratio de Sortino. Nuestra evaluación de modelos propietarios de última generación (por ejemplo, GPT-5, Claude-4) y de peso abierto (por ejemplo, Qwen3, Kimi-K2, GLM-4.5) muestra que, aunque la mayoría de los agentes LLM tienen dificultades para superar la línea de base simple de comprar y mantener, varios modelos demuestran el potencial de ofrecer mayores rendimientos y gestionar el riesgo de manera más efectiva. Estos hallazgos destacan tanto los desafíos como las oportunidades en el desarrollo de agentes financieros impulsados por LLM, mostrando que sobresalir en tareas de conocimiento financiero estático no necesariamente se traduce en estrategias de comercio exitosas. Publicamos StockBench como un recurso de código abierto para apoyar la reproducibilidad y avanzar en futuras investigaciones en este dominio.
Presentamos F2LLM - Foundation to Feature Large Language Models, una suite de modelos de embeddings de última generación en tres tamaños: 0.6B, 1.7B y 4B. A diferencia de los modelos de embeddings previamente mejor posicionados, que requieren un preentrenamiento contrastivo masivo, pipelines de entrenamiento sofisticados y datos sintéticos de entrenamiento costosos, F2LLM se ajusta directamente a partir de modelos base utilizando 6 millones de tuplas consulta-documento-negativo curadas a partir de conjuntos de datos de código abierto y no sintéticos, logrando un equilibrio sólido entre el costo de entrenamiento, el tamaño del modelo y el rendimiento de los embeddings. En el ranking MTEB en inglés, F2LLM-4B ocupa el 2º lugar entre los modelos con aproximadamente 4B parámetros y el 7º en general, mientras que F2LLM-1.7B se posiciona en el 1º lugar entre los modelos en el rango de 1B-2B parámetros. Para facilitar futuras investigaciones en el campo, publicamos los modelos, el conjunto de datos de entrenamiento y el código, posicionando a F2LLM como una línea base sólida, reproducible y económica para trabajos futuros.
El entrenamiento tradicional de redes neuronales generalmente sigue recetas de optimización fijas y predefinidas, careciendo de la flexibilidad para responder dinámicamente a inestabilidades o problemas emergentes durante el entrenamiento. En este artículo, presentamos Entrenamiento Interactivo, un marco de código abierto que permite la intervención en tiempo real y guiada por retroalimentación durante el entrenamiento de redes neuronales, ya sea por expertos humanos o agentes de IA automatizados. En su núcleo, Entrenamiento Interactivo utiliza un servidor de control para mediar la comunicación entre los usuarios o agentes y el proceso de entrenamiento en curso, permitiendo a los usuarios ajustar dinámicamente los hiperparámetros del optimizador, los datos de entrenamiento y los puntos de control del modelo. A través de tres estudios de caso, demostramos que el Entrenamiento Interactivo logra una mayor estabilidad en el entrenamiento, reduce la sensibilidad a los hiperparámetros iniciales y mejora la adaptabilidad a las necesidades cambiantes de los usuarios, allanando el camino hacia un paradigma de entrenamiento futuro en el que los agentes de IA monitoreen de manera autónoma los registros de entrenamiento, resuelvan proactivamente las inestabilidades y optimicen la dinámica del entrenamiento.
El paradigma dominante para entrenar modelos de razonamiento a gran escala comienza con un preentrenamiento utilizando la pérdida de predicción del siguiente token en grandes volúmenes de datos. El aprendizaje por refuerzo, aunque poderoso para escalar el razonamiento, se introduce únicamente como la fase final del postentrenamiento, precedido por un ajuste fino supervisado. Si bien es dominante, ¿es esta la forma óptima de entrenamiento? En este artículo, presentamos RLP, un objetivo de preentrenamiento por refuerzo basado en la información, que lleva el espíritu central del aprendizaje por refuerzo —la exploración— a la última fase del preentrenamiento. La idea clave es tratar la cadena de pensamiento como una acción exploratoria, con recompensas calculadas en función de la ganancia de información que proporciona para predecir tokens futuros. Este objetivo de entrenamiento esencialmente fomenta que el modelo piense por sí mismo antes de predecir lo que sigue, enseñando así un comportamiento de pensamiento independiente más temprano en el preentrenamiento. Más concretamente, la señal de recompensa mide el aumento en la log-verosimilitud del siguiente token al condicionar tanto en el contexto como en una cadena de razonamiento muestreada, en comparación con condicionar únicamente en el contexto. Este enfoque produce una señal de recompensa densa sin necesidad de verificadores, permitiendo un entrenamiento eficiente para el flujo completo de documentos durante el preentrenamiento. Específicamente, RLP reformula el aprendizaje por refuerzo para el razonamiento como un objetivo de preentrenamiento en texto ordinario, cerrando la brecha entre la predicción del siguiente token y la emergencia de cadenas de pensamiento útiles. El preentrenamiento con RLP en Qwen3-1.7B-Base eleva el promedio general en una suite de ocho puntos de referencia de matemáticas y ciencias en un 19%. Con un postentrenamiento idéntico, las ganancias se acumulan, con las mayores mejoras en tareas intensivas en razonamiento como AIME25 y MMLU-Pro. La aplicación de RLP al híbrido Nemotron-Nano-12B-v2 aumenta el promedio general del 42.81% al 61.32% y eleva el promedio en razonamiento científico en un 23%, demostrando escalabilidad en diferentes arquitecturas y tamaños de modelos.
Los modelos de incrustación multimodal están ganando prevalencia, especialmente para la recuperación de documentos como alternativas eficientes a los flujos de trabajo basados únicamente en texto. Estos modelos suelen construirse mediante el ajuste fino de grandes decodificadores de visión y lenguaje (VLMs) con pérdidas contrastivas en pares de texto-imagen. En este trabajo, demostramos que, aunque rentable, este enfoque de reutilización a menudo limita el rendimiento en la recuperación. A través de experimentos controlados, establecemos una receta fundamentada para mejorar los modelos de recuperación de documentos visuales. En particular, medimos el impacto del enmascaramiento de atención, la resolución de la imagen, los regímenes de datos de alineación de modalidades y los objetivos contrastivos centrados en la interacción tardía, que emergen como factores centrales de rendimiento. Basándonos en estas ideas, presentamos ModernVBERT, un codificador compacto de visión y lenguaje con 250 millones de parámetros que supera a modelos hasta 10 veces más grandes cuando se ajusta para tareas de recuperación de documentos. Los modelos y el código están disponibles en https://huggingface.co/ModernVBERT.
A pesar del rápido progreso reciente en la seguridad de la IA, los modelos de lenguaje grandes actuales siguen siendo vulnerables a ataques adversarios en entornos de interacción de múltiples turnos, donde los atacantes adaptan estratégicamente sus indicaciones a lo largo de los turnos de conversación y representan un desafío más crítico y realista. Los enfoques existentes que descubren vulnerabilidades de seguridad dependen ya sea de pruebas de penetración manuales con expertos humanos o emplean métodos automatizados utilizando plantillas predefinidas y datos de ataque curados por humanos, centrándose principalmente en ataques de un solo turno. Sin embargo, estos métodos no exploraron el vasto espacio de posibles ataques de múltiples turnos, omitiendo considerar trayectorias de ataque novedosas que surgen de dinámicas de diálogo complejas y planificación estratégica de conversaciones. Esta brecha es particularmente crítica dado los hallazgos recientes de que los modelos de lenguaje grandes exhiben una vulnerabilidad significativamente mayor a ataques de múltiples turnos en comparación con ataques de un solo turno. Proponemos DialTree-RPO, un marco de aprendizaje por refuerzo on-policy integrado con búsqueda en árbol que descubre de manera autónoma diversas estrategias de ataque de múltiples turnos al tratar el diálogo como un problema de toma de decisiones secuencial, permitiendo una exploración sistemática sin datos curados manualmente. A través de experimentos extensos, nuestro enfoque no solo logra un ASR más de un 25.9% superior en 10 modelos objetivo en comparación con los enfoques más avanzados anteriores, sino que también descubre efectivamente nuevas estrategias de ataque al aprender políticas de diálogo óptimas que maximizan el éxito del ataque a lo largo de múltiples turnos.
La generación de audio y video ha dependido frecuentemente de arquitecturas complejas de múltiples etapas o de la síntesis secuencial de sonido y elementos visuales. Presentamos Ovi, un paradigma unificado para la generación de audio-video que modela ambas modalidades como un único proceso generativo. Al utilizar una fusión multimodal por bloques de módulos twin-DiT, Ovi logra una sincronización natural y elimina la necesidad de pipelines separados o alineaciones posteriores. Para facilitar el modelado de fusión multimodal a nivel fino, inicializamos una torre de audio con una arquitectura idéntica a la de un modelo de video preentrenado robusto. Entrenada desde cero con cientos de miles de horas de audio crudo, la torre de audio aprende a generar efectos de sonido realistas, así como habla que transmite una rica identidad del hablante y emociones. La fusión se obtiene mediante el entrenamiento conjunto de las torres de video y audio idénticas, a través del intercambio por bloques de información temporal (mediante embeddings scaled-RoPE) y semántica (a través de atención cruzada bidireccional) en un vasto corpus de video. Nuestro modelo permite la narración cinematográfica con habla natural y efectos de sonido precisos y contextualmente adecuados, produciendo clips de video de calidad cinematográfica. Todas las demostraciones, el código y los pesos del modelo están publicados en https://aaxwaz.github.io/Ovi.
Los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) están surgiendo rápidamente como sistemas potentes para automatizar tareas en diversos dominios. Sin embargo, el progreso en la comunidad de código abierto se ve limitado por la falta de datos de entrenamiento de alta calidad y con licencias permisivas para agentes que utilizan herramientas. Los conjuntos de datos existentes suelen ser limitados en diversidad, realismo y complejidad, especialmente en lo que respecta a interacciones multiherramienta y de múltiples turnos. Para abordar esta brecha, presentamos Toucan, el conjunto de datos de agentes que utilizan herramientas más grande disponible públicamente hasta la fecha, que contiene 1.5 millones de trayectorias sintetizadas a partir de casi 500 Protocolos de Contexto de Modelo (MCP, por sus siglas en inglés) del mundo real. A diferencia de trabajos anteriores, Toucan aprovecha entornos auténticos de MCP para generar tareas diversas, realistas y desafiantes con trayectorias que involucran la ejecución real de herramientas. Nuestro pipeline primero produce un amplio espectro de consultas de uso de herramientas utilizando cinco modelos distintos, aplica un filtrado de calidad basado en modelos y luego genera trayectorias de agentes con tres modelos maestros utilizando dos marcos de agentes. Una validación rigurosa basada en reglas y modelos asegura salidas de alta calidad. También introducimos tres mecanismos de extensión para diversificar aún más las tareas y simular conversaciones de múltiples turnos. Los modelos ajustados en Toucan superan a contrapartes más grandes de código cerrado en el benchmark BFCL V3 y avanzan la frontera de Pareto en MCP-Universe Bench.
Los agentes de uso informático (CUAs, por sus siglas en inglés) ofrecen potencial para automatizar tareas digitales cotidianas, pero su falta de fiabilidad y alta variabilidad dificultan su aplicación en tareas complejas de largo plazo. Presentamos Behavior Best-of-N (bBoN), un método que escala sobre múltiples agentes generando varias ejecuciones y seleccionando entre ellas mediante narrativas de comportamiento que describen las ejecuciones de los agentes. Este método permite tanto una exploración amplia como una selección de trayectorias fundamentada, mejorando sustancialmente la robustez y las tasas de éxito. En OSWorld, nuestro método de escalado bBoN establece un nuevo estado del arte (SoTA) con un 69,9%, superando significativamente métodos anteriores y acercándose al rendimiento humano del 72%, con ablaciones exhaustivas que validan decisiones clave de diseño. Además, demostramos fuertes resultados de generalización en diferentes sistemas operativos en WindowsAgentArena y AndroidWorld. De manera crucial, nuestros resultados destacan la efectividad irrazonable de escalar CUAs cuando se hace correctamente: un escalado efectivo requiere una comprensión y selección estructurada de trayectorias, y bBoN proporciona un marco práctico para lograrlo.
Evaluar la calidad de las salidas de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) representa un desafío crítico. Los métodos anteriores se basan ya sea en información a nivel de texto (por ejemplo, modelos de recompensa, votación por mayoría), que pueden sobreajustarse a señales superficiales, o en la confianza calibrada a partir de las probabilidades de los tokens, lo cual fallaría en modelos menos calibrados. Sin embargo, ambas señales son, de hecho, proyecciones parciales de una fuente de información más rica: los estados internos ocultos del modelo. Las capas iniciales, más cercanas a las incrustaciones de tokens, preservan características semánticas y léxicas que sustentan los juicios basados en texto, mientras que las capas posteriores se alinean cada vez más con los logits de salida, incorporando información relacionada con la confianza. Este artículo explora directamente los estados ocultos como una base unificada para la verificación. Demostramos que la corrección de una solución está codificada como una firma geométricamente separable dentro de la trayectoria de las activaciones ocultas. Para validar esto, presentamos Clue (Verificación basada en Agrupamiento y Experiencia), un verificador deliberadamente minimalista y no paramétrico. Sin parámetros entrenables, CLUE solo resume cada traza de razonamiento mediante un delta de estado oculto y clasifica la corrección mediante la distancia al centroide más cercano a los clústeres de "éxito" y "fracaso" formados a partir de experiencias pasadas. La simplicidad de este método resalta la fuerza de la señal subyacente. Empíricamente, CLUE supera consistentemente las líneas base de LLM-como-juez y coincide o supera los métodos modernos basados en confianza en la reordenación de candidatos, mejorando tanto la precisión del top-1 como la de la votación por mayoría en AIME 24/25 y GPQA. Como punto destacado, en AIME 24 con un modelo de 1.5B, CLUE aumenta la precisión del 56.7% (mayoría@64) al 70.0% (top-mayoría@16).
La dirección de activación es una técnica prometedora para controlar el comportamiento de los modelos de lenguaje grandes (LLM) mediante la adición de vectores semánticamente significativos directamente en los estados ocultos del modelo durante la inferencia. A menudo se presenta como una alternativa precisa, interpretable y potencialmente más segura al ajuste fino. Demostramos lo contrario: la dirección de activación rompe sistemáticamente las salvaguardas de alineación del modelo, haciéndolo cumplir con solicitudes dañinas. A través de extensos experimentos en diferentes familias de modelos, mostramos que incluso la dirección en una dirección aleatoria puede aumentar la probabilidad de cumplimiento dañino del 0% al 2-27%. Alarmantemente, la dirección de características benignas desde un autoencoder disperso (SAE), una fuente común de direcciones interpretables, aumenta estas tasas en un 2-4% adicional. Finalmente, demostramos que combinar 20 vectores muestreados aleatoriamente que vulneran un solo mensaje crea un ataque universal, aumentando significativamente el cumplimiento dañino en solicitudes no vistas. Estos resultados desafían el paradigma de la seguridad a través de la interpretabilidad, mostrando que el control preciso sobre los internos del modelo no garantiza un control preciso sobre su comportamiento.
El aprendizaje por refuerzo con recompensas verificables (RLVR) mejora el razonamiento en los modelos de lenguaje de gran escala (LLMs), pero enfrenta dificultades con la exploración, un problema que persiste también en los modelos de lenguaje multimodal (MLLMs). Los métodos actuales tratan la entrada visual como una condición fija y determinista, pasando por alto una fuente crítica de ambigüedad y luchando por construir políticas robustas frente a variaciones visuales plausibles. Presentamos VOGUE (Exploración Guiada por Incertidumbre Visual), un método novedoso que traslada la exploración del espacio de salida (texto) al de entrada (visual). Al tratar la imagen como un contexto estocástico, VOGUE cuantifica la sensibilidad de la política a perturbaciones visuales utilizando la divergencia KL simétrica entre una rama "original" y una "ruidosa", creando una señal directa para la exploración consciente de la incertidumbre. Esta señal moldea el objetivo de aprendizaje mediante una bonificación proporcional a la incertidumbre, que, combinada con una bonificación de entropía de tokens y un esquema de muestreo gradual, equilibra eficazmente la exploración y la explotación. Implementado dentro de GRPO en dos escalas de modelos (Qwen2.5-VL-3B/7B), VOGUE aumenta la precisión pass@1 en un promedio del 2.6% en tres benchmarks de matemáticas visuales y del 3.7% en tres benchmarks de razonamiento de dominio general, mientras mejora simultáneamente el rendimiento pass@4 y mitiga el decaimiento de la exploración comúnmente observado en el ajuste fino por RL. Nuestro trabajo demuestra que fundamentar la exploración en la incertidumbre inherente de las entradas visuales es una estrategia efectiva para mejorar el razonamiento multimodal.
La inteligencia artificial está experimentando un cambio de paradigma desde modelos de lenguaje cerrados hacia sistemas de agentes interconectados capaces de percepción externa e integración de información. Como encarnación representativa, los Agentes de Investigación Profunda (Deep Research Agents, DRAs) exhiben sistemáticamente capacidades para la descomposición de tareas, recuperación de información cruzada, razonamiento multietapa y generación de salidas estructuradas, lo que mejora notablemente el rendimiento en tareas complejas y abiertas. Sin embargo, los benchmarks existentes siguen siendo deficientes en dimensiones de evaluación, formato de respuestas y mecanismos de puntuación, limitando su capacidad para evaluar dichos sistemas de manera efectiva. Este artículo presenta un benchmark riguroso y un marco de evaluación multidimensional diseñado específicamente para DRAs y respuestas en formato de informe. El benchmark comprende 214 consultas desafiantes curadas por expertos, distribuidas en 10 dominios temáticos amplios, cada una acompañada de paquetes de referencia construidos manualmente para apoyar la evaluación compuesta. El marco permite una evaluación integral de informes extensos generados por DRAs, incorporando métricas de puntuación integradas para la calidad semántica, el enfoque temático y la confiabilidad de la recuperación. Experimentos extensos confirman el rendimiento superior de los DRAs principales sobre los modelos de razonamiento aumentados con herramientas de búsqueda web, aunque revelan un margen considerable para futuras mejoras. Este estudio proporciona una base sólida para la evaluación de capacidades, el refinamiento arquitectónico y el avance paradigmático en los sistemas DRA.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a menudo generan alucinaciones: contenido no respaldado que socava la fiabilidad. Si bien la mayoría de los trabajos previos abordan la detección de alucinaciones como una tarea binaria, muchas aplicaciones del mundo real requieren identificar segmentos alucinados, lo cual es un proceso de toma de decisiones de múltiples pasos. Esto plantea naturalmente la pregunta de si el razonamiento explícito puede ayudar en la compleja tarea de detectar segmentos de alucinación. Para responder a esta pregunta, primero evaluamos modelos preentrenados con y sin razonamiento de Cadena de Pensamiento (CoT, por sus siglas en inglés), y demostramos que el razonamiento CoT tiene el potencial de generar al menos una respuesta correcta cuando se muestrea múltiples veces. Motivados por esto, proponemos RL4HS, un marco de aprendizaje por refuerzo que incentiva el razonamiento con una función de recompensa a nivel de segmento. RL4HS se basa en la Optimización de Política Relativa de Grupo e introduce la Optimización de Política Consciente de Clases para mitigar el problema de desequilibrio en las recompensas. Los experimentos en el benchmark RAGTruth (resumen, respuesta a preguntas, datos a texto) muestran que RL4HS supera a los modelos de razonamiento preentrenados y al ajuste fino supervisado, demostrando la necesidad del aprendizaje por refuerzo con recompensas a nivel de segmento para detectar segmentos de alucinación.
El razonamiento visual detallado sigue siendo un desafío fundamental para los modelos de lenguaje multimodal de gran escala (MLLMs). El recientemente introducido ReasonMap destaca esta brecha al demostrar que incluso los MLLMs avanzados tienen dificultades con el razonamiento espacial en entornos estructurados y ricos en información, como los mapas de tránsito, una tarea de clara importancia práctica y científica. Sin embargo, el aprendizaje por refuerzo (RL) estándar en estas tareas se ve obstaculizado por recompensas dispersas y una optimización inestable. Para abordar esto, primero construimos ReasonMap-Plus, un conjunto de datos extendido que introduce señales de recompensa densas a través de tareas de Visual Question Answering (VQA), permitiendo un entrenamiento efectivo desde cero en habilidades de comprensión visual detallada. A continuación, proponemos RewardMap, un marco de RL de múltiples etapas diseñado para mejorar tanto la comprensión visual como las capacidades de razonamiento de los MLLMs. RewardMap incorpora dos diseños clave. Primero, introducimos un diseño de recompensa consciente de la dificultad que incluye recompensas detalladas, abordando directamente el problema de las recompensas dispersas mientras proporciona una supervisión más rica. Segundo, proponemos un esquema de RL de múltiples etapas que inicia el entrenamiento desde tareas de percepción simples hasta tareas de razonamiento complejas, ofreciendo una estrategia de inicio más efectiva que el ajuste fino supervisado (SFT) convencional. Los experimentos en ReasonMap y ReasonMap-Plus demuestran que cada componente de RewardMap contribuye a mejoras consistentes en el rendimiento, mientras que su combinación produce los mejores resultados. Además, los modelos entrenados con RewardMap logran una mejora promedio del 3.47% en 6 benchmarks que abarcan razonamiento espacial, razonamiento visual detallado y tareas generales más allá de los mapas de tránsito, destacando capacidades mejoradas de comprensión y razonamiento visual.
Presentamos a Aristóteles, un sistema de inteligencia artificial que combina verificación formal con razonamiento informal, logrando un rendimiento equivalente a medalla de oro en los problemas de la Olimpiada Internacional de Matemáticas del 2025. Aristóteles integra tres componentes principales: un sistema de búsqueda de pruebas en Lean, un sistema de razonamiento informal que genera y formaliza lemas, y un solucionador de geometría dedicado. Nuestro sistema demuestra un rendimiento de vanguardia con propiedades de escalabilidad favorables para la demostración automática de teoremas.
La edición de imágenes basada en arrastre ha sufrido durante mucho tiempo distorsiones en la región objetivo, principalmente porque los priores de los modelos base anteriores, como Stable Diffusion, son insuficientes para proyectar latentes optimizados de vuelta al colector de imágenes naturales. Con el cambio de los DDPM basados en UNet a DiT más escalables con emparejamiento de flujo (por ejemplo, SD3.5, FLUX), los priores generativos se han vuelto significativamente más fuertes, permitiendo avances en diversas tareas de edición. Sin embargo, la edición basada en arrastre aún no se ha beneficiado de estos priores más robustos. Este trabajo propone el primer marco para aprovechar eficazmente el rico prior de FLUX en la edición basada en arrastre, denominado DragFlow, logrando mejoras sustanciales respecto a los métodos base. Primero demostramos que aplicar directamente la edición de arrastre basada en puntos a DiTs tiene un rendimiento deficiente: a diferencia de las características altamente comprimidas de las UNets, las características de DiT no están suficientemente estructuradas para proporcionar una guía confiable para la supervisión del movimiento punto a punto. Para superar esta limitación, DragFlow introduce un paradigma de edición basado en regiones, donde las transformaciones afines permiten una supervisión de características más rica y consistente. Además, integramos adaptadores de personalización de dominio abierto preentrenados (por ejemplo, IP-Adapter) para mejorar la consistencia del sujeto, mientras preservamos la fidelidad del fondo mediante restricciones duras basadas en máscaras de gradiente. Los modelos de lenguaje multimodal de gran escala (MLLMs) se emplean además para resolver ambigüedades en las tareas. Para la evaluación, hemos creado un nuevo punto de referencia basado en arrastre de regiones (ReD Bench) que incluye instrucciones de arrastre a nivel de región. Experimentos exhaustivos en DragBench-DR y ReD Bench muestran que DragFlow supera tanto a los métodos base basados en puntos como a los basados en regiones, estableciendo un nuevo estado del arte en la edición de imágenes basada en arrastre. El código y los conjuntos de datos estarán disponibles públicamente tras la publicación.
La arquitectura Transformer, sustentada por el mecanismo de Atención Multi-Cabeza (MHA, por sus siglas en inglés), se ha convertido en el estándar de facto para los modelos de vanguardia en inteligencia artificial. Sin embargo, la complejidad computacional cuadrática de MHA con respecto a la longitud de la secuencia representa una barrera significativa para la escalabilidad, particularmente en aplicaciones que involucran contextos largos. Las soluciones predominantes, como la Atención Multi-Consulta (MQA) y la Atención de Consulta Agrupada (GQA), han abordado eficazmente el cuello de botella del ancho de banda de memoria que domina la latencia de inferencia autoregresiva mediante la compartición de proyecciones de Clave y Valor. Aunque altamente exitosos, estos métodos no reducen el número fundamental de operaciones de punto flotante (FLOPs) requeridas para el cálculo de las puntuaciones de atención, lo que sigue siendo un cuello de botella crítico para el entrenamiento y el procesamiento de secuencias completas. Este artículo introduce la Atención de Consulta Dispersa (SQA), una arquitectura de atención novedosa que persigue una ruta de optimización alternativa y complementaria. En lugar de reducir las cabezas de Clave/Valor, SQA reduce el número de cabezas de Consulta. Esta modificación arquitectónica disminuye directamente la complejidad computacional del mecanismo de atención en un factor proporcional a la reducción de cabezas de consulta, reduciendo así el total de FLOPs. Este trabajo presenta los fundamentos teóricos de SQA, su formulación matemática y una familia de variantes arquitectónicas. Los puntos de referencia empíricos en secuencias largas (32k-200k tokens) demuestran que SQA puede lograr mejoras significativas en el rendimiento de hasta 3x en escenarios limitados por la computación, como el preentrenamiento de modelos, el ajuste fino y las tareas basadas en codificadores, con solo un impacto mínimo en la calidad del modelo en experimentos preliminares a pequeña escala. SQA fue descubierta de manera fortuita durante el desarrollo de la próxima arquitectura Transformer Reactiva, lo que sugiere su potencial como una herramienta poderosa para construir modelos más eficientes y escalables.
Las alucinaciones contextualizadas son casos en los que las salidas del modelo contienen información no verificable con respecto al texto fuente. Estudiamos la aplicabilidad de los LLM para localizar dichas alucinaciones, como una alternativa más práctica a las complejas tuberías de evaluación existentes. En ausencia de puntos de referencia establecidos para la meta-evaluación de la localización de alucinaciones, construimos uno adaptado a los LLM, que implica una anotación humana desafiante de más de 1,000 ejemplos. Complementamos este punto de referencia con un protocolo de evaluación basado en LLM, verificando su calidad en una evaluación humana. Dado que las representaciones existentes de alucinaciones limitan los tipos de errores que pueden expresarse, proponemos una nueva representación basada en descripciones textuales de forma libre, que captura la gama completa de errores posibles. Realizamos un estudio exhaustivo, evaluando cuatro LLM a gran escala, que resalta la dificultad del punto de referencia, ya que el mejor modelo alcanza un puntaje F1 de solo 0.67. A través de un análisis cuidadoso, ofrecemos insights sobre las estrategias óptimas de "prompting" para la tarea e identificamos los principales factores que la hacen desafiante para los LLM: (1) una tendencia a marcar incorrectamente detalles faltantes como inconsistentes, a pesar de estar instruidos para verificar solo hechos en la salida; y (2) dificultad con salidas que contienen información factualmente correcta ausente en la fuente —y, por lo tanto, no verificable— debido a la alineación con el conocimiento paramétrico del modelo.
La comprensión de videos en modelos de lenguaje multimodal sigue estando limitada por la longitud del contexto: los modelos a menudo pierden fotogramas clave de transición y tienen dificultades para mantener la coherencia a lo largo de escalas de tiempo prolongadas. Para abordar este problema, adaptamos la Atención Dispersa Nativa (NSA, por sus siglas en inglés) a modelos de video-lenguaje. Nuestro método, VideoNSA, adapta Qwen2.5-VL mediante un entrenamiento de extremo a extremo en un conjunto de datos de instrucciones de video de 216K. Empleamos un enfoque híbrido consciente del hardware para la atención, preservando la atención densa para el texto mientras utilizamos NSA para el video. En comparación con líneas base de compresión de tokens y dispersión sin entrenamiento, VideoNSA logra un mejor rendimiento en la comprensión de videos largos, el razonamiento temporal y los puntos de referencia espaciales. Un análisis de ablación adicional revela cuatro hallazgos clave: (1) escalabilidad confiable hasta 128K tokens; (2) una asignación óptima de atención global-local con un presupuesto fijo; (3) patrones de uso de ramas dependientes de la tarea; y (4) la atención dispersa combinada aprendible ayuda a inducir sumideros de atención dinámicos.
Aunque los actuales Modelos de Visión-Lenguaje (VLMs) de gran escala han avanzado en la comprensión y razonamiento multimodal, sus capacidades fundamentales de percepción y razonamiento siguen siendo limitadas. Específicamente, incluso en tareas simples de rompecabezas, los VLMs existentes desempeñan un comportamiento cercano al azar, revelando deficiencias en las capacidades básicas de percepción y razonamiento. Si bien los datos de alta calidad en visión-lenguaje pueden mejorar estas capacidades, su escasez y la limitada escalabilidad imponen restricciones significativas. Para abordar esto, proponemos AGILE, un Aprendizaje de Interacción Agente en Rompecabezas (Agentic jiGsaw Interaction Learning) para mejorar la percepción visual y el razonamiento en VLMs. AGILE formula la resolución de rompecabezas como un proceso interactivo, permitiendo que el modelo se involucre progresivamente con el entorno. En cada paso, el modelo genera código ejecutable para realizar una acción basada en el estado actual, mientras que el entorno proporciona retroalimentación visual detallada para guiar la finalización de la tarea. A través de este ciclo iterativo de observación e interacción, el modelo mejora incrementalmente sus capacidades de percepción y razonamiento mediante la exploración y la retroalimentación. Los resultados experimentales muestran que AGILE no solo aumenta sustancialmente el rendimiento en tareas de rompecabezas de diversa complejidad (por ejemplo, aumentando la precisión del 9.5% al 82.8% en la configuración de 2 por 2), sino que también demuestra una fuerte generalización en 9 tareas generales de visión, logrando una mejora promedio del 3.1%. Estos resultados indican mejoras notables tanto en las habilidades de percepción como de razonamiento. Este trabajo abre una nueva vía para avanzar en el razonamiento y la generalización en modelos multimodales y proporciona una solución eficiente y escalable a la escasez de datos de aprendizaje por refuerzo multimodal. El código y los conjuntos de datos están disponibles en https://github.com/yuzeng0-0/AGILE.
Los Sistemas Multi-Agente (MAS, por sus siglas en inglés) impulsados por Modelos de Lenguaje Visual (VLMs) permiten tareas desafiantes, pero sufren de un nuevo término de fallo: la propagación de alucinaciones visuales en multi-agentes, donde las alucinaciones se originan en un solo agente y son amplificadas por los siguientes debido a la excesiva dependencia del flujo textual para transmitir información visual. Mediante análisis de atención a nivel de turno, capa y token, proporcionamos una visión detallada de la esencia de la propagación de alucinaciones en relación con la reducción de la asignación de atención visual. Esto nos lleva a identificar un subconjunto de tokens visuales con un pico de atención unimodal en las capas intermedias que mejor preservan la evidencia visual, pero que gradualmente disminuyen en los turnos más profundos de los agentes, lo que resulta en la propagación de alucinaciones visuales en los MAS. Por lo tanto, proponemos ViF, un paradigma de mitigación ligero y plug-and-play que transmite mensajes inter-agentes con Flujo Visual impulsado por los tokens de retransmisión visual seleccionados y aplica una reasignación de atención para amplificar este patrón. Los resultados experimentales demuestran que nuestro método reduce notablemente la propagación de alucinaciones, mejorando consistentemente el rendimiento en ocho benchmarks basados en cuatro estructuras comunes de MAS y diez modelos base. El código fuente estará disponible en: https://github.com/YU-deep/ViF.git.
El escalado en tiempo de prueba (TTS, por sus siglas en inglés) ha demostrado un éxito notable en la mejora de modelos de lenguaje grandes, sin embargo, su aplicación a la generación autoregresiva (AR) de imágenes basada en predicción del siguiente token (NTP) sigue siendo en gran parte inexplorada. Los enfoques existentes de TTS para AR visual (VAR), que dependen de decodificaciones parciales frecuentes y modelos de recompensa externos, son inadecuados para la generación de imágenes basada en NTP debido a la incompletitud inherente de los resultados de decodificación intermedios. Para cerrar esta brecha, presentamos ScalingAR, el primer marco de TTS diseñado específicamente para la generación de imágenes AR basada en NTP que elimina la necesidad de decodificación temprana o recompensas auxiliares. ScalingAR aprovecha la entropía de los tokens como una señal novedosa en la generación de tokens visuales y opera en dos niveles de escalado complementarios: (i) Nivel de Perfil, que transmite un estado de confianza calibrado fusionando señales intrínsecas y condicionales; y (ii) Nivel de Política, que utiliza este estado para terminar adaptativamente trayectorias de baja confianza y programar dinámicamente la guía para una fuerza de condicionamiento apropiada a la fase. Los experimentos en benchmarks generales y de composición muestran que ScalingAR (1) mejora los modelos base en un 12.5% en GenEval y un 15.2% en TIIF-Bench, (2) reduce eficientemente el consumo de tokens visuales en un 62.0% mientras supera a los baselines, y (3) mejora con éxito la robustez, mitigando las caídas de rendimiento en un 26.0% en escenarios desafiantes.
El razonamiento requiere ir más allá de la coincidencia de patrones o la memorización de soluciones para identificar e implementar "procedimientos algorítmicos" que puedan utilizarse para deducir respuestas a problemas complejos. Para lograrlo, es necesario identificar los elementos primitivos, resultados intermedios o procedimientos compartidos más relevantes y construir sobre ellos. Si bien el entrenamiento posterior de aprendizaje por refuerzo (RL) en cadenas largas de pensamiento tiene como objetivo descubrir este tipo de comportamiento algorítmico, la mayoría de los rastros de razonamiento aprendidos por modelos grandes no logran capturar o reutilizar procedimientos de manera consistente, derivando en una exploración verbosa y degenerada. Para abordar un razonamiento más efectivo, introducimos abstracciones de razonamiento: descripciones concisas en lenguaje natural de conocimiento procedimental y factual que guían al modelo hacia el aprendizaje de un razonamiento exitoso. Entrenamos modelos para que sean capaces de proponer múltiples abstracciones dado un problema, seguido de RL que incentiva la construcción de una solución utilizando la información proporcionada por estas abstracciones. Esto da lugar a un paradigma de entrenamiento RL de dos jugadores, abreviado como RLAD, que entrena conjuntamente un generador de abstracciones y un generador de soluciones. Esta configuración permite de manera efectiva una exploración estructurada, desacopla las señales de aprendizaje de la propuesta de abstracción y la generación de soluciones, y mejora la generalización a problemas más difíciles. También demostramos que asignar más recursos computacionales en tiempo de prueba a la generación de abstracciones es más beneficioso para el rendimiento que generar más soluciones con grandes presupuestos de prueba, ilustrando el papel de las abstracciones en la guía de una exploración significativa.
Los modelos Visión-Lenguaje-Acción (VLA, por sus siglas en inglés) buscan unificar la percepción, la comprensión del lenguaje y la generación de acciones, ofreciendo una fuerte generalización entre tareas y escenarios con un impacto significativo en la inteligencia artificial encarnada. Sin embargo, los modelos VLA actuales a menudo carecen de un razonamiento explícito paso a paso, emitiendo acciones finales sin considerar restricciones de affordance o relaciones geométricas. Además, sus pipelines posteriores al entrenamiento rara vez refuerzan la calidad del razonamiento, dependiendo principalmente de un ajuste fino supervisado con un diseño de recompensas débil. Para abordar estos desafíos, presentamos VLA-R1, un VLA mejorado con razonamiento que integra el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) junto con la Optimización de Políticas Relativas por Grupos (GRPO, por sus siglas en inglés) para optimizar sistemáticamente tanto el razonamiento como la ejecución. Específicamente, diseñamos una estrategia de post-entrenamiento basada en RLVR con recompensas verificables para la alineación de regiones, la consistencia de trayectorias y el formato de salida, fortaleciendo así la robustez del razonamiento y la precisión de la ejecución. Además, desarrollamos VLA-CoT-13K, un conjunto de datos de alta calidad que proporciona supervisión de cadena de pensamiento explícitamente alineada con anotaciones de affordance y trayectorias. Asimismo, evaluaciones exhaustivas en plataformas de dominio interno, dominio externo, simulación y robots reales demuestran que VLA-R1 logra una generalización y un rendimiento en el mundo real superiores en comparación con métodos VLA anteriores. Planeamos liberar el modelo, el código y el conjunto de datos tras la publicación de este trabajo. Código: https://github.com/GigaAI-research/VLA-R1. Sitio web: https://gigaai-research.github.io/VLA-R1.
La generación automatizada de informes radiológicos estructurados (SRRG, por sus siglas en inglés) a partir de imágenes de rayos X de tórax ofrece un potencial significativo para reducir la carga de trabajo de los radiólogos al generar informes en formatos estructurados que garantizan claridad, consistencia y adherencia a los estándares de informes clínicos. Mientras que los radiólogos utilizan eficazmente los contextos clínicos disponibles en su razonamiento diagnóstico, los sistemas SRRG existentes pasan por alto estos elementos esenciales. Esta brecha fundamental conduce a problemas críticos, incluyendo alucinaciones temporales al hacer referencia a contextos clínicos inexistentes. Para abordar estas limitaciones, proponemos SRRG contextualizado (C-SRRG), que incorpora de manera integral un contexto clínico enriquecido para SRRG. Creamos el conjunto de datos C-SRRG integrando un contexto clínico completo que abarca 1) imágenes de rayos X multivista, 2) indicación clínica, 3) técnicas de imagen y 4) estudios previos con comparaciones correspondientes basadas en los historiales de los pacientes. A través de una evaluación exhaustiva con modelos de lenguaje multimodal de última generación, demostramos que la incorporación del contexto clínico con el C-SRRG propuesto mejora significativamente la calidad de la generación de informes. Publicamos el conjunto de datos, el código y los puntos de control para facilitar futuras investigaciones sobre la generación automatizada de informes radiológicos alineados clínicamente en https://github.com/vuno/contextualized-srrg.
Las Redes Neuronales de Grafos (GNNs) son la arquitectura dominante en el aprendizaje automático molecular, especialmente para la predicción de propiedades moleculares y los potenciales interatómicos basados en aprendizaje automático (MLIPs). Las GNNs realizan el paso de mensajes en grafos predefinidos, a menudo inducidos por un radio de corte fijo o un esquema de k-vecinos más cercanos. Aunque este diseño se alinea con la localidad presente en muchas tareas moleculares, un grafo codificado de manera rígida puede limitar la expresividad debido al campo receptivo fijo y ralentizar la inferencia con operaciones de grafos dispersos. En este trabajo, investigamos si los Transformers puros, sin modificaciones y entrenados directamente en coordenadas cartesianas—sin grafos predefinidos ni conocimientos físicos previos—pueden aproximar energías y fuerzas moleculares. Como punto de partida para nuestro análisis, demostramos cómo entrenar un Transformer para lograr errores absolutos medios competitivos en energía y fuerza bajo un presupuesto de cómputo de entrenamiento equivalente, en comparación con una GNN equivariante de última generación en el conjunto de datos OMol25. Descubrimos que el Transformer aprende patrones físicamente consistentes—como pesos de atención que decaen inversamente con la distancia interatómica—y los adapta de manera flexible en diferentes entornos moleculares debido a la ausencia de sesgos codificados de manera rígida. El uso de un Transformer estándar también permite mejoras predecibles en relación con la escalabilidad de los recursos de entrenamiento, consistentes con las leyes de escalado empírico observadas en otros dominios. Nuestros resultados demuestran que muchas de las propiedades favorables de las GNNs pueden surgir de manera adaptativa en los Transformers, cuestionando la necesidad de sesgos inductivos de grafos codificados de manera rígida y apuntando hacia arquitecturas estandarizadas y escalables para el modelado molecular.
Los Agentes de Uso Informático (CUAs, por sus siglas en inglés) son una clase de agentes cada vez más implementada que realizan acciones en interfaces gráficas de usuario (GUIs) para cumplir objetivos del usuario. En este artículo, demostramos que los CUAs exhiben consistentemente una Direccionalidad Ciega hacia Objetivos (BGD, por sus siglas en inglés): una tendencia a perseguir metas sin considerar su viabilidad, seguridad, confiabilidad o contexto. Caracterizamos tres patrones prevalentes de BGD: (i) falta de razonamiento contextual, (ii) suposiciones y decisiones bajo ambigüedad, y (iii) objetivos contradictorios o inviables. Desarrollamos BLIND-ACT, un benchmark de 90 tareas que capturan estos tres patrones. Construido sobre OSWorld, BLIND-ACT proporciona entornos realistas y emplea evaluadores basados en modelos de lenguaje (LLMs) para analizar el comportamiento de los agentes, logrando un 93.75% de concordancia con anotaciones humanas. Utilizamos BLIND-ACT para evaluar nueve modelos de vanguardia, incluyendo Claude Sonnet y Opus 4, Computer-Use-Preview y GPT-5, observando altas tasas promedio de BGD (80.8%) entre ellos. Mostramos que el BGD expone riesgos sutiles que surgen incluso cuando las entradas no son directamente dañinas. Aunque las intervenciones basadas en prompts reducen los niveles de BGD, persiste un riesgo sustancial, destacando la necesidad de intervenciones más sólidas durante el entrenamiento o la inferencia. El análisis cualitativo revela modos de fallo observados: sesgo de ejecución primero (centrarse en cómo actuar en lugar de si actuar), desconexión pensamiento-acción (la ejecución diverge del razonamiento) y primacía de la solicitud (justificar acciones debido a la petición del usuario). Identificar el BGD e introducir BLIND-ACT establece una base para futuras investigaciones sobre el estudio y mitigación de este riesgo fundamental, asegurando un despliegue seguro de los CUAs.
Los modelos de aprendizaje de representaciones multimodales han demostrado un funcionamiento exitoso en tareas complejas, y la integración de modelos de visión y lenguaje (VLMs, por sus siglas en inglés) ha permitido dotar a los modelos de embedding con capacidades de seguimiento de instrucciones. Sin embargo, los modelos de embedding existentes carecen de capacidades visual-interactivas para especificar regiones de interés por parte de los usuarios (por ejemplo, puntos, cuadros delimitadores, máscaras), las cuales han sido exploradas en modelos generativos para ampliar su aplicabilidad en interacciones humanas. Dotar a los modelos de embedding con interacciones visuales no solo desbloquearía nuevas aplicaciones con una localización precisa de la intención del usuario, un aspecto aún inexplorado, sino que también permitiría a los modelos aprender información a nivel de entidades dentro de las imágenes, complementando sus representaciones globales para tareas convencionales de embedding. En este artículo, proponemos un nuevo Visual-InteRactive Text-Image Universal Embedder (VIRTUE) que extiende las capacidades del modelo de segmentación y del modelo de visión y lenguaje al ámbito del aprendizaje de representaciones. En VIRTUE, el modelo de segmentación puede procesar indicaciones visuales que señalan regiones específicas dentro de una imagen, permitiendo así que el embedder maneje escenarios complejos y ambiguos con mayor precisión. Para evaluar la capacidad de interacción visual de VIRTUE, introducimos un benchmark a gran escala de Segmentación y Recuperación de Descripciones de Escenas (SCaR, por sus siglas en inglés) que consta de 1 millón de muestras y tiene como objetivo recuperar la descripción textual considerando conjuntamente la entidad de un objeto específico y la escena de la imagen. VIRTUE logra consistentemente un rendimiento de vanguardia con mejoras significativas en 36 tareas universales de MMEB (3.1%-8.5%) y cinco tareas visual-interactivas de SCaR (15.2%-20.3%).
El aprendizaje por refuerzo (RL) fuera de política (off-policy) para modelos de lenguaje de gran escala (LLMs) está atrayendo un interés creciente, impulsado por las limitaciones prácticas en aplicaciones del mundo real, la complejidad de la infraestructura de RL para LLMs y la necesidad de innovaciones adicionales en las metodologías de RL. Aunque el clásico REINFORCE y sus variantes modernas como la Optimización de Política Relativa de Grupo (GRPO) se consideran típicamente algoritmos dentro de política (on-policy) con una tolerancia limitada a la fuera de política (off-policyness), en este trabajo presentamos una derivación desde primeros principios para REINFORCE relativo a grupo sin asumir una distribución específica de datos de entrenamiento, demostrando que admite una interpretación nativa fuera de política. Esta perspectiva ofrece dos principios generales para adaptar REINFORCE a entornos fuera de política: regularizar las actualizaciones de la política y moldear activamente la distribución de datos. Nuestro análisis desmitifica algunos mitos sobre los roles del muestreo de importancia y el recorte en GRPO, unifica y reinterpreta dos algoritmos recientes —Descenso de Espejo de Política en Línea (OPMD) y REINFORCE Asimétrico (AsymRE)— como formas regularizadas de la pérdida de REINFORCE, y ofrece una justificación teórica para estrategias aparentemente heurísticas de ponderación de datos. Nuestros hallazgos conducen a ideas prácticas que se validan con estudios empíricos extensos y abren nuevas oportunidades para el diseño de algoritmos fundamentados en RL fuera de política para LLMs. El código fuente de este trabajo está disponible en https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.
Los modelos de texto a imagen (T2I) destacan en indicaciones de una sola entidad, pero tienen dificultades con descripciones de múltiples sujetos, mostrando a menudo fugas de atributos, entrelazamiento de identidades y omisiones de sujetos. Introducimos el primer marco teórico con un objetivo optimizable y fundamentado para dirigir la dinámica de muestreo hacia la fidelidad en múltiples sujetos. Al examinar el emparejamiento de flujos (FM) a través del control óptimo estocástico (SOC), formulamos el desenredado de sujetos como el control sobre un muestreador FM entrenado. Esto da lugar a dos algoritmos independientes de la arquitectura: (i) un controlador en tiempo de prueba sin entrenamiento que perturba la velocidad base con una actualización de un solo paso, y (ii) Emparejamiento Adjoint, una regla de ajuste fino ligera que regresa una red de control a una señal adjunta inversa mientras preserva las capacidades del modelo base. La misma formulación unifica heurísticas previas de atención, se extiende a modelos de difusión mediante una correspondencia flujo-difusión, y proporciona la primera ruta de ajuste fino diseñada explícitamente para la fidelidad en múltiples sujetos. Empíricamente, en Stable Diffusion 3.5, FLUX y Stable Diffusion XL, ambos algoritmos mejoran consistentemente la alineación de múltiples sujetos mientras mantienen el estilo del modelo base. El control en tiempo de prueba se ejecuta eficientemente en GPUs comerciales, y los controladores ajustados entrenados con indicaciones limitadas generalizan a indicaciones no vistas. Además, destacamos FOCUS (Control Óptimo de Flujo para Sujetos Desenredados), que logra la mejor fidelidad en múltiples sujetos en todos los modelos.
La predicción de series temporales es fundamental para la toma de decisiones en dominios tan diversos como la energía, las finanzas, el clima y la salud pública. En la práctica, los pronosticadores se enfrentan a miles de series cortas y ruidosas que varían en frecuencia, calidad y horizonte, donde el costo principal no radica en el ajuste del modelo, sino en el preprocesamiento, validación y ensamblaje intensivos en mano de obra necesarios para obtener predicciones confiables. Los modelos estadísticos y de aprendizaje profundo predominantes están adaptados a conjuntos de datos o dominios específicos y generalizan de manera deficiente. Se necesita urgentemente un marco general y agnóstico al dominio que minimice la intervención humana. En este artículo, presentamos TimeSeriesScientist (TSci), el primer marco agente impulsado por LLM para la predicción general de series temporales. El marco consta de cuatro agentes especializados: Curator realiza diagnósticos guiados por LLM aumentados con herramientas externas que razonan sobre estadísticas de datos para elegir un preprocesamiento específico; Planner reduce el espacio de hipótesis de elección de modelos aprovechando diagnósticos multimodales y autoplanificación sobre la entrada; Forecaster realiza el ajuste y validación del modelo y, basándose en los resultados, selecciona de manera adaptativa la mejor configuración del modelo y la estrategia de ensamblaje para hacer predicciones finales; y Reporter sintetiza todo el proceso en un informe completo y transparente. Con justificaciones transparentes en lenguaje natural e informes exhaustivos, TSci transforma el flujo de trabajo de predicción en un sistema de caja blanca que es tanto interpretable como extensible entre tareas. Los resultados empíricos en ocho benchmarks establecidos demuestran que TSci supera consistentemente tanto a los baselines estadísticos como a los basados en LLM, reduciendo el error de predicción en un promedio del 10.4% y 38.2%, respectivamente. Además, TSci produce un informe claro y riguroso que hace que el flujo de trabajo de predicción sea más transparente e interpretable.
El escalado paralelo de inferencia en modelos de lenguaje grandes (LLM) implica muestrear un conjunto de N>1 respuestas para una única entrada o *prompt*. Sin embargo, estas N respuestas paralelas tienden a generarse de manera independiente entre sí, lo que divide los recursos computacionales y deja información potencialmente útil en una generación sin ser aprovechada por las demás. Esto contrasta con el escalado de longitud de respuesta, donde los cálculos previos se utilizan en todos los pasos futuros. Para obtener respuestas y conjuntos de respuestas de mayor calidad, proponemos *Bridge* para generar respuestas interdependientes en paralelo, replanteando los estados ocultos de los LLM procesados en lotes como tensores holísticos en lugar de segmentos independientes. Con solo una pequeña cantidad (2.8%-5.1%) de nuevos parámetros, *Bridge* mejora las ganancias relativas de precisión media del aprendizaje por refuerzo con recompensas verificables hasta en un 50% y aumenta la consistencia de las respuestas correctas. Una vez entrenado, *Bridge* se escala a cualquier ancho de generación, superando en rendimiento a las generaciones independientes, desbloqueando un modo más general de escalado paralelo que aprovecha eficazmente la información entre secuencias, compatible con cualquier técnica de agregación posgeneración.
El entrenamiento en razonamiento incentiva a los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) a producir cadenas de pensamiento largas (long CoT), lo que, entre otras cosas, les permite explorar estrategias de solución con autoverificación. Esto resulta en una mayor precisión, pero incrementa la longitud del contexto, el costo de tokens/computación y la latencia de respuesta. Nos preguntamos: ¿Pueden los modelos actuales aprovechar su metacognición para ofrecer otras combinaciones en esta frontera de Pareto, por ejemplo, una mejor precisión con una menor longitud de contexto y/o latencia? De manera abstracta, vemos al modelo como un operador de mejora sobre sus propios "pensamientos" con un continuo de estrategias posibles. Identificamos una familia de inferencias interesante llamada Paralelizar-Destilar-Refinar (PDR), que realiza lo siguiente: (i) genera borradores diversos en paralelo; (ii) los destila en un espacio de trabajo textual acotado; y (iii) refina condicionado a este espacio de trabajo, produciendo una salida que sirve como semilla para la siguiente ronda. Importante, la longitud del contexto (y por ende el costo de computación) es controlable mediante el grado de paralelismo y ya no se confunde con el número total de tokens generados. Reportamos instancias de PDR en modelos actuales que ofrecen una mejor precisión que long CoT mientras incurren en una menor latencia. Al establecer el grado de paralelismo en 1, se obtiene un subcaso interesante, el Refinamiento Secuencial (SR) (mejorar iterativamente una única respuesta candidata), que proporciona un rendimiento superior a long CoT. El éxito de tales orquestaciones de modelos plantea la pregunta de si un entrenamiento adicional podría desplazar la frontera de Pareto. Con este fin, entrenamos un modelo de pensamiento de 8B con Aprendizaje por Refuerzo (RL) para hacerlo consistente con PDR como método de inferencia. En tareas matemáticas con respuestas verificables, los pipelines iterativos superan a las líneas base de un solo paso con presupuestos secuenciales equivalentes, siendo PDR el que ofrece las mayores mejoras (por ejemplo, +11% en AIME 2024 y +9% en AIME 2025).
El ajuste fino supervisado (SFT, por sus siglas en inglés) es el método predominante para adaptar modelos de lenguaje de gran escala (LLMs), aunque a menudo enfrenta dificultades en la generalización en comparación con el aprendizaje por refuerzo (RL). En este trabajo, proponemos que esta disparidad en el rendimiento no se debe únicamente a la función de pérdida, sino a una diferencia más fundamental: el SFT aprende de un conjunto de datos fijo y previamente recolectado, mientras que el RL utiliza datos generados bajo la política actual. Basándonos en esta hipótesis, introducimos el algoritmo de ajuste fino llamado "one-token rollout" (OTR), que guía el SFT mediante el método de gradiente de política. OTR reformula el proceso de aprendizaje autoregresivo al tratar la generación de cada token como una trayectoria de aprendizaje por refuerzo de un solo paso. En cada paso, realiza un "rollout" de Monte Carlo muestreando múltiples tokens candidatos de la distribución de la política actual. Luego, el token verdadero de los datos supervisados se utiliza para proporcionar una señal de recompensa a estas muestras. Guiado por el gradiente de política, nuestro algoritmo transforma datos supervisados estáticos y fuera de política en una señal dinámica y bajo política a nivel de token, capturando los beneficios de generalización del aprendizaje bajo política mientras evita el costoso proceso de generación de oraciones completas. A través de experimentos exhaustivos en un conjunto diverso de benchmarks desafiantes que abarcan razonamiento matemático, generación de código y razonamiento en dominios generales, demostramos que OTR supera consistentemente al SFT estándar. Nuestros hallazgos establecen a OTR como una alternativa poderosa y práctica para el ajuste fino de LLMs y proporcionan evidencia convincente de que la naturaleza bajo política de los datos es un factor crítico para la generalización, ofreciendo una nueva dirección prometedora para el ajuste fino de LLMs.
Si bien los Modelos de Lenguaje y Visión de Gran Escala (LVLMs, por sus siglas en inglés) han logrado avances significativos en la comprensión de videos, su aplicación al razonamiento en videos largos se ve limitada por el muestreo uniforme de fotogramas y el razonamiento textual estático, los cuales son ineficientes y presentan dificultades para manejar tareas de video visualmente intensivas. Para superar estos desafíos, en este artículo, introducimos el concepto de pensar con videos largos y proponemos un nuevo marco denominado FrameThinker. Dentro de este marco, los LVLMs son capaces de interrogar iterativamente el contenido del video. Desarrollar tales capacidades de razonamiento en videos en los LVLMs presenta desafíos notables, particularmente en la adaptación del modelo a nuevas acciones de video (por ejemplo, seleccionar fotogramas) y en el diseño de funciones de recompensa para guiar a los LVLMs a adoptar las acciones recién introducidas. Para resolver estos desafíos, proponemos una estrategia de entrenamiento en dos fases: primero, empleamos Ajuste Fino Supervisado (SFT, por sus siglas en inglés) para inculcar capacidades básicas de acción, seguido de Aprendizaje por Refuerzo (RL, por sus siglas en inglés) para optimizar una política de toma de decisiones estratégica. Cabe destacar que, en esta fase de RL, realizamos una exploración profunda y exhaustiva del diseño de recompensas para cada acción y formato de recompensa. Experimentos extensos en benchmarks de razonamiento como Video-Holmes, LongVideo-Reason, y benchmarks de comprensión de videos largos como LongVideoBench, MLVU, VideoMME y LVBench, demuestran que FrameThinker logra una mejora promedio significativa de +10.4% sobre las líneas base, mientras reduce drásticamente el número de fotogramas procesados. Más notablemente, nuestro modelo de 7B, FrameThinker, establece un nuevo estado del arte en LongVideo-Reason, alcanzando un 76.1% de precisión utilizando un promedio de solo 20.6 fotogramas. Esto no solo supera al competitivo LongVILA-R1 (72.0%), sino que lo hace con más de 20 veces menos fotogramas (frente a 512), demostrando una eficiencia y efectividad sin igual.
En la evaluación de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en formato de arena, dos LLMs responden a una consulta del usuario, y este elige la respuesta ganadora o declara el "enfrentamiento" como un empate, lo que resulta en un ajuste de las calificaciones de ambos modelos. El enfoque predominante para modelar estas dinámicas de calificación es considerar los enfrentamientos como partidas de un juego de dos jugadores, como en el ajedrez, y aplicar el sistema de calificación Elo y sus derivados. En este artículo, examinamos críticamente este paradigma. Específicamente, cuestionamos si un empate realmente significa que los dos modelos son iguales y, por lo tanto, si sus calificaciones deberían igualarse. En su lugar, planteamos la hipótesis de que los empates son más indicativos de la dificultad de la consulta: si la consulta es demasiado fácil, es más probable que ambos modelos tengan éxito por igual. En tres conjuntos de datos de arena del mundo real, demostramos que ignorar las actualizaciones de calificación en caso de empate produce un aumento relativo del 1-3% en la precisión de la predicción de los resultados de los enfrentamientos (que incluyen empates) para los cuatro sistemas de calificación estudiados. Análisis adicionales sugieren que los empates ocurren con mayor frecuencia en consultas calificadas como muy fáciles y aquellas altamente objetivas, con razones de riesgo de 1.37 y 1.35, respectivamente. Recomendamos que los futuros sistemas de calificación reconsideren la semántica actual de los empates y tengan en cuenta las propiedades de las consultas en las actualizaciones de calificación.
Los recientes avances en el Post-Entrenamiento por Refuerzo (RPT) han mejorado significativamente las capacidades de los Modelos de Razonamiento a Gran Escala (LRMs), generando un mayor interés en la generalización del razonamiento basado en RL. Si bien el trabajo existente se ha centrado principalmente en investigar su generalización a través de tareas o modalidades, este estudio propone una novedosa perspectiva translingüística para explorar la generalización del razonamiento. Esto plantea una pregunta crucial: ¿La capacidad de razonamiento lograda a través del RPT en inglés se transfiere efectivamente a otros idiomas? Abordamos esta cuestión evaluando sistemáticamente los LRMs centrados en inglés en benchmarks de razonamiento multilingüe e introduciendo una métrica para cuantificar la transferibilidad translingüística. Nuestros hallazgos revelan que la transferibilidad translingüística varía significativamente según el modelo inicial, el idioma objetivo y el paradigma de entrenamiento. A través de estudios de intervención, descubrimos que los modelos con capacidades iniciales más fuertes en inglés tienden a depender en exceso de patrones específicos del inglés, lo que reduce la generalización translingüística. Para abordar esto, realizamos un estudio exhaustivo de entrenamiento paralelo. Los resultados experimentales arrojan tres hallazgos clave: el Primer Salto Paralelo, un avance sustancial en el rendimiento al pasar de un solo idioma a un solo idioma paralelo, y una Ley de Escalado Paralelo predecible, que revela que la transferencia de razonamiento translingüístico sigue una ley de potencia con el número de idiomas paralelos de entrenamiento. Además, identificamos la discrepancia entre el rendimiento monolingüe real y la predicción de la ley de potencia como la Brecha de Generalización Monolingüe, lo que indica que los LRMs centrados en inglés no logran generalizarse completamente entre idiomas. Nuestro estudio desafía la suposición de que el razonamiento de los LRMs refleja la cognición humana, proporcionando insights críticos para el desarrollo de LRMs más agnósticos al idioma.
Los perceptrones multicapa (MLP, por sus siglas en inglés) tradicionalmente siguen un diseño estrecho-ancho-estrecho, donde las conexiones de salto operan en las dimensiones de entrada/salida mientras que el procesamiento ocurre en espacios ocultos expandidos. Desafiamos esta convención al proponer bloques MLP de tipo ancho-estrecho-ancho (Hourglass), donde las conexiones de salto operan en dimensiones expandidas mientras que el flujo residual de cálculo pasa a través de cuellos de botella estrechos. Esta inversión aprovecha espacios de mayor dimensión para el refinamiento incremental mientras mantiene la eficiencia computacional mediante diseños con parámetros equilibrados. La implementación de MLP Hourglass requiere una proyección inicial para elevar las señales de entrada a dimensiones expandidas. Proponemos que esta proyección puede permanecer fija en una inicialización aleatoria durante todo el entrenamiento, permitiendo implementaciones eficientes tanto en entrenamiento como en inferencia. Evaluamos ambas arquitecturas en tareas generativas sobre conjuntos de datos de imágenes populares, caracterizando las fronteras de Pareto de rendimiento-parámetro mediante búsquedas arquitectónicas sistemáticas. Los resultados muestran que las arquitecturas Hourglass logran consistentemente fronteras de Pareto superiores en comparación con los diseños convencionales. A medida que aumenta el presupuesto de parámetros, las configuraciones óptimas de Hourglass favorecen redes más profundas con conexiones de salto más anchas y cuellos de botella más estrechos, un patrón de escalado distinto al de los MLP convencionales. Nuestros hallazgos sugieren reconsiderar la ubicación de las conexiones de salto en arquitecturas modernas, con aplicaciones potenciales que se extienden a Transformers y otras redes residuales.
Los modelos de lenguaje de gran escala (LLMs) ahora tienen un rendimiento sólido en muchas pruebas públicas de matemáticas, aunque la separación en la frontera dentro de las matemáticas sufre cada vez más efectos de techo. Presentamos dos puntos de referencia complementarios: SKYLENAGE-ReasoningMATH, un conjunto diagnóstico de 100 ítems con conciencia estructural y metadatos por ítem sobre longitud, densidad numérica y complejidad simbólica; y SKYLENAGE-MATH, una suite de 150 ítems de estilo concurso que abarca cuatro etapas desde la escuela secundaria hasta el doctorado bajo una taxonomía de siete materias. Evaluamos quince variantes contemporáneas de LLM bajo una configuración única y analizamos el rendimiento por materia x modelo y grado x modelo. En la suite de concurso, el modelo más fuerte alcanza un 44%, mientras que el segundo lugar llega al 37%; la precisión disminuye desde la escuela secundaria hasta el doctorado, y los sistemas líderes muestran una retención de doctorado a secundaria cercana al 79%. En el conjunto de razonamiento, el mejor modelo alcanza un 81% en general, y los resultados de la porción más difícil revelan brechas claras de robustez entre los líderes y el nivel medio. En resumen, publicamos SKYLENAGE-ReasoningMATH y reportamos resultados agregados para SKYLENAGE-MATH; juntos, SKYLENAGE proporciona un punto de referencia matemático difícil, centrado en el razonamiento y de amplia cobertura, con dificultad calibrada y metadatos ricos, sirviendo como un estándar de referencia para futuras evaluaciones del razonamiento matemático.
La Evaluación de la Calidad de Imágenes Médicas (IQA, por sus siglas en inglés) sirve como la primera barrera de seguridad para la inteligencia artificial clínica, pero los enfoques existentes siguen limitados por métricas escalares basadas en puntuaciones y no logran reflejar el proceso de razonamiento descriptivo y similar al humano que es central en la evaluación experta. Para abordar esta brecha, presentamos MedQ-Bench, un punto de referencia integral que establece un paradigma de percepción-razonamiento para la evaluación de la calidad de imágenes médicas basada en lenguaje mediante Modelos de Lenguaje Multimodales de Gran Escala (MLLMs). MedQ-Bench define dos tareas complementarias: (1) MedQ-Perception, que explora la capacidad perceptiva de bajo nivel a través de preguntas curadas por humanos sobre atributos visuales fundamentales; y (2) MedQ-Reasoning, que abarca tareas de razonamiento sin referencia y de comparación, alineando la evaluación del modelo con el razonamiento similar al humano sobre la calidad de la imagen. El punto de referencia abarca cinco modalidades de imagen y más de cuarenta atributos de calidad, totalizando 2,600 consultas perceptivas y 708 evaluaciones de razonamiento, cubriendo diversas fuentes de imágenes, incluyendo adquisiciones clínicas auténticas, imágenes con degradaciones simuladas mediante reconstrucciones basadas en física e imágenes generadas por IA. Para evaluar la capacidad de razonamiento, proponemos un protocolo de evaluación multidimensional que analiza las salidas del modelo a lo largo de cuatro ejes complementarios. Además, realizamos una validación rigurosa de alineación humano-IA comparando el juicio basado en LLM con el de radiólogos. Nuestra evaluación de 14 MLLMs de última generación demuestra que los modelos exhiben habilidades perceptivas y de razonamiento preliminares pero inestables, con una precisión insuficiente para un uso clínico confiable. Estos hallazgos resaltan la necesidad de una optimización dirigida de los MLLMs en la IQA médica. Esperamos que MedQ-Bench catalice una mayor exploración y desbloquee el potencial no aprovechado de los MLLMs para la evaluación de la calidad de imágenes médicas.
Los recuperadores de doble codificador se basan en el principio de que los documentos relevantes deberían obtener puntuaciones más altas que los irrelevantes para una consulta dada. Sin embargo, el objetivo dominante de Estimación de Contraste de Ruido (NCE, por sus siglas en inglés), que sustenta la Pérdida de Contraste, optimiza un sustituto de clasificación suavizado que demostramos rigurosamente que es fundamentalmente indiferente a la calidad de la separación de puntuaciones y no está relacionado con el AUC (Área bajo la Curva ROC). Esta discrepancia conduce a una mala calibración y un rendimiento subóptimo en tareas posteriores como la generación aumentada por recuperación (RAG, por sus siglas en inglés). Para abordar esta limitación fundamental, introducimos la pérdida MW, un nuevo objetivo de entrenamiento que maximiza el estadístico U de Mann-Whitney, que es matemáticamente equivalente al Área bajo la Curva ROC (AUC). La pérdida MW fomenta que cada par positivo-negativo se clasifique correctamente al minimizar la entropía cruzada binaria sobre las diferencias de puntuación. Proporcionamos garantías teóricas de que la pérdida MW acota superiormente directamente el AoC (Área bajo la Curva de Calibración), alineando mejor la optimización con los objetivos de recuperación. Además, promovemos las curvas ROC y el AUC como diagnósticos naturales libres de umbrales para evaluar la calibración y la calidad de clasificación de los recuperadores. Empíricamente, los recuperadores entrenados con la pérdida MW superan consistentemente a sus contrapartes de contraste en AUC y en métricas estándar de recuperación. Nuestros experimentos muestran que la pérdida MW es una alternativa empíricamente superior a la Pérdida de Contraste, produciendo recuperadores mejor calibrados y más discriminativos para aplicaciones de alto impacto como RAG.
La anonimización de textos es esencial para el desarrollo y despliegue responsable de la inteligencia artificial en dominios de alto impacto como la atención médica, los servicios sociales y el ámbito legal. En este trabajo, proponemos una metodología novedosa para la generación sintética de textos que preserva la privacidad, basada en los principios de desidentificación y la teoría de Ocultarse a Simple Vista (HIPS, por sus siglas en inglés). Nuestro enfoque introduce códigos de control conscientes de entidades para guiar la generación controlada utilizando aprendizaje en contexto (ICL, por sus siglas en inglés) o ajuste de prefijos. La variante ICL garantiza niveles de privacidad consistentes con el sistema de desidentificación subyacente, mientras que la variante de ajuste de prefijos incorpora una estrategia de enmascaramiento personalizada y una función de pérdida para respaldar una generación escalable y de alta calidad. Los experimentos realizados en conjuntos de datos legales y clínicos demuestran que nuestro método logra un equilibrio sólido entre la protección de la privacidad y la utilidad, ofreciendo una solución práctica y efectiva para la generación de textos sintéticos en dominios sensibles.
La integración de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) con sistemas de Internet de las Cosas (IoT) enfrenta desafíos significativos en la heterogeneidad del hardware y la complejidad del control. El Protocolo de Contexto del Modelo (MCP, por sus siglas en inglés) surge como un habilitador crítico, proporcionando una comunicación estandarizada entre los LLMs y los dispositivos físicos. Proponemos IoT-MCP, un marco novedoso que implementa MCP a través de servidores desplegados en el borde para conectar los LLMs con los ecosistemas de IoT. Para respaldar una evaluación rigurosa, presentamos IoT-MCP Bench, el primer punto de referencia que contiene 114 Tareas Básicas (por ejemplo, "¿Cuál es la temperatura actual?") y 1,140 Tareas Complejas (por ejemplo, "Me siento muy caliente, ¿tienes alguna idea?") para LLMs habilitados para IoT. La validación experimental en 22 tipos de sensores y 6 unidades de microcontroladores demuestra que IoT-MCP alcanza una tasa de éxito del 100% en la generación de llamadas a herramientas que cumplen completamente con las expectativas y obtienen resultados completamente precisos, un tiempo de respuesta promedio de 205 ms y una huella de memoria máxima de 74 KB. Este trabajo ofrece tanto un marco de integración de código abierto (https://github.com/Duke-CEI-Center/IoT-MCP-Servers) como una metodología de evaluación estandarizada para sistemas LLM-IoT.
A medida que los modelos de lenguaje a gran escala (LLMs) escalan, la pregunta no es solo cuán grandes se vuelven, sino cuánto de su capacidad se utiliza de manera efectiva. Las leyes de escalado existentes relacionan el tamaño del modelo con la pérdida, pero pasan por alto cómo los componentes aprovechan su espacio latente. Estudiamos las redes de alimentación directa (FFNs) y reformulamos la selección de ancho como un problema de utilización espectral. Utilizando un conjunto de diagnóstico ligero —Rango Duro (relación de participación), Rango Suave (rango de Shannon), Concentración Espectral y el índice compuesto de Utilización Espectral (SUI)— cuantificamos cuántas direcciones latentes se activan de manera significativa en las familias de modelos LLaMA, GPT-2 y nGPT. Nuestro hallazgo clave es una ley de escalado espectral asimétrica: el rango suave sigue una ley de potencia casi perfecta con el ancho de la FFN, mientras que el rango duro crece solo de manera sublineal y con alta varianza. Esta asimetría sugiere que ampliar las FFNs principalmente añade direcciones de baja energía en la cola, mientras que los subespacios de modos dominantes se saturan tempranamente. Además, en anchos mayores, la varianza colapsa aún más en un subespacio estrecho, dejando gran parte del espacio latente subutilizado. Estos resultados reformulan la selección del ancho de las FFNs como un equilibrio fundamentado entre la capacidad de la cola y la capacidad de los modos dominantes, ofreciendo una guía concreta para el diseño de LLMs eficientes en inferencia.
La Recuperación de Imágenes Compuestas (CIR, por sus siglas en inglés) tiene como objetivo recuperar imágenes objetivo que preserven el contenido visual de una imagen de referencia mientras incorporan modificaciones textuales especificadas por el usuario. Los enfoques de CIR de cero disparos (ZS-CIR) sin entrenamiento, que no requieren entrenamiento específico para la tarea ni datos etiquetados, son altamente deseables, aunque capturar con precisión la intención del usuario sigue siendo un desafío. En este artículo, presentamos SQUARE, un marco novedoso de dos etapas sin entrenamiento que aprovecha los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs) para mejorar el ZS-CIR. En la etapa de Fusión Aumentada con Consulta Semántica (SQAF, por sus siglas en inglés), enriquecemos la incrustación de la consulta derivada de un modelo de visión y lenguaje (VLM) como CLIP con descripciones generadas por el MLLM de la imagen objetivo. Estas descripciones proporcionan una guía semántica de alto nivel, permitiendo que la consulta capture mejor la intención del usuario y mejore la calidad global de la recuperación. En la etapa de Reordenación Eficiente por Lotes (EBR, por sus siglas en inglés), los candidatos mejor clasificados se presentan como una cuadrícula de imágenes con marcas visuales al MLLM, que realiza un razonamiento visual-semántico conjunto en todos los candidatos. Nuestra estrategia de reordenación opera en una sola pasada y produce clasificaciones más precisas. Los experimentos muestran que SQUARE, con su simplicidad y efectividad, ofrece un rendimiento sólido en cuatro benchmarks estándar de CIR. Notablemente, mantiene un alto rendimiento incluso con modelos preentrenados livianos, demostrando su potencial aplicabilidad.
Los modelos de pensamiento recientes resuelven tareas de razonamiento complejo escalando el cómputo en tiempo de prueba, pero esta escalabilidad debe asignarse en función de la dificultad de la tarea. Por un lado, un razonamiento corto (subpensamiento) conduce a errores en problemas más difíciles que requieren pasos de razonamiento extendidos; pero, un razonamiento excesivamente largo (sobrepensamiento) puede ser ineficiente en términos de tokens, generando pasos innecesarios incluso después de alcanzar una solución intermedia correcta. Nos referimos a esto como subadaptabilidad, donde el modelo no logra modular adecuadamente la longitud de su respuesta ante problemas de diversa dificultad. Para abordar la subadaptabilidad y lograr un equilibrio entre el subpensamiento y el sobrepensamiento, proponemos TRAAC (Think Right with Adaptive, Attentive Compression), un método de aprendizaje por refuerzo (RL) en línea posentrenamiento que aprovecha la autoatención del modelo sobre una trayectoria de razonamiento larga para identificar pasos importantes y eliminar los redundantes. TRAAC también estima la dificultad y la incorpora en las recompensas de entrenamiento, aprendiendo así a asignar un presupuesto de razonamiento proporcional a la dificultad del ejemplo. Nuestro enfoque mejora la precisión, reduce los pasos de razonamiento y permite un pensamiento adaptativo en comparación con los modelos base y otros métodos de RL. En una variedad de tareas (AIME, AMC, GPQA-D, BBEH), TRAAC (Qwen3-4B) logra una ganancia absoluta promedio en precisión del 8.4% con una reducción relativa en la longitud del razonamiento del 36.8% en comparación con el modelo base, y una ganancia en precisión del 7.9% junto con una reducción del 29.4% en la longitud en comparación con el mejor método de RL. TRAAC también muestra una fuerte generalización: aunque nuestros modelos se entrenan en conjuntos de datos matemáticos, muestran mejoras en precisión y eficiencia en conjuntos de datos no matemáticos fuera de distribución, como GPQA-D, BBEH y OptimalThinkingBench. Nuestro análisis verifica además que TRAAC proporciona ajustes detallados al presupuesto de pensamiento basados en la dificultad y que una combinación de calibración de la dificultad de la tarea y compresión basada en atención produce ganancias en diversas tareas.
Diseñar secuencias que satisfagan múltiples objetivos, a menudo conflictivos, es un desafío central en la ingeniería terapéutica y biomolecular. Los marcos generativos existentes operan principalmente en espacios continuos con guía de un solo objetivo, mientras que los enfoques discretos carecen de garantías para la optimalidad de Pareto multiobjetivo. Presentamos AReUReDi (Actualizaciones Rectificadas Reforzadas para Flujos Discretos), un algoritmo de optimización discreta con garantías teóricas de convergencia al frente de Pareto. Basado en Flujos Discretos Rectificados (ReDi), AReUReDi combina la escalarización de Tchebycheff, propuestas localmente balanceadas y actualizaciones reforzadas de Metropolis-Hastings para sesgar el muestreo hacia estados óptimos de Pareto mientras preserva la invariancia distribucional. Aplicado al diseño de secuencias de péptidos y SMILES, AReUReDi optimiza simultáneamente hasta cinco propiedades terapéuticas (incluyendo afinidad, solubilidad, hemólisis, vida media y no ensuciamiento) y supera tanto a los enfoques basados en evolución como a los basados en difusión. Estos resultados establecen a AReUReDi como un marco poderoso basado en secuencias para la generación de biomoléculas con múltiples propiedades.