Artículos de investigación en IA seleccionados diariamente con traducciones
El descubrimiento científico autónomo mediante agentes basados en modelos de lenguaje grandes (LLM) ha experimentado recientes avances sustanciales, demostrando la capacidad de automatizar flujos de trabajo de investigación integrales. Sin embargo, los sistemas existentes se basan principalmente en paradigmas de ejecución centrados en tiempo de ejecución, que leen, resumen y razonan repetidamente sobre grandes volúmenes de literatura científica en línea. Esta estrategia de cálculo inmediato conlleva altos costos computacionales, sufre limitaciones de ventana de contexto y frecuentemente genera razonamientos frágiles y alucinaciones. Proponemos Idea2Story, un marco de descubrimiento científico autónomo impulsado por precómputo que traslada la comprensión de la literatura del razonamiento en línea a la construcción de conocimiento fuera de línea. Idea2Story recopila continuamente artículos revisados por pares junto con sus comentarios de revisión, extrae unidades metodológicas centrales, compone patrones de investigación reutilizables y los organiza en un grafo de conocimiento metodológico estructurado. Durante la ejecución, las intenciones de investigación poco especificadas del usuario se alinean con paradigmas de investigación establecidos, permitiendo la recuperación eficiente y la reutilización de patrones de investigación de alta calidad en lugar de la generación abierta y el método de prueba y error. Al fundamentar la planificación y ejecución de la investigación en un grafo de conocimiento preconstruido, Idea2Story mitiga el cuello de botella de la ventana de contexto de los LLM y reduce sustancialmente el razonamiento repetitivo en tiempo de ejecución sobre la literatura. Realizamos análisis cualitativos y estudios empíricos preliminares que demuestran que Idea2Story puede generar patrones de investigación coherentes, metodológicamente fundamentados y novedosos, y puede producir varias demostraciones de investigación de alta calidad en un entorno integral. Estos resultados sugieren que la construcción de conocimiento fuera de línea proporciona una base práctica y escalable para un descubrimiento científico autónomo confiable.
Los modelos de texto a imagen (T2I) han logrado un éxito notable en la generación de imágenes de alta fidelidad, pero a menudo fallan al manejar relaciones espaciales complejas, como la percepción, el razonamiento o la interacción espacial. Estos aspectos críticos son ampliamente ignorados por los puntos de referencia actuales debido a su diseño de instrucciones cortas o con escasa información. En este artículo, presentamos SpatialGenEval, un nuevo punto de referencia diseñado para evaluar sistemáticamente la inteligencia espacial de los modelos T2I, abarcando dos aspectos clave: (1) SpatialGenEval incluye 1.230 instrucciones largas y densas en información a través de 25 escenas del mundo real. Cada instrucción integra 10 subdominios espaciales y sus correspondientes 10 pares de preguntas-respuestas de opción múltiple, que abarcan desde la posición y disposición de objetos hasta la oclusión y la causalidad. Nuestra evaluación exhaustiva de 21 modelos de vanguardia revela que el razonamiento espacial de orden superior sigue siendo un cuello de botella principal. (2) Para demostrar que la utilidad de nuestro diseño denso en información va más allá de una simple evaluación, también construimos el conjunto de datos SpatialT2I. Este contiene 15.400 pares de texto-imagen con instrucciones reescritas para garantizar la coherencia de la imagen preservando la densidad de información. Los resultados de ajuste fino en modelos base actuales (es decir, Stable Diffusion-XL, Uniworld-V1, OmniGen2) producen ganancias de rendimiento consistentes (+4.2%, +5.7%, +4.4%) y efectos más realistas en las relaciones espaciales, destacando un paradigma centrado en los datos para lograr inteligencia espacial en los modelos T2I.
Si bien las arquitecturas Mixture-of-Experts (MoE) se han convertido en el estándar para el escalado de dispersión en modelos de lenguaje grandes, enfrentan cada vez más rendimientos decrecientes y cuellos de botella a nivel de sistema. En este trabajo, exploramos el escalado de *embeddings* como una dimensión potente y ortogonal para escalar la dispersión. Mediante un análisis exhaustivo y experimentos, identificamos regímenes específicos donde el escalado de *embeddings* logra un frente de Pareto superior en comparación con el escalado de expertos. Caracterizamos sistemáticamente los factores arquitectónicos críticos que gobiernan esta eficacia, desde la distribución de parámetros hasta la interacción con la amplitud y profundidad del modelo. Además, al integrar optimizaciones de sistema específicas y decodificación especulativa, convertimos eficazmente esta dispersión en aceleraciones tangibles de la inferencia. Guiados por estas ideas, presentamos LongCat-Flash-Lite, un modelo de 68.500 millones de parámetros con ~3.000 millones activados, entrenado desde cero. A pesar de asignar más de 30.000 millones de parámetros a los *embeddings*, LongCat-Flash-Lite no solo supera a líneas base MoE equivalentes en parámetros, sino que también exhibe una competitividad excepcional frente a modelos existentes de escala comparable, particularmente en dominios agentivos y de codificación.
La manipulación de objetos dinámicos sigue siendo un desafío abierto para los modelos Visión-Lenguaje-Acción (VLA), los cuales, a pesar de su fuerte generalización en manipulación estática, presentan dificultades en escenarios dinámicos que requieren percepción rápida, anticipación temporal y control continuo. Presentamos DynamicVLA, un marco para la manipulación de objetos dinámicos que integra razonamiento temporal y adaptación en lazo cerrado mediante tres diseños clave: 1) un VLA compacto de 0.4B que utiliza un codificador visual convolucional para una codificación espacialmente eficiente y estructuralmente fiel, permitiendo una inferencia multimodal rápida; 2) Inferencia Continua, que permite el solapamiento de razonamiento y ejecución para una menor latencia y una adaptación oportuna al movimiento del objeto; y 3) Transmisión de Acciones con Conciencia del Espacio Latente, que salva la brecha percepción-ejecución al imponer una ejecución de acciones temporalmente alineada. Para suplir la falta de datos fundamentales sobre manipulación dinámica, introducimos el benchmark de Manipulación de Objetos Dinámicos (DOM), construido desde cero con un pipeline de recolección automática de datos que recopila eficientemente 200K episodios sintéticos en 2.8K escenas y 206 objetos, y permite la recolección rápida de 2K episodios del mundo real sin teleoperación. Evaluaciones exhaustivas demuestran mejoras notables en velocidad de respuesta, percepción y generalización, posicionando a DynamicVLA como un marco unificado para la manipulación general de objetos dinámicos a través de diferentes implementaciones.
El desarrollo de grandes modelos de lenguaje visual impulsa la demanda de gestionar y aplicar cantidades masivas de datos multimodales, haciendo que la tecnología OCR, que extrae información de imágenes visuales, sea cada vez más popular. Sin embargo, los métodos OCR existentes se centran principalmente en reconocer elementos textuales a partir de imágenes o documentos escaneados (OCR centrado en texto), descuidando la identificación de elementos visuales a partir de fuentes de imágenes visualmente ricas en información (OCR centrado en visión), como gráficos, páginas web y diagramas científicos. En la realidad, estas imágenes visualmente densas en información están muy extendidas en internet y tienen un valor de aplicación significativo en el mundo real, como la visualización de datos y el análisis de páginas web. En este informe técnico, proponemos OCRVerse, el primer método OCR holístico de extremo a extremo que permite unificar el OCR centrado en texto y el OCR centrado en visión. Para ello, construimos una ingeniería de datos integral para cubrir una amplia gama de documentos centrados en texto, como periódicos, revistas y libros, así como composiciones renderizadas centradas en la visión, incluyendo gráficos, páginas web y diagramas científicos. Además, proponemos un método de entrenamiento multidominio SFT-RL de dos etapas para OCRVerse. SFT mezcla directamente datos de múltiples dominios para entrenar y establecer conocimiento inicial del dominio, mientras que RL se centra en diseñar estrategias de recompensa personalizadas para las características de cada dominio. Específicamente, dado que diferentes dominios requieren varios formatos de salida y resultados esperados, proporcionamos suficiente flexibilidad en la etapa de RL para personalizar señales de recompensa flexibles para cada dominio, mejorando así la fusión multidominio y evitando conflictos de datos. Los resultados experimentales demuestran la efectividad de OCRVerse, logrando resultados competitivos en tipos de datos centrados en texto y visión, incluso comparables a modelos de código abierto y cerrado a gran escala.
Los recientes avances en los Modelos de Lenguaje Visual (VLMs) han impulsado un progreso significativo en el razonamiento visual. Sin embargo, los VLMs de código abierto aún están por detrás de los sistemas propietarios, en gran medida debido a la falta de datos de razonamiento de alta calidad. Los conjuntos de datos existentes ofrecen una cobertura limitada de dominios desafiantes, como los diagramas STEM y los acertijos visuales, y carecen de anotaciones consistentes y extensas de Cadena de Pensamiento (CoT), esenciales para desarrollar capacidades de razonamiento sólidas. Para cerrar esta brecha, presentamos MMFineReason, un conjunto de datos de razonamiento multimodal a gran escala que comprende 1,8 millones de muestras y 5.100 millones de tokens de solución, con anotaciones de razonamiento de alta calidad destiladas desde Qwen3-VL-235B-A22B-Thinking. El conjunto de datos se estableció mediante un pipeline sistemático de tres etapas: (1) recolección y estandarización de datos a gran escala, (2) generación de racionales CoT, y (3) selección exhaustiva basada en la calidad del razonamiento y la conciencia de la dificultad. El conjunto de datos resultante abarca problemas STEM, acertijos visuales, juegos y diagramas complejos, y cada muestra está anotada con trazas de razonamiento visualmente fundamentadas. Ajustamos Qwen3-VL-Instruct en MMFineReason para desarrollar las versiones MMFineReason-2B/4B/8B. Nuestros modelos establecen nuevos resultados de vanguardia para su clase de tamaño. Notablemente, MMFineReason-4B supera con éxito a Qwen3-VL-8B-Thinking, y MMFineReason-8B incluso supera a Qwen3-VL-30B-A3B-Thinking mientras se acerca al rendimiento de Qwen3-VL-32B-Thinking, demostrando una notable eficiencia de parámetros. Crucialmente, descubrimos un fenómeno de "menos es más" mediante nuestra estrategia de filtrado consciente de la dificultad: un subconjunto de solo el 7% (123.000 muestras) logra un rendimiento comparable al del conjunto de datos completo. Es notable que revelamos un efecto sinérgico donde la composición de datos orientada al razonamiento impulsa simultáneamente las capacidades generales.
Los modelos de lenguaje grandes asignan un cómputo uniforme a todos los tokens, ignorando que algunas secuencias son trivialmente predecibles mientras que otras requieren un razonamiento profundo. Presentamos ConceptMoE, que fusiona dinámicamente tokens semánticamente similares en representaciones conceptuales, realizando una asignación implícita de cómputo a nivel de token. Un módulo de segmentación entrenable identifica los límites óptimos midiendo la similitud inter-token, comprimiendo las secuencias por una razón objetivo R antes de que entren al modelo conceptual intensivo en cómputo. Crucialmente, la arquitectura MoE permite una evaluación controlada: reasignamos el cómputo ahorrado para igualar los FLOPS activados de la línea base (excluyendo el cálculo del mapa de atención) y el total de parámetros, aislando así los beneficios arquitectónicos genuinos. Bajo estas condiciones, ConceptMoE supera consistentemente al MoE estándar en tareas de lenguaje y visión-lenguaje, logrando +0.9 puntos en preentrenamiento de lenguaje, +2.3 puntos en comprensión de contexto largo y +0.6 puntos en benchmarks multimodales. Al convertir modelos MoE preentrenados durante el entrenamiento continuo con bucle de capas, las ganancias alcanzan +5.5 puntos, demostrando aplicabilidad práctica. Más allá del rendimiento, ConceptMoE reduce el cómputo de atención hasta R^2 veces y la caché KV en R veces. Con R=2, mediciones empíricas muestran aceleraciones en prellenado de hasta 175% y aceleraciones en decodificación de hasta 117% en secuencias largas. Las modificaciones arquitectónicas mínimas permiten una integración directa en MoE existentes, demostrando que el procesamiento adaptativo a nivel conceptual mejora fundamentalmente tanto la efectividad como la eficiencia de los modelos de lenguaje grandes.
La reconstrucción en tiempo real a partir de secuencias de imágenes monoculares sigue siendo un desafío, ya que los métodos existentes suelen favorecer ya sea la renderización de alta calidad o la geometría precisa, pero rara vez ambas. Presentamos PLANING, un marco de reconstrucción eficiente sobre la marcha basado en una representación híbrida que acopla de forma flexible primitivas geométricas explícitas con gaussianas neuronales, permitiendo modelar la geometría y la apariencia de manera desacoplada. Este desacoplamiento permite una estrategia de inicialización y optimización en línea que separa las actualizaciones de geometría y apariencia, produciendo una reconstrucción en streaming estable con una redundancia estructural sustancialmente reducida. PLANING mejora la métrica Chamfer-L2 de malla densa en un 18.52% respecto a PGSR, supera a ARTDECO en 1.31 dB de PSNR, y reconstruye escenas de ScanNetV2 en menos de 100 segundos, más de 5 veces más rápido que 2D Gaussian Splatting, igualando la calidad de la optimización offline por escena. Más allá de la calidad de reconstrucción, la claridad estructural y la eficiencia computacional de PLANING lo hacen idóneo para una amplia gama de aplicaciones posteriores, como el modelado de escenas a gran escala y la creación de entornos listos para simulación para IA corporizada. Página del proyecto: https://city-super.github.io/PLANING/.
En este informe presentamos la familia Qwen3-ASR, que incluye dos potentes modelos integrales de reconocimiento de voz y un novedoso modelo no autoregresivo de alineación forzada de voz. Qwen3-ASR-1.7B y Qwen3-ASR-0.6B son modelos de ASR que admiten identificación de idioma y reconocimiento de voz para 52 idiomas y dialectos. Ambos aprovechan datos de entrenamiento de voz a gran escala y la sólida capacidad de comprensión auditiva de su modelo base Qwen3-Omni. Realizamos una evaluación interna exhaustiva además de los benchmarks de código abierto, ya que los modelos de ASR pueden diferir poco en las puntuaciones de benchmarks públicos pero mostrar diferencias significativas de calidad en escenarios reales. Los experimentos revelan que la versión de 1.7B logra un rendimiento SOTA entre los modelos de ASR de código abierto y es competitiva con las API propietarias más potentes, mientras que la versión de 0.6B ofrece el mejor equilibrio entre precisión y eficiencia. Qwen3-ASR-0.6B puede alcanzar un TTFT promedio tan bajo como 92ms y transcribir 2000 segundos de audio en 1 segundo con una concurrencia de 128. Qwen3-ForcedAligner-0.6B es un predictor de marcas temporales NAR basado en LLM capaz de alinear pares texto-voz en 11 idiomas. Los experimentos de precisión temporal demuestran que el modelo propuesto supera a los tres modelos de alineación forzada más potentes y presenta mayores ventajas en eficiencia y versatilidad. Para acelerar aún más la investigación comunitaria en ASR y comprensión auditiva, publicamos estos modelos bajo licencia Apache 2.0.
La evolución de los Modelos de Lenguaje a Gran Escala (LLMs) hacia agentes autónomos requiere la gestión de contextos extensos y dinámicos. Sin embargo, los puntos de referencia actuales siguen siendo mayoritariamente estáticos, basándose en tareas de recuperación pasiva que no simulan las complejidades de la interacción agente-entorno, como el razonamiento no lineal y la retroalimentación iterativa. Para abordar esto, presentamos AgentLongBench, que evalúa a los agentes mediante simulaciones de entorno basadas en Acertijos de Pensamiento Lateral. Este marco genera trayectorias de interacción rigurosas en escenarios intensivos en conocimiento y libres de conocimiento. Los experimentos con modelos y sistemas de memoria de última generación (de 32K a 4M de tokens) revelan una debilidad crítica: aunque son hábiles en la recuperación estática, los agentes tienen dificultades con la síntesis dinámica de información esencial para los flujos de trabajo. Nuestro análisis indica que esta degradación está impulsada por el número mínimo de tokens necesarios para resolver una consulta. Este factor explica por qué la alta densidad de información inherente a las respuestas masivas de herramientas representa un desafío significativamente mayor que la fragmentación de memoria típica de los diálogos largos.
El Aprendizaje por Refuerzo Agéntico (Agentic RL) ha logrado un éxito notable al permitir que los agentes realicen razonamientos complejos y uso de herramientas. Sin embargo, la mayoría de los métodos aún dependen de recompensas dispersas basadas en resultados para el entrenamiento. Esta retroalimentación no logra diferenciar la calidad del razonamiento intermedio, lo que conduce a resultados de entrenamiento subóptimos. En este artículo, presentamos el Modelo de Recompensa de Razonamiento del Agente (Agent-RRM), un modelo de recompensa multifacético que genera retroalimentación estructurada para trayectorias agénticas, incluyendo: (1) una traza de razonamiento explícita, (2) una crítica focalizada que proporciona orientación para refinamiento resaltando fallos en el razonamiento, y (3) una puntuación global que evalúa el desempeño del proceso. Aprovechando estas señales, investigamos sistemáticamente tres estrategias de integración: Reagent-C (refinamiento aumentado por texto), Reagent-R (guía aumentada por recompensa) y Reagent-U (integración unificada de retroalimentación). Evaluaciones exhaustivas en 12 benchmarks diversos demuestran que Reagent-U produce mejoras sustanciales en el rendimiento, alcanzando un 43.7% en GAIA y un 46.2% en WebWalkerQA, validando la efectividad de nuestro modelo de recompensa de razonamiento y esquemas de entrenamiento. El código, los modelos y los conjuntos de datos se han liberado para facilitar futuras investigaciones.
Las investigaciones recientes en generación de vídeos de larga duración han transitado de modelos bidireccionales a autoregresivos, aunque estos métodos suelen adolecer de acumulación de errores y pérdida de coherencia a largo plazo. Si bien se han introducido fotogramas de anclaje de atención para mitigar esta degradación del rendimiento, estos a menudo inducen un modo de fallo crítico que denominamos colapso por anclaje: el contenido generado revierte repetidamente al fotograma de anclaje, resultando en reinicios abruptos de escena y patrones de movimiento cíclicos. Nuestro análisis revela que el colapso por anclaje se origina en un conflicto inherente entre la estructura periódica del Codificador Posicional Rotatorio (RoPE) y los mecanismos de atención multi-cabezal prevalentes en los modelos generativos actuales. Para abordarlo, proponemos un enfoque ligero, sin necesidad de entrenamiento, que suprime efectivamente este comportamiento mediante la introducción de una variabilidad multi-cabezal en RoPE que rompe la homogeneización de la atención entre cabezales y mitiga el colapso en horizontes largos. Experimentos exhaustivos demuestran que nuestro método alivia exitosamente el colapso por anclaje mientras preserva la calidad de la generación. Hasta donde sabemos, este trabajo logra la primera demostración de generación de vídeo en tiempo real, continuo y de longitud infinita con mínima degradación de calidad. Como ilustración de esta robustez, generamos vídeos continuos de hasta 12 horas de duración, lo que, según nuestro conocimiento, se encuentra entre los resultados más extensos demostrados públicamente en generación de vídeo continuo.
Los modelos fundacionales de electroencefalografía (EEG) han surgido recientemente como un paradigma prometedor para las interfaces cerebro-computadora (BCI), con el objetivo de aprender representaciones neurales transferibles a partir de grabaciones heterogéneas a gran escala. A pesar de los rápidos avances, faltan comparaciones justas y exhaustivas de los modelos fundacionales de EEG existentes, debido a objetivos de preentrenamiento inconsistentes, elecciones de preprocesamiento y protocolos de evaluación posteriores. Este artículo llena ese vacío. Primero, revisamos 50 modelos representativos y organizamos sus opciones de diseño en un marco taxonómico unificado que incluye estandarización de datos, arquitecturas de modelos y estrategias de preentrenamiento auto-supervisado. Luego, evaluamos 12 modelos fundacionales de código abierto y líneas de base especializadas competitivas en 13 conjuntos de datos de EEG que abarcan nueve paradigmas de BCI. Haciendo hincapié en los despliegues del mundo real, consideramos tanto la generalización cruzada entre sujetos bajo un protocolo de dejar-uno-fuera como la calibración rápida en un entorno de pocos ejemplos dentro del sujeto. Además, comparamos el ajuste fino de parámetros completos con el sondeo lineal para evaluar la transferibilidad de las representaciones preentrenadas y examinamos la relación entre la escala del modelo y el rendimiento posterior. Nuestros resultados indican que: 1) el sondeo lineal frecuentemente es insuficiente; 2) los modelos especialistas entrenados desde cero siguen siendo competitivos en muchas tareas; y 3) los modelos fundacionales más grandes no necesariamente producen un mejor rendimiento de generalización bajo los regímenes de datos y las prácticas de entrenamiento actuales.
Si bien los Modelos de Lenguaje a Gran Escala (LLMs) sobresalen en tareas agentivas basadas en lenguaje, su aplicabilidad a entornos no lingüísticos no vistos (por ejemplo, tareas simbólicas o espaciales) sigue siendo limitada. Trabajos previos atribuyen esta brecha de rendimiento al desajuste entre la distribución de pre-entrenamiento y la distribución de prueba. En este trabajo, demostramos que el cuello de botella principal es el costo prohibitivo de la exploración: dominar estas tareas requiere un extenso proceso de prueba y error, lo cual es computacionalmente insostenible para LLMs con gran cantidad de parámetros que operan en un espacio semántico de alta dimensión. Para abordar este problema, proponemos SCOUT (Colaboración a Sub-Escala en Tareas No Vistas), un marco novedoso que desacopla la exploración de la explotación. Empleamos "exploradores" ligeros (por ejemplo, MLPs pequeños) para sondear la dinámica del entorno a una velocidad y escala muy superiores a la de los LLMs. Las trayectorias recopiladas se utilizan para impulsar al LLM mediante Fine-Tuning Supervisado (SFT), seguido de Aprendizaje por Refuerzo (RL) multi-turno para activar su conocimiento latente del mundo. Empíricamente, SCOUT permite que un modelo Qwen2.5-3B-Instruct logre una puntuación promedio de 0.86, superando significativamente a modelos propietarios, incluido Gemini-2.5-Pro (0.60), mientras ahorra aproximadamente un 60% del consumo de horas de GPU.
Los repositorios públicos albergan millones de modelos ajustados, pero el uso comunitario sigue concentrándose de manera desproporcionada en un pequeño número de puntos de control fundamentales. Investigamos si esta concentración refleja una selección eficiente del mercado o si se pasan por alto sistemáticamente modelos superiores. Mediante una evaluación exhaustiva de más de 2.000 modelos, demostramos la prevalencia de "joyas ocultas": ajustes finos impopulares que superan significativamente a sus contrapartes populares. Notablemente, dentro de la familia Llama-3.1-8B, encontramos puntos de control poco descargados que mejoran el rendimiento en matemáticas del 83.2% al 96.0% sin aumentar los costos de inferencia. Sin embargo, descubrir estos modelos mediante la evaluación exhaustiva de cada modelo subido es computacionalmente inviable. Por lo tanto, formulamos el descubrimiento de modelos como un problema de Bandido Multibrazo y aceleramos el algoritmo de búsqueda de Mitificación Secuencial utilizando conjuntos de consultas compartidos y calendarios de eliminación agresivos. Nuestro método recupera los mejores modelos con tan solo 50 consultas por candidato, acelerando el descubrimiento en más de 50 veces.
Los enfoques actuales para reducir capacidades no deseadas en modelos de lenguaje son en gran medida *post hoc* y, por lo tanto, pueden ser fácilmente eludidos por adversarios. Una alternativa natural es moldear las capacidades durante la propia fase de preentrenamiento. En la tarea proxy de eliminar capacidades médicas, demostramos que la simple intervención de filtrar los datos de preentrenamiento es altamente efectiva, robusta y económica a escala. Inspirados por trabajos sobre atribución de datos, mostramos que filtrar tokens es más efectivo que filtrar documentos, logrando el mismo impacto en las capacidades no deseadas a un menor coste para las capacidades benignas. Entrenando modelos que abarcan dos órdenes de magnitud, demostramos luego que el filtrado se vuelve más efectivo con la escala: para nuestros modelos más grandes, el filtrado de tokens provoca una ralentización computacional de 7000x en el dominio a olvidar. También mostramos que los modelos entrenados con filtrado de tokens aún pueden ser alineados en el dominio a olvidar. En el proceso, introducimos una metodología para etiquetar tokens usando autocodificadores dispersos y destilando clasificadores baratos y de alta calidad. También demostramos que el filtrado puede ser robusto frente a etiquetas ruidosas con suficiente capacidad computacional de preentrenamiento.
El aprendizaje a partir de retroalimentación humana normalmente se basa en la optimización de preferencias que restringe las actualizaciones de la política mediante una regularización a nivel de token. Sin embargo, la optimización de preferencias para modelos de lenguaje es particularmente desafiante porque la similitud en el espacio de tokens no implica similitud semántica o conductual. Para abordar este desafío, aprovechamos la regularización en el espacio latente para la optimización de preferencias de modelos de lenguaje. Introducimos GANPO, que logra la regularización en el espacio latente penalizando la divergencia entre las representaciones internas de un modelo de política y un modelo de referencia. Dado que las representaciones latentes no están asociadas con densidades de probabilidad explícitas, adoptamos un enfoque adversarial inspirado en las GAN para minimizar la divergencia en el espacio latente. Integramos GANPO como un regularizador en los objetivos existentes de optimización de preferencias fuera de línea. Los experimentos en múltiples arquitecturas de modelos y tareas muestran mejoras consistentes gracias a la regularización en el espacio latente. Además, al comparar los sesgos inferenciales inducidos por GANPO con aquellos de la regularización a nivel de token, encontramos que GANPO proporciona una retroalimentación estructural más robusta bajo cambios de distribución y ruido, mientras mantiene un rendimiento comparable en tareas posteriores con una sobrecarga computacional menor.
El post-entrenamiento por aprendizaje por refuerzo (RL) es un enfoque dominante para mejorar el rendimiento en razonamiento de los grandes modelos de lenguaje (LLMs); sin embargo, la creciente evidencia sugiere que sus mejoras surgen principalmente de un afilado de la distribución más que de la adquisición de nuevas capacidades. Trabajos recientes han demostrado que muestrear de la distribución de potencia de los LLMs utilizando cadenas de Markov Monte Carlo (MCMC) puede recuperar un rendimiento comparable al del post-entrenamiento con RL sin depender de recompensas externas; no obstante, el alto coste computacional de MCMC hace que dichos enfoques sean poco prácticos para una adopción generalizada. En este trabajo, proponemos una alternativa con bases teóricas que elimina la necesidad del MCMC iterativo. Derivamos una nueva formulación que muestra que la distribución de potencia global puede aproximarse mediante una distribución a nivel de token, escalada y de baja temperatura, donde el factor de escala captura la calidad de la trayectoria futura. Aprovechando esta idea, presentamos un algoritmo libre de entrenamiento y de verificador que afila la distribución generativa del modelo base de forma autoregresiva. Empíricamente, evaluamos nuestro método en tareas de matemáticas, preguntas y respuestas (QA) y código en cuatro LLMs, y demostramos que nuestro método iguala o supera al GRPO de un solo intento sin depender de recompensas externas, al tiempo que reduce la latencia de inferencia en más de 10 veces en comparación con el muestreo basado en MCMC.
Los modelos de lenguaje grandes (LLM) han progresado rápidamente; sin embargo, la mayoría de los modelos de última generación se entrenan y evalúan principalmente en idiomas de altos recursos como el inglés y el chino, y a menudo son desarrollados por un pequeño número de organizaciones con acceso a computación y datos a gran escala. Esta restricción crea una barrera práctica para entornos soberanos, en los que una institución a escala regional o nacional o un propietario de dominio debe mantener el control y la comprensión de los pesos del modelo, los datos de entrenamiento y el despliegue, mientras opera con recursos limitados y estrictas restricciones de transparencia. Con este fin, identificamos dos requisitos fundamentales: (1) la adoptabilidad, la capacidad de transformar un modelo base en un asistente de propósito general, y (2) la capacidad soberana, la habilidad de realizar tareas de alto impacto y específicas de la región (por ejemplo, razonamiento legal en idiomas locales y conocimiento cultural). Investigamos si estos requisitos pueden lograrse sin escalar corpus de instrucciones masivos ni depender de complejos pipelines de ajuste de preferencias y de ajuste fino por refuerzo (RFT) a gran escala. Presentamos Typhoon S, una receta de post-entrenamiento mínima y abierta que combina ajuste fino supervisado, destilación en-política y RFT a pequeña escala. Utilizando el tailandés como caso de estudio representativo, demostramos que nuestro enfoque transforma tanto los modelos base adaptados a la soberanía como los de propósito general en modelos ajustados por instrucciones con un sólido rendimiento general. Además, mostramos que el RFT a pequeña escala con InK-GRPO —una extensión de GRPO que aumenta la pérdida de GRPO con una pérdida de predicción de la siguiente palabra— mejora el razonamiento legal en tailandés y el conocimiento específico de Tailandia, preservando al mismo tiempo las capacidades generales. Nuestros resultados sugieren que una estrategia de post-entrenamiento cuidadosamente diseñada puede reducir la escala requerida de datos de instrucción y computación, proporcionando un camino práctico hacia LLM soberanos de alta calidad bajo recursos de escala académica.
Presentamos Foundation-Sec-8B-Reasoning, el primer modelo de razonamiento nativo de código abierto para ciberseguridad. Construido sobre nuestro modelo base Foundation-Sec-8B previamente publicado (derivado de Llama-3.1-8B-Base), el modelo se entrena mediante un proceso de dos etapas que combina el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo a partir de recompensas verificables (RLVR). Nuestro entrenamiento aprovecha datos de razonamiento propietarios que abarcan análisis de ciberseguridad, seguimiento de instrucciones y razonamiento matemático. La evaluación en 10 puntos de referencia de ciberseguridad y 10 puntos de referencia de propósito general demuestra un rendimiento competitivo con modelos significativamente más grandes en tareas de ciberseguridad, manteniendo al mismo tiempo sólidas capacidades generales. El modelo muestra una generalización efectiva en tareas de razonamiento de múltiples pasos y un fuerte rendimiento en seguridad cuando se despliega con indicaciones de sistema y barreras de protección apropiadas. Este trabajo demuestra que los modelos de razonamiento especializados en un dominio pueden lograr un alto rendimiento en tareas especializadas manteniendo amplias capacidades generales. Publicamos el modelo en https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning.
El razonamiento de contexto largo ha potenciado significativamente a los modelos de lenguaje grande (LLM) para abordar tareas complejas, pero introduce graves cuellos de botella en la eficiencia debido a la complejidad computacional. Los enfoques eficientes existentes a menudo dependen de entrenamientos adicionales complejos o de modelos externos para la compresión, lo que limita la escalabilidad y descarta información crítica de grano fino. En este artículo, proponemos VTC-R1, un nuevo paradigma de razonamiento eficiente que integra la compresión visión-texto en el proceso de razonamiento. En lugar de procesar largas trazas textuales, VTC-R1 convierte los segmentos intermedios de razonamiento en imágenes compactas, que se retroalimentan iterativamente en modelos de visión y lenguaje como "memoria óptica". Construimos un conjunto de datos de entrenamiento basado en OpenR1-Math-220K, logrando una compresión de tokens de 3.4x, y ajustamos modelos VLM representativos: Glyph y Qwen3-VL. Experimentos exhaustivos en benchmarks como MATH500, AIME25, AMC23 y GPQA-D demuestran que VTC-R1 supera consistentemente al razonamiento estándar de contexto largo. Además, nuestro enfoque mejora significativamente la eficiencia de la inferencia, logrando una aceleración de 2.7x en la latencia de extremo a extremo, lo que resalta su potencial como una solución escalable para aplicaciones intensivas en razonamiento. Nuestro código está disponible en https://github.com/w-yibo/VTC-R1.
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) sufren de alucinaciones cruzadas entre modalidades, donde una modalidad influye inapropiadamente en la generación de contenido sobre otra, lo que conduce a resultados fabricados. Esto expone una deficiencia más fundamental en el control de la interacción entre modalidades. Para abordar este problema, proponemos Decodificación Adaptativa a la Modalidad (MAD), un método que no requiere entrenamiento y que pondera de forma adaptativa las ramas de decodificación específicas de cada modalidad según los requisitos de la tarea. MAD aprovecha la capacidad inherente del modelo para autoevaluar la relevancia de las modalidades consultando qué modalidades son necesarias para cada tarea. Las probabilidades de modalidad extraídas se utilizan luego para ponderar de forma adaptativa las ramas de decodificación contrastiva, permitiendo que el modelo se centre en la información relevante mientras suprime la interferencia cruzada entre modalidades. Experimentos exhaustivos en CMM y AVHBench demuestran que MAD reduce significativamente las alucinaciones cruzadas entre modalidades en múltiples modelos de lenguaje audiovisual (mejoras del 7.8% y 2.0% para VideoLLaMA2-AV, y del 8.7% y 4.7% para Qwen2.5-Omni). Nuestro enfoque demuestra que la conciencia explícita de la modalidad a través de la autoevaluación es crucial para un razonamiento multimodal robusto, ofreciendo una extensión fundamentada a los métodos existentes de decodificación contrastiva. Nuestro código está disponible en https://github.com/top-yun/MAD.
Los modelos modernos de difusión/flujo para generación de imágenes suelen presentar dos características principales: (i) utilizan un muestreo multi-etapa, y (ii) operan en un espacio latente. Los avances recientes han logrado un progreso alentador en cada aspecto por separado, allanando el camino hacia la difusión/flujo en una sola etapa sin espacios latentes. En este trabajo, damos un paso más hacia este objetivo y proponemos "pixel MeanFlow" (pMF). Nuestra directriz principal es formular el espacio de salida de la red y el espacio de pérdida por separado. El objetivo de la red está diseñado para situarse en una variedad de imagen de baja dimensión presunta (es decir, predicción-x), mientras que la pérdida se define mediante MeanFlow en el espacio de velocidad. Introducimos una transformación simple entre la variedad de imagen y el campo de velocidad promedio. En los experimentos, pMF logra resultados sólidos para la generación en una sola etapa sin latentes en ImageNet con resolución 256x256 (FID 2.22) y resolución 512x512 (FID 2.48), completando una pieza clave faltante en este régimen. Esperamos que nuestro estudio impulse aún más los límites de los modelos generativos basados en difusión/flujo.
Garantizar la seguridad, veracidad y calidad general en las generaciones de modelos de lenguaje grandes es un desafío crítico, especialmente a medida que estos modelos se despliegan cada vez más en aplicaciones del mundo real. El enfoque predominante para abordar estos problemas implica recopilar conjuntos de datos costosos y cuidadosamente seleccionados, y aplicar múltiples etapas de ajuste fino y alineación. Sin embargo, incluso esta compleja cadena de procesos no puede garantizar la corrección de patrones aprendidos durante el preentrenamiento. Por lo tanto, abordar estos problemas durante el preentrenamiento es crucial, ya que da forma a los comportamientos centrales de un modelo y evita que las salidas inseguras o alucinadas queden profundamente arraigadas. Para abordar este problema, presentamos un nuevo método de preentrenamiento que procesa documentos en flujo y utiliza aprendizaje por refuerzo (RL) para mejorar los próximos K tokens generados en cada paso. Un modelo sólido, ya entrenado, evalúa las generaciones candidatas —incluyendo desarrollos del modelo, el sufijo original y un sufijo reescrito— en cuanto a calidad, seguridad y veracidad. Al inicio del entrenamiento, el proceso se basa en los sufijos originales y reescritos; a medida que el modelo mejora, el RL premia los desarrollos de alta calidad. Este enfoque construye modelos de mayor calidad, más seguros y veraces desde la base. En experimentos, nuestro método logra mejoras relativas del 36.2% y 18.5% respecto al preentrenamiento estándar en términos de veracidad y seguridad, y mejoras en la tasa de acierto de hasta el 86.3% en la calidad general de la generación.
Presentamos DeepSearchQA, un benchmark de 900 prompts para evaluar agentes en tareas complejas de búsqueda de información de múltiples pasos a través de 17 campos diferentes. A diferencia de los benchmarks tradicionales que se centran en la recuperación de respuestas únicas o en la factualidad de amplio espectro, DeepSearchQA presenta un conjunto de datos de tareas desafiantes y elaboradas manualmente, diseñadas para evaluar la capacidad de un agente para ejecutar planes de búsqueda complejos y generar listas de respuestas exhaustivas. Este cambio de diseño evalúa explícitamente tres capacidades críticas, pero insuficientemente evaluadas: 1) la recopilación sistemática de información fragmentada procedente de fuentes dispares, 2) la desduplicación y resolución de entidades para garantizar la precisión, y 3) la capacidad de razonar sobre los criterios de parada dentro de un espacio de búsqueda abierto. Cada tarea está estructurada como una cadena causal, donde descubrir la información para un paso depende de la finalización exitosa del anterior, poniendo a prueba la planificación a largo plazo y la retención de contexto. Todas las tareas están basadas en la web abierta con conjuntos de respuestas objetivamente verificables. Nuestra evaluación exhaustiva de las arquitecturas de agentes más avanzadas revela limitaciones significativas de rendimiento: incluso los modelos más avanzados tienen dificultades para equilibrar una alta exhaustividad con la precisión. Observamos modos de fallo distintos, que van desde la parada prematura (sub-recuperación) hasta comportamientos de cobertura, donde los agentes lanzan una red excesivamente amplia de respuestas de baja confianza para aumentar artificialmente la exhaustividad. Estos hallazgos resaltan un margen de mejora crítico en los diseños actuales de agentes y posicionan a DeepSearchQA como una herramienta de diagnóstico esencial para impulsar la investigación futura hacia capacidades de investigación profunda más robustas.
Con el objetivo de lograr un razonamiento de cadena de pensamiento (CoT) eficiente y denso, los métodos de razonamiento latente ajustan modelos de lenguaje grandes (LLMs) para sustituir los tokens lingüísticos discretos por tokens latentes continuos. Estos métodos consumen menos tokens en comparación con el razonamiento CoT lingüístico convencional y tienen el potencial de planificar en un espacio latente denso. Sin embargo, los tokens latentes actuales generalmente se supervisan basándose en la imitación de etiquetas lingüísticas. Considerando que puede haber múltiples etiquetas CoT equivalentes pero diversas para una pregunta, imitar pasivamente una arbitraria puede dar lugar a representaciones subóptimas de los tokens latentes y a políticas de razonamiento latente deficientes, lo que socava la capacidad de planificación potencial y resulta en brechas claras entre el entrenamiento y la prueba. En este trabajo, enfatizamos la importancia de una planificación activa sobre el espacio de representación de los tokens latentes para alcanzar la política de razonamiento latente óptima. Por lo tanto, proponemos el método de Planificación Latente Activa (ATP-Latent), que modela el proceso de supervisión de los tokens latentes como un autoencoder variacional condicional (VAE) para obtener un espacio latente más suave. Además, para facilitar la política de razonamiento latente más razonable, ATP-Latent lleva a cabo un aprendizaje por refuerzo (RL) con una recompensa de coherencia auxiliar, que se calcula en función de la consistencia entre los contenidos decodificados por el VAE de los tokens latentes, permitiendo un proceso de RL guiado. En experimentos con LLaMA-1B, ATP-Latent demuestra una precisión +4.1% y un uso de tokens -3.3% en cuatro benchmarks en comparación con líneas base avanzadas. Los códigos están disponibles en https://github.com/zz1358m/ATP-Latent-master.
Las arquitecturas Transformer Híbridas, que combinan bloques de atención softmax y redes neuronales recurrentes (RNN), han demostrado un equilibrio deseable entre rendimiento y rendimiento para el modelado de contexto largo, pero su adopción y estudio se ven obstaculizados por el costo prohibitivo del preentrenamiento a gran escala desde cero. Algunos estudios recientes han demostrado que los bloques de atención softmax preentrenados pueden convertirse en bloques RNN mediante transferencia de parámetros y destilación de conocimiento. Sin embargo, estos métodos de transferencia requieren cantidades sustanciales de datos de entrenamiento (más de 10 mil millones de tokens), y los modelos híbridos resultantes también exhiben un rendimiento deficiente en contextos largos, que es el escenario donde los modelos híbridos disfrutan de aceleraciones de inferencia significativas sobre los modelos basados en Transformer. En este artículo, presentamos HALO (Atención Híbrida mediante Optimización de Capas), una canalización para destilar modelos Transformer en modelos híbridos de atención-RNN. Luego presentamos HypeNet, una arquitectura híbrida con generalización de longitud superior habilitada por un novedoso esquema de codificación posicional (denominado HyPE) y varias modificaciones arquitectónicas. Convertimos la serie Qwen3 en HypeNet usando HALO, logrando un rendimiento comparable a los modelos Transformer originales mientras disfrutamos de un rendimiento y eficiencia superiores en contextos largos. La conversión requiere solo 2.3 mil millones de tokens, menos del 0.01% de sus datos de preentrenamiento.
Debido a la limitación de datos de entrenamiento supervisado, los grandes modelos de lenguaje (LLMs) suelen ser preentrenados mediante un objetivo de auto-supervisión de "predecir la siguiente palabra" sobre una vasta cantidad de datos de texto no estructurado. Para que el modelo resultante sea útil para los usuarios, se lo entrena adicionalmente con una cantidad mucho menor de datos de "ajuste por instrucciones", compuestos por ejemplos de entrenamiento supervisado de instrucciones y respuestas. Para superar la limitada cantidad de datos supervisados, proponemos un procedimiento que puede transformar el conocimiento de los documentos de preentrenamiento a escala de internet en miles de millones de pares de entrenamiento sintéticos de instrucciones y respuestas. El conjunto de datos resultante, llamado FineInstructions, utiliza aproximadamente 18 millones de plantillas de instrucciones creadas a partir de consultas y *prompts* escritos por usuarios reales. Estas plantillas de instrucciones se emparejan y se instancian con documentos fuente escritos por humanos, obtenidos de corpus de preentrenamiento no estructurados. Con datos de entrenamiento sintéticos "supervisados" generados a esta escala, un LLM puede ser preentrenado desde cero únicamente con el objetivo de ajuste por instrucciones, el cual está mucho más en-distribución con el uso final esperado de los LLMs (responder a *prompts* de usuarios). Realizamos experimentos controlados de entrenamiento token-por-token y encontramos que el preentrenamiento con FineInstructions supera al preentrenamiento estándar y a otras técnicas de preentrenamiento sintético propuestas en evaluaciones estándar que miden la calidad de la respuesta de forma libre. Nuestros recursos se pueden encontrar en https://huggingface.co/fineinstructions.
El éxito de las Hiperconexiones (HC) en las redes neuronales (RN) también ha puesto de relieve problemas relacionados con su inestabilidad en el entrenamiento y su escalabilidad limitada. Las Hiperconexiones con Restricción de Variedad (mHC) mitigan estos desafíos proyectando el espacio de conexiones residuales sobre un politopo de Birkhoff; sin embargo, enfrenta dos problemas: 1) su algoritmo iterativo de Sinkhorn-Knopp (SK) no siempre produce matrices residuales doblemente estocásticas exactas; 2) mHC incurre en una complejidad de parámetros prohibitiva de O(n³C), donde n es el ancho del flujo residual y C es la dimensión de características. La reciente propuesta mHC-lite reparametriza la matriz residual mediante el teorema de Birkhoff-von Neumann para garantizar la doble estocasticidad, pero también enfrenta una explosión factorial en su complejidad de parámetros, O(nC · n!). Para abordar ambos desafíos, proponemos KromHC, que utiliza los productos de Kronecker de matrices doblemente estocásticas más pequeñas para parametrizar la matriz residual en mHC. Al aplicar restricciones de variedad sobre las matrices residuales factor a lo largo de cada modo del flujo residual tensorizado, KromHC garantiza la doble estocasticidad exacta de las matrices residuales mientras reduce la complejidad de parámetros a O(n²C). Experimentos exhaustivos demuestran que KromHC iguala o incluso supera a las variantes mHC más avanzadas (state-of-the-art, SOTA), requiriendo significativamente menos parámetros entrenables. El código está disponible en https://github.com/wz1119/KromHC.
Si bien la Interpretabilidad Mecanicista ha identificado circuitos interpretables en los LLM, sus orígenes causales en los datos de entrenamiento siguen siendo esquivos. Presentamos la Atribución Mecanicista de Datos (MDA), un marco escalable que emplea Funciones de Influencia para rastrear unidades interpretables hasta muestras específicas de entrenamiento. Mediante experimentos exhaustivos en la familia Pythia, validamos causalmente que la intervención dirigida—eliminar o aumentar una pequeña fracción de muestras de alta influencia—modula significativamente la emergencia de cabezas interpretables, mientras que las intervenciones aleatorias no muestran efecto. Nuestro análisis revela que los datos estructurales repetitivos (p. ej., LaTeX, XML) actúan como un catalizador mecanicista. Además, observamos que las intervenciones dirigidas a la formación de cabezas de inducción inducen un cambio concurrente en la capacidad de aprendizaje en contexto (ICL) del modelo. Esto proporciona evidencia causal directa para la hipótesis de larga data sobre el vínculo funcional entre las cabezas de inducción y el ICL. Finalmente, proponemos una canalización de aumento de datos mecanicista que acelera consistentemente la convergencia de circuitos a través de las escalas del modelo, proporcionando una metodología fundamentada para dirigir las trayectorias de desarrollo de los LLM.
Los agentes basados en modelos de lenguaje que operan en horizontes de interacción prolongados enfrentan desafíos persistentes para preservar información temporalmente fundamentada y mantener la coherencia conductual entre sesiones, un modo de fallo que denominamos erosión del alma. Presentamos BMAM (Memoria Multi-Agente de Inspiración Cerebral), una arquitectura de memoria de propósito general que modela la memoria del agente como un conjunto de subsistemas funcionalmente especializados en lugar de un único almacén no estructurado. Inspirado por los sistemas de memoria cognitiva, BMAM descompone la memoria en componentes episódicos, semánticos, conscientes de la relevancia y orientados al control, que operan en escalas de tiempo complementarias. Para apoyar el razonamiento de horizonte prolongado, BMAM organiza los recuerdos episódicos a lo largo de líneas de tiempo explícitas y recupera evidencia fusionando múltiples señales complementarias. Los experimentos en el benchmark LoCoMo muestran que BMAM alcanza un 78.45 por ciento de precisión bajo la configuración de evaluación estándar de horizonte prolongado, y los análisis de ablación confirman que el subsistema de memoria episódica inspirado en el hipocampo juega un papel crítico en el razonamiento temporal.
La cuantización ha mejorado significativamente la eficiencia computacional y de memoria en el entrenamiento de Modelos de Lenguaje a Gran Escala (LLM). Sin embargo, los enfoques existentes aún dependen de acumular sus actualizaciones en alta precisión: concretamente, las actualizaciones de gradiente deben aplicarse a un búfer de pesos de alta precisión, conocidos como pesos maestros. Este búfer introduce una sobrecarga de memoria sustancial, particularmente para modelos de Mezcla Dispersa de Expertos (SMoE), donde los parámetros del modelo y los estados del optimizador dominan el uso de memoria. Para abordar esto, presentamos el Optimizador con Compensación de Error (ECO), que elimina los pesos maestros aplicando las actualizaciones directamente a los parámetros cuantizados. ECO cuantiza los pesos después de cada paso e inyecta cuidadosamente el error de cuantización resultante en el momento del optimizador, formando un bucle de retroalimentación de error sin memoria adicional. Demostramos que, bajo supuestos estándar y una tasa de aprendizaje decreciente, ECO converge a una vecindad de radio constante del óptimo, mientras que la eliminación ingenua de los pesos maestros puede incurrir en un error inversamente proporcional a la tasa de aprendizaje. Mostramos resultados empíricos para el preentrenamiento de pequeños Transformers (30-800M), un modelo Gemma-3 1B y un modelo SMoE de 2.1B parámetros con cuantización FP8, y el ajuste fino de DeepSeek-MoE-16B en precisión INT4. En todos los casos, ECO iguala los resultados de referencia que utilizan pesos maestros con una precisión casi sin pérdidas, desplazando significativamente la frontera de Pareto entre memoria estática y pérdida de validación.
El escalado ha impulsado los avances recientes en modelos fundacionales de visión, pero extender este paradigma a la estimación de profundidad métrica sigue siendo un desafío debido al ruido heterogéneo de los sensores, los sesgos dependientes de la cámara y la ambigüedad métrica en datos 3D multisource ruidosos. Presentamos Metric Anything, un framework de preentrenamiento simple y escalable que aprende profundidad métrica a partir de fuentes 3D diversas y ruidosas, sin prompts diseñados manualmente, modelado específico por cámara o arquitecturas específicas por tarea. El elemento central de nuestro enfoque es el Sparse Metric Prompt, creado mediante el enmascaramiento aleatorio de mapas de profundidad, que sirve como interfaz universal que desacopla el razonamiento espacial de los sesgos del sensor y la cámara. Utilizando aproximadamente 20 millones de pares imagen-profundidad que abarcan datos 3D reconstruidos, capturados y renderizados de más de 10000 modelos de cámara, demostramos —por primera vez— una clara tendencia de escalado en el campo de la profundidad métrica. El modelo preentrenado sobresale en tareas basadas en prompts como la completación de profundidad, la superresolución y la fusión Radar-cámara, mientras que su estudiante 'prompt-free' destilado logra resultados de vanguardia en estimación de profundidad monocular, recuperación de parámetros intrínsecos de la cámara, reconstrucción 3D métrica mono/multivista y planificación VLA. También mostramos que usar un ViT preentrenado de Metric Anything como codificador visual mejora significativamente las capacidades de los Modelos de Lenguaje Grandes Multimodales en inteligencia espacial. Estos resultados demuestran que la estimación de profundidad métrica puede beneficiarse de las mismas leyes de escalado que impulsan los modelos fundacionales modernos, estableciendo un nuevo camino hacia la percepción métrica del mundo real escalable y eficiente. Liberamos Metric Anything como código abierto en http://metric-anything.github.io/metric-anything-io/ para apoyar la investigación comunitaria.
Los Modelos Multimodales Unificados (UMMs) integran tanto la comprensión como la generación visual dentro de un único marco. Su aspiración última es crear un ciclo en el que la comprensión y la generación se refuercen mutuamente. Si bien los métodos recientes de post-entrenamiento han logrado aprovechar la comprensión para mejorar la generación, la dirección inversa de utilizar la generación para mejorar la comprensión sigue siendo en gran medida inexplorada. En este trabajo, proponemos UniMRG (Generación Unificada de Múltiples Representaciones), un método de post-entrenamiento simple pero efectivo, independiente de la arquitectura. UniMRG mejora las capacidades de comprensión de los UMMs mediante la incorporación de tareas de generación auxiliares. Específicamente, entrenamos a los UMMs para generar múltiples representaciones intrínsecas de las imágenes de entrada, a saber, píxeles (reconstrucción), profundidad (geometría) y segmentación (estructura), junto con los objetivos estándar de comprensión visual. Al sintetizar estas diversas representaciones, los UMMs capturan información complementaria sobre la apariencia, las relaciones espaciales y la disposición estructural. En consecuencia, los UMMs desarrollan una comprensión más profunda y completa de las entradas visuales. Experimentos exhaustivos en diversas arquitecturas de UMMs demuestran que nuestro método mejora notablemente la percepción de detalles finos, reduce las alucinaciones y mejora la comprensión espacial, al mismo tiempo que potencia las capacidades de generación.
Proponemos FROST, un método consciente de la atención para un razonamiento eficiente. A diferencia de los enfoques tradicionales, FROST aprovecha los pesos de atención para podar las rutas de razonamiento no críticas, generando trayectorias de razonamiento más cortas y confiables. Metodológicamente, introducimos el concepto de valores atípicos (*outliers*) en el razonamiento y diseñamos un mecanismo basado en la atención para eliminarlos. Teóricamente, FROST preserva y mejora la capacidad de razonamiento del modelo mientras elimina estos valores atípicos a nivel de oración. Empíricamente, validamos FROST en cuatro benchmarks utilizando dos modelos de razonamiento sólidos (Phi-4-Reasoning y GPT-OSS-20B), superando a métodos de vanguardia como TALE y ThinkLess. Cabe destacar que FROST logra una reducción promedio del 69.68% en el uso de *tokens* y una mejora del 26.70% en la precisión respecto al modelo base. Además, en las evaluaciones de métricas de valores atípicos en la atención, FROST reduce la norma infinito máxima en un 15.97% y la curtosis promedio en un 91.09% en comparación con el modelo base. El código está disponible en https://github.com/robinzixuan/FROST.
Los Modelos Fundamentales Audiovisuales, preentrenados para generar conjuntamente sonido y contenido visual, han demostrado recientemente una capacidad sin precedentes para modelar la generación y edición multimodal, abriendo nuevas oportunidades para tareas posteriores. Entre estas tareas, el doblaje de vídeo podría beneficiarse enormemente de tales conocimientos previos; sin embargo, la mayoría de las soluciones existentes aún dependen de pipelines complejos y específicos que tienen dificultades en entornos del mundo real. En este trabajo, presentamos un enfoque de modelo único que adapta un modelo de difusión audiovisual fundamental para el doblaje de vídeo a vídeo mediante un LoRA ligero. El LoRA permite al modelo condicionarse en un audio-vídeo de entrada mientras genera conjuntamente audio traducido y movimiento facial sincronizado. Para entrenar este LoRA, aprovechamos el propio modelo generativo para sintetizar vídeos multilingües emparejados de un mismo locutor. Específicamente, generamos vídeos multilingües con cambios de idioma dentro de un mismo clip, y luego reconstruimos el rostro y el audio en cada mitad para que coincida con el idioma de la otra mitad. Al aprovechar la rica capacidad generativa previa del modelo audiovisual, nuestro enfoque preserva la identidad del locutor y la sincronización labial, manteniéndose robusto ante movimientos complejos y dinámicas del mundo real. Demostramos que nuestro enfoque produce vídeos doblados de alta calidad con una fidelidad visual, sincronización labial y robustez mejoradas en comparación con los pipelines de doblaje existentes.
La mayoría de los métodos de aprendizaje por refuerzo (RL) para entrenar modelos de lenguaje a gran escala (LLMs) requieren etiquetas de referencia o verificadores específicos de tareas, lo que limita la escalabilidad cuando la corrección es ambigua o costosa de obtener. Introducimos el Aprendizaje por Refuerzo a partir de Meta-Evaluación (RLME), que optimiza un generador utilizando recompensas derivadas de las respuestas de un evaluador a meta-preguntas en lenguaje natural (por ejemplo, "¿Es correcta la respuesta?" o "¿Es lógicamente consistente el razonamiento?"). RLME trata la probabilidad de un juicio positivo por parte del evaluador como una recompensa y actualiza el generador mediante optimización de políticas relativa al grupo, permitiendo el aprendizaje sin etiquetas. A través de un conjunto de experimentos, demostramos que RLME logra una precisión y eficiencia muestral comparables al entrenamiento basado en etiquetas, permite compensaciones controlables entre múltiples objetivos, dirige los modelos hacia patrones de razonamiento confiables en lugar de racionalizaciones a posteriori, y se generaliza a entornos de dominio abierto donde las etiquetas de referencia no están disponibles, ampliando así los dominios en los que los LLMs pueden ser entrenados con RL.
Los recientes avances en el aprendizaje por refuerzo para la generación de código han hecho que los entornos robustos sean esenciales para prevenir la manipulación de recompensas. A medida que los LLM actúan cada vez más como evaluadores en el RL basado en código, su capacidad para detectar esta manipulación sigue sin estudiarse en profundidad. En este artículo, proponemos una novedosa taxonomía de exploits de recompensa que abarca 54 categorías y presentamos TRACE (Pruebas de Anomalías de Recompensa en Entornos de Código), un benchmark sintéticamente curado y verificado por humanos que contiene 517 trayectorias de prueba. A diferencia de trabajos anteriores que evalúan la detección de manipulación en escenarios de clasificación aislada, contrastamos estas evaluaciones con una configuración más realista de detección de anomalías contrastiva en TRACE. Nuestros experimentos revelan que los modelos capturan las manipulaciones de recompensa de manera más efectiva en entornos contrastivos que en escenarios de clasificación aislada, con GPT-5.2 en su modo de razonamiento más alto logrando la mejor tasa de detección en un 63%, frente al 45% en configuraciones aisladas en TRACE. Partiendo de esta idea, demostramos que los modelos de última generación tienen significativamente más dificultades con las manipulaciones de recompensa contextualizadas semánticamente en comparación con las contextualizadas sintácticamente. Además, realizamos análisis cualitativos de los comportamientos del modelo, así como estudios de ablación que muestran que la proporción de trayectorias benignas frente a manipuladas y el tamaño de los clusters de análisis impactan sustancialmente en el rendimiento de la detección. Publicamos el benchmark y el entorno de evaluación para permitir a la comunidad expandir TRACE y evaluar sus modelos.
El descubrimiento de estructuras extremales en matemáticas requiere navegar por paisajes vastos y no convexos donde los métodos analíticos ofrecen poca orientación y la búsqueda por fuerza bruta se vuelve intratable. Presentamos FlowBoost, un marco generativo de bucle cerrado que aprende a descubrir estructuras geométricas raras y extremales combinando tres componentes: (i) un modelo de *flow-matching* condicional consciente de la geometría que aprende a muestrear configuraciones de alta calidad, (ii) una optimización de políticas guiada por recompensas con exploración de acciones que optimiza directamente el proceso de generación hacia el objetivo manteniendo la diversidad, y (iii) una búsqueda local estocástica tanto para la generación de datos de entrenamiento como para el refinamiento final. A diferencia de enfoques previos de bucle abierto, como PatternBoost que se reentrena con muestras discretas filtradas, o AlphaEvolve que depende de Modelos de Lenguaje Grandes (LLMs) congelados como operadores de mutación evolutiva, FlowBoost aplica restricciones de factibilidad geométrica durante el muestreo, y propaga la señal de recompensa directamente en el modelo generativo, cerrando el ciclo de optimización y requiriendo conjuntos de entrenamiento mucho más pequeños y tiempos de entrenamiento más cortos, reduciendo las iteraciones del bucle externo en órdenes de magnitud, al tiempo que elimina la dependencia de los LLMs. Demostramos el marco en cuatro problemas de optimización geométrica: empaquetamiento de esferas en hipercubos, empaquetamiento de círculos que maximiza la suma de radios, el problema del triángulo de Heilbronn y la minimización de la discrepancia estelar. En varios casos, FlowBoost descubre configuraciones que igualan o superan los mejores resultados conocidos. Para empaquetamientos de círculos, mejoramos las mejores cotas inferiores conocidas, superando al sistema basado en LLMs AlphaEvolve mientras utilizamos sustancialmente menos recursos computacionales.
La huella acústica proporciona una representación identificable de señales acústicas, que posteriormente puede utilizarse en sistemas de identificación y recuperación. Para obtener una representación discriminativa, el audio de entrada suele segmentarse en intervalos de tiempo más cortos, permitiendo extraer y analizar características acústicas locales. Los enfoques neuronales modernos generalmente operan sobre segmentos de audio cortos y de duración fija, aunque la elección de la duración del segmento suele realizarse heurísticamente y rara vez se examina en profundidad. En este artículo, estudiamos cómo afecta la longitud del segmento al rendimiento de la huella acústica. Extendemos una arquitectura neuronal existente de huella acústica para adoptar diversas longitudes de segmento y evaluamos la precisión de recuperación en diferentes longitudes de segmento y duraciones de consulta. Nuestros resultados demuestran que longitudes de segmento cortas (0.5 segundos) generalmente logran un mejor rendimiento. Además, evaluamos la capacidad de los LLM para recomendar la mejor longitud de segmento, observando que GPT-5-mini proporciona consistentemente las mejores sugerencias entre cinco consideraciones analizadas en tres LLM estudiados. Nuestros hallazgos ofrecen orientación práctica para seleccionar la duración del segmento en sistemas neuronales de recuperación de audio a gran escala.
El diseño gráfico a menudo implica explorar diferentes direcciones estilísticas, lo que puede ser consumidor de tiempo para los no expertos. Abordamos este problema de mejorar diseños estilísticamente basándonos en instrucciones en lenguaje natural. Si bien los Modelos de Lenguaje Visual (VLM) han mostrado un éxito inicial en diseño gráfico, su conocimiento preentrenado sobre estilos suele ser demasiado general y está desalineado con los datos específicos del dominio. Por ejemplo, los VLM pueden asociar el minimalismo con diseños abstractos, mientras que los diseñadores enfatizan las elecciones de forma y color. Nuestra idea clave es aprovechar los datos de diseño —una colección de diseños del mundo real que capturan implícitamente los principios de los diseñadores— para aprender conocimiento de diseño y guiar la mejora estilística. Proponemos PRISM (Modificación Estilística Informada por Priores), que construye y aplica una base de conocimiento de diseño a través de tres etapas: (1) agrupar diseños de alta varianza para capturar la diversidad dentro de un estilo, (2) resumir cada grupo en conocimiento de diseño accionable, y (3) recuperar conocimiento relevante durante la inferencia para permitir una mejora consciente del estilo. Los experimentos en el conjunto de datos Crello muestran que PRISM logra un rango promedio más alto de 1.49 (más cercano a 1 es mejor) sobre los métodos de referencia en alineación de estilo. Los estudios de usuario validan además estos resultados, mostrando que PRISM es consistentemente preferido por los diseñadores.
Los agentes web tienen un gran potencial para automatizar tareas informáticas complejas, pero sus interacciones implican una toma de decisiones secuencial de largo horizonte con acciones irreversibles. En tales entornos, la supervisión basada en resultados es escasa y tardía, a menudo recompensa trayectorias incorrectas y no logra respaldar la escalabilidad en tiempo de inferencia. Esto motiva el uso de Modelos de Recompensa de Proceso (WebPRMs) para la navegación web, pero los enfoques existentes siguen siendo limitados: los WebPRMs escalares colapsan el progreso en señales burdas y débilmente fundamentadas, mientras que los WebPRMs basados en listas de verificación dependen de una coincidencia de plantillas frágil que falla ante cambios de diseño o semánticos y a menudo etiquetan erróneamente acciones superficialmente correctas como exitosas, proporcionando poca comprensión o interpretabilidad. Para abordar estos desafíos, presentamos WebArbiter, un WebPRM que prioriza el razonamiento e induce principios, que formula el modelado de recompensas como generación de texto, produciendo justificaciones estructuradas que concluyen con un veredicto de preferencia e identifican la acción más conducente para completar la tarea en el contexto actual. El entrenamiento sigue un pipeline de dos etapas: la destilación de razonamiento dota al modelo de un razonamiento coherente guiado por principios, y el aprendizaje por refuerzo corrige los sesgos del profesor alineando directamente los veredictos con la corrección, permitiendo una generalización más sólida. Para apoyar una evaluación sistemática, publicamos WebPRMBench, un benchmark integral que abarca cuatro entornos web diversos con tareas ricas y anotaciones de preferencia de alta calidad. En WebPRMBench, WebArbiter-7B supera al baseline más fuerte, GPT-5, por 9.1 puntos. En la búsqueda de trayectorias guiada por recompensas en WebArena-Lite, supera al mejor WebPRM anterior hasta por 7.2 puntos, subrayando su robustez y valor práctico en tareas web complejas del mundo real.
Los modelos visuales de base proporcionan características perceptuales sólidas para la robótica, pero sus representaciones densas carecen de estructura explícita a nivel de objeto, lo que limita la robustez y la capacidad de generalización en tareas de manipulación. Proponemos STORM (Representación Objetocéntrica para Manipulación Robótica basada en Slots y Consciente de la Tarea), un módulo de adaptación objetocéntrico y ligero que aumenta los modelos visuales de base congelados con un pequeño conjunto de slots semánticamente conscientes para la manipulación robótica. En lugar de reentrenar grandes modelos base, STORM emplea una estrategia de entrenamiento multifase: primero se estabilizan los slots objetocéntricos mediante un preentrenamiento visual-semántico usando incrustaciones lingüísticas, y luego se adaptan conjuntamente con una política de manipulación descendente. Este aprendizaje escalonado evita la formación degenerada de slots y preserva la consistencia semántica mientras alinea la percepción con los objetivos de la tarea. Los experimentos en benchmarks de descubrimiento de objetos y tareas de manipulación simuladas muestran que STORM mejora la generalización ante distractores visuales y el rendimiento del control, en comparación con usar directamente las características de modelos de base congelados o entrenar representaciones objetocéntricas de extremo a extremo. Nuestros resultados destacan la adaptación multifase como un mecanismo eficiente para transformar las características genéricas de los modelos de base en representaciones objetocéntricas conscientes de la tarea para el control robótico.
La capacidad de generalización de las políticas de manipulación robótica está fuertemente influenciada por la elección de las representaciones visuales. Los enfoques existentes suelen basarse en representaciones extraídas de codificadores preentrenados, utilizando dos tipos de características dominantes: las características globales, que resumen una imagen completa mediante un único vector agrupado, y las características densas, que preservan una incrustación por parches de la capa final del codificador. Aunque son ampliamente utilizados, ambos tipos de características mezclan información relevante e irrelevante para la tarea, lo que conduce a una pobre generalización bajo cambios de distribución, como variaciones en la iluminación, texturas o la presencia de distractores. En este trabajo, exploramos una alternativa estructurada intermedia: las Representaciones Centradas en Objetos Basadas en Slots (SBOCR), que agrupan características densas en un conjunto finito de entidades similares a objetos. Esta representación permite reducir naturalmente el ruido proporcionado a la política de manipulación robótica, manteniendo suficiente información para realizar la tarea de manera eficiente. Comparamos una variedad de representaciones globales y densas con representaciones intermedias basadas en slots, a través de un conjunto de tareas de manipulación simuladas y del mundo real que van de simples a complejas. Evaluamos su generalización bajo diversas condiciones visuales, incluyendo cambios en la iluminación, textura y la presencia de distractores. Nuestros hallazgos revelan que las políticas basadas en SBOCR superan a las políticas basadas en representaciones densas y globales en entornos de generalización, incluso sin preentrenamiento específico para la tarea. Estas observaciones sugieren que las SBOCR son una dirección prometedora para diseñar sistemas visuales que generalizan eficazmente en entornos robóticos dinámicos del mundo real.
Los recientes avances en modelos fundacionales generativos, a menudo denominados "modelos del mundo", han impulsado el interés en aplicarlos a tareas críticas como la planificación robótica y el entrenamiento de sistemas autónomos. Para un despliegue confiable, estos modelos deben exhibir una alta fidelidad física, simulando con precisión las dinámicas del mundo real. Sin embargo, los benchmarks de video basados en física existentes adolecen de un problema de entrelazamiento, donde una sola prueba evalúa simultáneamente múltiples leyes y conceptos físicos, lo que limita fundamentalmente su capacidad de diagnóstico. Presentamos WorldBench, un nuevo benchmark basado en video diseñado específicamente para una evaluación desentrelazada y específica por concepto, lo que nos permite aislar y evaluar rigurosamente la comprensión de un único concepto o ley física a la vez. Para que WorldBench sea integral, diseñamos benchmarks en dos niveles diferentes: 1) una evaluación de la comprensión física intuitiva con conceptos como la permanencia del objeto o la escala/perspectiva, y 2) una evaluación de constantes físicas de bajo nivel y propiedades de los materiales, como coeficientes de fricción o viscosidad de fluidos. Cuando los modelos del mundo basados en video de última generación son evaluados en WorldBench, encontramos patrones específicos de fallo en conceptos físicos particulares, careciendo todos los modelos probados de la consistencia física necesaria para generar interacciones confiables en el mundo real. A través de su evaluación específica por concepto, WorldBench ofrece un marco más matizado y escalable para evaluar rigurosamente las capacidades de razonamiento físico de los modelos de generación de video y del mundo, allanando el camino para un aprendizaje impulsado por modelos del mundo más robusto y generalizable.