Artículos de investigación en IA seleccionados diariamente con traducciones
Image Chain-of-Thought (Image-CoT) es un paradigma de escalado en tiempo de prueba que mejora la generación de imágenes extendiendo el tiempo de inferencia. La mayoría de los métodos Image-CoT se centran en la generación de texto a imagen (T2I). A diferencia de la generación T2I, la edición de imágenes está orientada a un objetivo: el espacio de soluciones está restringido por la imagen fuente y la instrucción. Esta discrepancia genera tres desafíos al aplicar Image-CoT a la edición: asignación ineficiente de recursos con presupuestos de muestreo fijos, verificación en etapas iniciales no confiable utilizando puntuaciones de MLLM generales, y resultados editados redundantes debido al muestreo a gran escala. Para abordar esto, proponemos ADaptive Edit-CoT (ADE-CoT), un marco de escalado en tiempo de prueba bajo demanda para mejorar la eficiencia y el rendimiento de la edición. Incorpora tres estrategias clave: (1) una asignación de recursos consciente de la dificultad que asigna presupuestos dinámicos basados en la dificultad de edición estimada; (2) una verificación específica para edición en la poda temprana que utiliza localización de regiones y consistencia de descripciones para seleccionar candidatos prometedores; y (3) una parada oportunista en profundidad, guiada por un verificador específico de la instancia, que finaliza cuando se encuentran resultados alineados con la intención. Experimentos exhaustivos en tres modelos de edición de última generación (Step1X-Edit, BAGEL, FLUX.1 Kontext) a través de tres benchmarks muestran que ADE-CoT logra compensaciones superiores entre rendimiento y eficiencia. Con presupuestos de muestreo comparables, ADE-CoT obtiene un mejor rendimiento con una aceleración de más de 2x frente a Best-of-N.
OmniLottie es un marco versátil que genera animaciones vectoriales de alta calidad a partir de instrucciones multimodales. Para un control flexible del movimiento y el contenido visual, nos centramos en Lottie, un formato JSON ligero para representar tanto formas como comportamientos de animación. Sin embargo, los archivos JSON de Lottie en bruto contienen extensos metadatos estructurales invariantes y tokens de formato, lo que plantea desafíos significativos para el aprendizaje de la generación de animaciones vectoriales. Por lo tanto, introducimos un tokenizador de Lottie bien diseñado que transforma los archivos JSON en secuencias estructuradas de comandos y parámetros que representan formas, funciones de animación y parámetros de control. Dicho tokenizador nos permite construir OmniLottie sobre modelos de lenguaje visual preentrenados para seguir instrucciones intercaladas multimodales y generar animaciones vectoriales de alta calidad. Para impulsar aún más la investigación en generación de animaciones vectoriales, recopilamos MMLottie-2M, un conjunto de datos a gran escala de animaciones vectoriales diseñadas profesionalmente y acompañadas de anotaciones textuales y visuales. Mediante extensos experimentos, validamos que OmniLottie puede producir animaciones vectoriales vívidas y semánticamente alineadas que se adhieren estrechamente a las instrucciones humanas multimodales.
Los agentes de ingeniería de software (SWE) están mejorando rápidamente, y las mejoras recientes han sido impulsadas en gran medida por el aprendizaje por refuerzo (RL). Sin embargo, el entrenamiento con RL está limitado por la escasez de colecciones de tareas a gran escala que cuenten con entornos de ejecución reproducibles y suites de pruebas confiables. Aunque han surgido cada vez más benchmarks, los conjuntos de datos adecuados para el entrenamiento siguen siendo limitados en escala y diversidad, o a menudo se centran en un conjunto limitado de ecosistemas de lenguajes de alto nivel. Presentamos SWE-rebench V2, una canalización automatizada independiente del lenguaje para recolectar tareas SWE ejecutables del mundo real y construir entornos de entrenamiento de RL a escala. La canalización sintetiza procedimientos de instalación y pruebas específicos de cada repositorio mediante un agente de configuración interactivo, y filtra las instancias no válidas utilizando un conjunto de modelos de lenguaje grandes (LLM) como jueces, validados frente a anotaciones de SWE-bench verificadas por humanos. Utilizando esta canalización, construimos un conjunto de datos de más de 32,000 tareas que abarcan 20 lenguajes y más de 3,600 repositorios, con imágenes preconstruidas para una ejecución reproducible. Para escalar aún más los datos de entrenamiento, adicionalmente publicamos más de 120,000 tareas con instrucciones de instalación, pruebas de tipo "falla-a-aprueba" y metadatos enriquecidos, donde el enunciado del problema se genera en base a la descripción original de la solicitud de extracción (pull request). Validamos las instancias recolectadas mediante un estudio de diagnóstico que cubre un subconjunto de tareas en cinco lenguajes de programación y siete modelos populares, y proporcionamos metadatos a nivel de instancia que marcan factores de confusión comunes, como pruebas excesivamente restrictivas y descripciones poco específicas. Publicamos los conjuntos de datos, el código de recolección y ejecución, y los artefactos asociados para permitir el entrenamiento a gran escala de agentes SWE en diversos lenguajes y repositorios.
A medida que la alineación de los Modelos de Lenguaje a Gran Escala (LLM) evoluciona de completaciones simples a generaciones complejas y altamente sofisticadas, los Modelos de Recompensa están virando cada vez más hacia la evaluación guiada por rúbricas para mitigar sesgos superficiales. Sin embargo, la comunidad carece de un benchmark unificado para evaluar este paradigma de evaluación, ya que los benchmarks existentes carecen tanto de la complejidad discriminatoria como de las anotaciones de rúbricas de referencia necesarias para un análisis riguroso. Para cerrar esta brecha, presentamos RubricBench, un benchmark curado con 1.147 comparaciones por pares diseñado específicamente para evaluar la fiabilidad de la evaluación basada en rúbricas. Nuestra construcción emplea un pipeline de filtración multidimensional para seleccionar muestras difíciles que presentan una complejidad de entrada matizada y un sesgo superficial engañoso, aumentando cada una con rúbricas atómicas anotadas por expertos y derivadas estrictamente de las instrucciones. Experimentos exhaustivos revelan una brecha sustancial de capacidad entre las rúbricas anotadas por humanos y las generadas por modelos, lo que indica que incluso los modelos más avanzados tienen dificultades para especificar autónomamente criterios de evaluación válidos, quedando considerablemente por detrás del rendimiento guiado por humanos.
OpenAutoNLU es una biblioteca de aprendizaje automático automatizado de código abierto para tareas de comprensión del lenguaje natural (CLN), que abarca tanto clasificación de texto como reconocimiento de entidades nombradas (NER). A diferencia de las soluciones existentes, introducimos una selección de regímenes de entrenamiento consciente de los datos que no requiere configuración manual por parte del usuario. La biblioteca también proporciona diagnósticos integrados de calidad de datos, detección configurable de datos fuera de distribución (OOD) y funciones de modelos de lenguaje grande (LLM), todo dentro de una API mínima de bajo código. La aplicación de demostración está accesible en https://openautonlu.dev.
Los recientes avances en las capacidades de razonamiento de los modelos lingüísticos multimodales grandes (MLLMs) les han permitido abordar tareas más complejas como el análisis científico y el razonamiento matemático. A pesar de su potencial, las habilidades de razonamiento de los MLLMs en diferentes escenarios de la vida real siguen siendo en gran medida inexploradas y carecen de puntos de referencia estandarizados para su evaluación. Para abordar esta brecha, presentamos MMR-Life, un punto de referencia integral diseñado para evaluar las diversas capacidades de razonamiento multimodal con múltiples imágenes de los MLLMs en escenarios de la vida real. MMR-Life consta de 2.646 preguntas de opción múltiple basadas en 19.108 imágenes obtenidas principalmente de contextos del mundo real, cubriendo exhaustivamente siete tipos de razonamiento: abductivo, analógico, causal, deductivo, inductivo, espacial y temporal. A diferencia de los puntos de referencia de razonamiento existentes, MMR-Life no depende de conocimientos especializados de dominio específico, sino que requiere que los modelos integren información a través de múltiples imágenes y apliquen diversas habilidades de razonamiento. La evaluación de 37 modelos avanzados resalta el desafío sustancial que representa MMR-Life. Incluso los mejores modelos como GPT-5 logran solo un 58% de precisión y muestran una variación considerable en el rendimiento entre los tipos de razonamiento. Además, analizamos los paradigmas de razonamiento de los MLLMs existentes, explorando cómo factores como la longitud del pensamiento, el método de razonamiento y el tipo de razonamiento afectan su rendimiento. En resumen, MMR-Life establece una base integral para evaluar, analizar y mejorar la próxima generación de sistemas de razonamiento multimodal.
Los Modelos de Lenguaje Grandes (LLMs) han exhibido recientemente capacidades de razonamiento notables, habilitadas en gran medida por el ajuste fino supervisado (SFT) y el post-entrenamiento basado en aprendizaje por refuerzo (RL) sobre datos de razonamiento de alta calidad. Sin embargo, la reproducción y extensión de estas capacidades en entornos abiertos y escalables se ve obstaculizada por tres desafíos fundamentales centrados en los datos: (1) el problema del arranque en frío, que surge de la falta de conjuntos de datos semilla con trayectorias detalladas y extensas de Cadena de Pensamiento (CoT) necesarias para inicializar políticas de razonamiento; (2) la cobertura de dominio limitada, ya que la mayoría de los conjuntos de datos de razonamiento de código abierto existentes se concentran en matemáticas, con una cobertura limitada de disciplinas científicas más amplias; y (3) el cuello de botella en la anotación, donde la dificultad de las tareas de razonamiento de nivel fronterizo hace que la anotación humana confiable sea prohibitivamente costosa o inviable. Para abordar estos desafíos, presentamos CHIMERA, un conjunto de datos sintético y compacto de razonamiento que comprende 9K muestras para el razonamiento generalizable cruzado de dominios. CHIMERA se construye con tres propiedades clave: (1) proporciona trayectorias de razonamiento CoT ricas y extensas, sintetizadas por modelos de razonamiento de última generación; (2) tiene una cobertura amplia y estructurada, abarcando 8 disciplinas científicas principales y más de 1K temas detallados organizados mediante una taxonomía jerárquica generada por modelos; y (3) emplea una canalización de evaluación completamente automatizada y escalable que utiliza modelos de razonamiento sólidos para validar cruzadamente tanto la validez del problema como la corrección de la respuesta. Utilizamos CHIMERA para realizar post-entrenamiento en un modelo Qwen3 de 4B. A pesar del tamaño modesto del conjunto de datos, el modelo resultante logra un rendimiento sólido en un conjunto de benchmarks de razonamiento desafiantes, incluyendo GPQA-Diamond, AIME 24/25/26, HMMT 25 y Humanity's Last Exam, acercándose o igualando el rendimiento de razonamiento de modelos sustancialmente más grandes como DeepSeek-R1 y Qwen3-235B.
Los detectores actuales de objetos 3D en interiores multivista dependen de una geometría de sensor costosa de obtener (es decir, poses de cámara multivista calibradas con precisión) para fusionar la información multivista en una representación global de la escena, lo que limita su despliegue en escenas del mundo real. Nos centramos en un entorno más práctico: la detección de objetos 3D en interiores multivista libre de geometría de sensor (SG-Free), donde no hay entradas geométricas proporcionadas por el sensor (poses multivista o profundidad). El Transformer Basado en Geometría Visual (VGGT) reciente demuestra que se pueden inferir fuertes indicios 3D directamente desde las imágenes. Partiendo de esta idea, presentamos VGGT-Det, el primer marco de trabajo diseñado específicamente para la detección de objetos 3D en interiores multivista SG-Free. En lugar de simplemente consumir las predicciones de VGGT, nuestro método integra el codificador de VGGT en una canalización basada en transformers. Para aprovechar eficazmente tanto los conocimientos previos semánticos como geométricos dentro de VGGT, introducimos dos componentes clave novedosos: (i) Generación de Consultas Guiada por Atención (AG): explota los mapas de atención de VGGT como conocimientos previos semánticos para inicializar las consultas de objetos, mejorando la localización al centrarse en las regiones de los objetos mientras preserva la estructura espacial global; (ii) Agregación de Características Impulsada por Consultas (QD): una Consulta de Visión (See-Query) entrenable interactúa con las consultas de objetos para 'ver' lo que necesitan, y luego agrega dinámicamente características geométricas multinivel a través de las capas de VGGT que elevan progresivamente las características 2D a 3D. Los experimentos muestran que VGGT-Det supera significativamente al método de mejor rendimiento en el entorno SG-Free en 4.4 y 8.6 mAP@0.25 en ScanNet y ARKitScenes, respectivamente. Un estudio de ablación muestra que los conocimientos previos semánticos y geométricos aprendidos internamente por VGGT pueden ser aprovechados eficazmente por nuestro AG y QD.
El desarrollo de agentes interactivos multisesión que utilizan herramientas es un desafío, ya que las necesidades de los usuarios en el mundo real suelen ser complejas y ambiguas, pero los agentes deben ejecutar acciones deterministas para satisfacerlas. Para abordar esta brecha, presentamos CoVe (Constraint-Verification), un marco de síntesis de datos posterior al entrenamiento diseñado para entrenar agentes interactivos que utilizan herramientas, garantizando tanto la complejidad como la corrección de los datos. CoVe comienza definiendo restricciones explícitas de la tarea, que cumplen una doble función: guían la generación de trayectorias complejas y actúan como verificadores deterministas para evaluar la calidad de las trayectorias. Esto permite la creación de trayectorias de entrenamiento de alta calidad para el ajuste fino supervisado (SFT) y la obtención de señales de recompensa precisas para el aprendizaje por refuerzo (RL). Nuestra evaluación en el exigente benchmark τ²-bench demuestra la efectividad del marco. Notablemente, nuestro modelo compacto CoVe-4B logra tasas de éxito del 43.0% y 59.4% en los dominios de Aerolíneas y Minoristas, respectivamente; su rendimiento general supera significativamente a líneas base sólidas de escala similar y se mantiene competitivo con modelos hasta 17 veces más grandes. Estos resultados indican que CoVe proporciona una vía eficaz y eficiente para sintetizar datos de entrenamiento para agentes interactivos de vanguardia que utilizan herramientas. Para apoyar la investigación futura, hemos hecho de código abierto nuestro código, el modelo entrenado y el conjunto completo de 12,000 trayectorias de alta calidad utilizadas para el entrenamiento.
Los álbumes de fotos personales no son meras colecciones de imágenes estáticas, sino archivos ecológicos vivos definidos por la continuidad temporal, el entrelazamiento social y metadatos enriquecidos, lo que hace que la recuperación personalizada de fotografías no sea trivial. Sin embargo, los benchmarks de recuperación existentes dependen en gran medida de instantáneas web aisladas del contexto, sin capturar el razonamiento multi-fuente necesario para resolver consultas de usuarios auténticas e impulsadas por intenciones. Para cerrar esta brecha, presentamos PhotoBench, el primer benchmark construido a partir de álbumes personales auténticos. Está diseñado para cambiar el paradigma de la coincidencia visual al razonamiento personalizado, impulsado por intenciones y multi-fuente. Basándonos en un riguroso marco de perfilado multi-fuente, que integra semántica visual, metadatos espacio-temporales, identidad social y eventos temporales para cada imagen, sintetizamos consultas complejas impulsadas por intenciones y arraigadas en las trayectorias vitales de los usuarios. Una evaluación exhaustiva en PhotoBench expone dos limitaciones críticas: la brecha de modalidad, donde los modelos de embedding unificado fallan en restricciones no visuales, y la paradoja de la fusión de fuentes, donde los sistemas agentes muestran una orquestación deficiente de herramientas. Estos hallazgos indican que la siguiente frontera en la recuperación multimodal personalizada va más allá de los embeddings unificados, necesitando sistemas de razonamiento agentes robustos capaces de una satisfacción precisa de restricciones y una fusión multi-fuente. Nuestro PhotoBench está disponible.
Presentamos LLaDA-o, un modelo de difusión omni eficaz y adaptable en longitud para comprensión y generación multimodal. LLaDA-o se construye sobre un marco de Mezcla de Difusión (MoD) que desacopla la difusión con enmascaramiento discreto para comprensión textual y la difusión continua para generación visual, mientras las acopla mediante una arquitectura de atención compartida, simple y eficiente que reduce el cómputo redundante para condiciones fijas. Basándonos en MoD, introducimos además una estrategia de adaptación de longitud centrada en datos que permite una decodificación de longitud flexible en entornos multimodales sin cambios arquitectónicos. Experimentos exhaustivos demuestran que LLaDA-o alcanza un rendimiento de vanguardia entre los modelos de difusión omni en benchmarks de comprensión y generación multimodal, y alcanza 87.04 en DPG-Bench para generación de texto a imagen, respaldando la efectividad del modelado unificado de difusión omni. El código está disponible en https://github.com/ML-GSAI/LLaDA-o.
Los modelos fundacionales generativos se escalan cada vez más en anchura y profundidad, lo que plantea desafíos significativos para el aprendizaje estable de características y la transferencia confiable de hiperparámetros (HP) entre diferentes tamaños de modelo. Si bien la parametrización de actualización máxima (μP) ha proporcionado una solución fundamentada para ambos problemas en el escalado de anchura, las extensiones existentes al régimen de escalado conjunto de anchura y profundidad siguen siendo fragmentadas, específicas de arquitectura y optimizador, y a menudo dependen de teorías técnicamente complejas. En este trabajo, desarrollamos un marco espectral simple y unificado para μP bajo escalado conjunto de anchura-profundidad. Considerando redes residuales con profundidades de bloque variables, primero introducimos una condición espectral μP que caracteriza precisamente cómo deben escalarse las normas de los pesos y sus actualizaciones por paso con la anchura y profundidad, unificando formulaciones μP previamente dispares como casos especiales. Sobre esta base, derivamos una receta general para implementar μP en una amplia clase de optimizadores mapeando las restricciones espectrales a parametrizaciones concretas de HP. Este enfoque no solo recupera formulaciones μP existentes (por ejemplo, para SGD y AdamW) sino que también se extiende naturalmente a una gama más amplia de optimizadores. Finalmente, experimentos en modelos de lenguaje estilo GPT-2 demuestran que la condición espectral μP propuesta preserva el aprendizaje estable de características y permite una transferencia robusta de HP bajo escalado de anchura-profundidad.
Los recientes avances en los Modelos de Difusión de Video (VDM) fundamentales han logrado un progreso significativo. Sin embargo, a pesar de la notable calidad visual de los videos generados, la reconstrucción de escenas 3D consistentes a partir de estos resultados sigue siendo un desafío, debido a la limitada controlabilidad de la cámara y al contenido generado inconsistente cuando se visualiza desde distintas trayectorias de cámara. En este artículo, proponemos WorldStereo, un novedoso marco que conecta la generación de video guiada por cámara y la reconstrucción 3D a través de dos módulos de memoria geométrica dedicados. Formalmente, la memoria global-geométrica permite un control preciso de la cámara mientras inyecta *priors* estructurales aproximados mediante nubes de puntos actualizadas incrementalmente. Además, la memoria estéreo-espacial restringe los campos receptivos de atención del modelo con correspondencia 3D para centrarse en detalles de grano fino del banco de memoria. Estos componentes permiten a WorldStereo generar videos consistentes multi-vista bajo un control preciso de cámara, facilitando una reconstrucción 3D de alta calidad. Además, el WorldStereo basado en ramas de control flexible muestra una eficiencia impresionante, beneficiándose del backbone VDM destilado por correspondencia de distribuciones sin entrenamiento conjunto. Experimentos exhaustivos en benchmarks de generación de video guiada por cámara y de reconstrucción 3D demuestran la efectividad de nuestro enfoque. Cabe destacar que mostramos que WorldStereo actúa como un potente modelo del mundo, abordando diversas tareas de generación de escenas (ya sea comenzando desde imágenes perspectivas o panorámicas) con resultados 3D de alta fidelidad. Los modelos serán liberados.
El aprendizaje por refuerzo (RL) desempeña un papel central en la mejora del razonamiento y la alineación de los grandes modelos de lenguaje, pero su eficiencia depende críticamente de cómo se seleccionan los datos de entrenamiento. Las estrategias de selección en línea existentes se basan predominantemente en heurísticas basadas en la dificultad, favoreciendo puntos de datos con tasas de éxito intermedias, equiparando implícitamente la dificultad con la informatividad y descuidando la incertidumbre epistémica que surge de la evidencia limitada. Presentamos InSight, un método de muestreo de datos guiado por la INformación para el entrenamiento por refuerzo, basado en un objetivo de información mutua ponderada. Al modelar los resultados de los datos con tasas de éxito latentes bayesianas, demostramos que la reducción esperada de la incertidumbre se descompone en componentes complementarios dependientes de la dificultad y de la evidencia, revelando una limitación fundamental de la selección basada únicamente en la dificultad. Aprovechando esta observación, InSight construye una puntuación de adquisición estable basada en la creencia media del éxito de los puntos de datos en lugar de en resultados muestreados ruidosos, y se extiende naturalmente a entornos de múltiples ejecuciones comunes en el aprendizaje por refuerzo con recompensas verificables (RLVR). Experimentos exhaustivos demuestran que InSight logra consistentemente un rendimiento de vanguardia y mejora la eficiencia del entrenamiento, incluyendo una ganancia promedio de +1.41 en benchmarks de Planificación y Matemáticas, una mejora de +1.01 en razonamiento general, y una aceleración de hasta ~2.2x, con un overhead computacional adicional negligible.
El aprendizaje por refuerzo (RL) para razonamiento matemático puede sufrir de escasez de recompensas: en problemas complejos, el LLM no logra muestrear trayectorias correctas, impidiendo que el RL reciba retroalimentación positiva significativa. Al mismo tiempo, suelen existir soluciones de referencia escritas por humanos junto con el problema (por ejemplo, problemas de AoPS), pero el ajuste fino directo sobre estas soluciones no ofrece beneficio porque los modelos a menudo no pueden imitar demostraciones humanas que se encuentran fuera de su propia distribución de razonamiento. Presentamos el Ajuste Fino Guiado por Referencias (ReGFT), un método simple y efectivo que utiliza soluciones de referencia escritas por humanos para sintetizar trayectorias positivas en problemas difíciles y entrenar con ellas antes del RL. Para cada problema, proporcionamos al modelo una solución de referencia parcial y le permitimos generar su propia traza de razonamiento, asegurando que las trayectorias resultantes permanezcan en el espacio de razonamiento del modelo mientras aún se benefician de la guía de referencia. El ajuste fino sobre estas trayectorias guiadas por referencias incrementa la cantidad de problemas resolubles y produce un punto de control que recibe más recompensas positivas durante el RL. En tres benchmarks (AIME24, AIME25, BeyondAIME), ReGFT mejora consistentemente la precisión supervisada, acelera el entrenamiento DAPO y eleva la meseta final de rendimiento del RL. Nuestros resultados demuestran que ReGFT supera efectivamente la escasez de recompensas y desbloquea un razonamiento matemático más robusto basado en RL.
Los grandes modelos de lenguaje (LLM) se están convirtiendo en la base para agentes autónomos capaces de utilizar herramientas para resolver tareas complejas. El aprendizaje por refuerzo (RL) ha surgido como un enfoque común para inyectar dichas capacidades de agente, pero normalmente bajo configuraciones de entrenamiento muy controladas. Este método suele depender de pares tarea-solución cuidadosamente construidos y de una supervisión humana sustancial, lo que crea un obstáculo fundamental para la autoevolución abierta hacia sistemas superinteligentes. En este artículo, proponemos el marco Tool-R0 para entrenar agentes de uso de herramientas de propósito general desde cero con aprendizaje por refuerzo de autojuego, bajo una suposición de datos cero. Inicializado desde el mismo LLM base, Tool-R0 co-evoluciona un Generador y un Solucionador con recompensas complementarias: uno propone tareas desafiantes dirigidas en la frontera de competencia del otro, y el otro aprende a resolverlas mediante llamadas a herramientas del mundo real. Esto crea un ciclo de autoevolución que no requiere tareas o conjuntos de datos preexistentes. La evaluación en diferentes benchmarks de uso de herramientas muestra que Tool-R0 produce una mejora relativa del 92.5 % sobre el modelo base y supera a los baselines de uso de herramientas totalmente supervisados bajo la misma configuración. Nuestro trabajo proporciona además perspectivas empíricas sobre los agentes LLM de autojuego mediante el análisis de la co-evolución, la dinámica curricular y el comportamiento de escalado.
El aprendizaje por refuerzo (RL) se utiliza cada vez más para el post-entrenamiento de Modelos de Visión y Lenguaje (VLM) médicos, pero aún no está claro si el RL mejora el razonamiento visual médico o principalmente afina comportamientos ya inducidos por el ajuste fino supervisado (SFT). Presentamos un estudio controlado que desentraña estos efectos a lo largo de tres ejes: visión, SFT y RL. Utilizando MedMNIST como banco de pruebas multimodales, analizamos la percepción visual comparando los módulos de visión de los VLM con líneas base de solo visión, cuantificamos el soporte de razonamiento y la eficiencia de muestreo mediante Precisión@1 versus Pase@K, y evaluamos cuándo el RL cierra la brecha de soporte y cómo las ganancias se transfieren entre modalidades. Encontramos que el RL es más efectivo cuando el modelo ya tiene un soporte no trivial (Pase@K alto): principalmente afina la distribución de salida, mejorando la Precisión@1 y la eficiencia de muestreo, mientras que el SFT expande el soporte y hace efectivo al RL. Con base en estos hallazgos, proponemos una receta consciente de los límites y la instanciamos mediante el post-entrenamiento con RL de un modelo inicializado con OctoMed en un subconjunto pequeño y equilibrado de preguntas de opción múltiple de PMC-VQA, logrando un rendimiento promedio sólido en seis benchmarks de VQA médicos.
Presentamos V-SONAR, un espacio de incrustación visión-lenguaje extendido a partir del espacio de incrustación de solo texto SONAR (Omnilingual Embeddings Team et al., 2026), que admite 1500 lenguajes de texto y 177 lenguajes de habla. Para construir V-SONAR, proponemos un pipeline de alineación *post-hoc* que mapea las representaciones de un codificador visual existente al espacio SONAR. Evaluamos exhaustivamente V-SONAR y demostramos que sus incrustaciones logran un rendimiento competitivo en la recuperación de texto a video. Equipado con el decodificador de texto OMNISONAR, V-SONAR supera además a los modelos estado del arte visión-lenguaje en tareas de descripción de video, incluyendo DREAM-1K (BLEU 23.9 vs. 19.6) y PE-VIDEO (BLEU 39.0 vs. 30.0). Aprovechando V-SONAR, demostramos primero que el Modelo de Gran Concepto (LCM; LCM team et al. 2024), que opera en SONAR y fue entrenado únicamente con texto en inglés, puede realizar comprensión de conceptos visuales únicos y múltiples de manera *zero-shot*. Finalmente, presentamos V-LCM, que extiende el LCM mediante ajuste instruccional visión-lenguaje. V-LCM codifica entradas visuales y lingüísticas en una secuencia unificada de incrustaciones latentes mediante V-SONAR y SONAR, y se entrena con el mismo objetivo de difusión latente para la predicción de la siguiente incrustación que en el pre-entrenamiento de solo texto del LCM. Los experimentos en una mezcla de datos de ajuste instruccional multimodal y multilingüe a gran escala resaltan el potencial de V-LCM: este iguala a los modelos estado del arte visión-lenguaje en tareas que cubren descripción de imágenes/videos y respuesta a preguntas, mientras que los supera significativamente en 61 lenguajes de recursos abundantes a escasos de los 62 lenguajes evaluados en total.
Cuando una descripción textual se extiende con un detalle adicional, la similitud imagen-texto debería disminuir si ese detalle es incorrecto. Demostramos que los codificadores duales de estilo CLIP a menudo violan esta intuición: añadir un objeto o relación plausible pero incorrecto a una descripción por lo demás correcta puede aumentar la puntuación de similitud. Llamamos a estos casos *medias verdades*. En COCO, CLIP prefiere la descripción corta correcta solo el 40.6% de las veces, y el rendimiento desciende al 32.9% cuando el detalle añadido es una relación. Rastreamos esta vulnerabilidad hasta una supervisión débil sobre las partes de los epígrafes: el entrenamiento contrastivo alinea oraciones completas, pero no hace cumplir explícitamente que las entidades y relaciones individuales estén fundamentadas. Proponemos CS-CLIP (CLIP con Supervisión de Componentes), que descompone los epígrafes en unidades de entidad y relación, construye una alternativa mínimamente editada para cada unidad, y ajusta el modelo para que puntúe la unidad correcta por encima de su alternativa, preservando la inferencia estándar del codificador dual. CS-CLIP eleva la precisión en medias verdades al 69.3% y mejora el rendimiento promedio en benchmarks composicionales establecidos en 5.7 puntos, lo que sugiere que reducir los errores de medias verdades se alinea con ganancias más amplias en la comprensión composicional. El código está disponible públicamente en: https://github.com/kargibora/CS-CLIP
¿Pueden los agentes de LLM explorar bases de código y razonar sobre la semántica del código sin ejecutarlo? Estudiamos esta capacidad, a la que llamamos razonamiento de código agéntico, e introducimos el razonamiento semiformal: una metodología de *prompting* estructurado que requiere que los agentes construyan premisas explícitas, tracen rutas de ejecución y deriven conclusiones formales. A diferencia de una cadena de pensamiento no estructurada, el razonamiento semiformal actúa como un certificado: el agente no puede omitir casos ni hacer afirmaciones sin apoyo. Evaluamos en tres tareas (verificación de equivalencia de parches, localización de fallos y respuesta a preguntas sobre código) y mostramos que el razonamiento semiformal mejora consistentemente la precisión en todas ellas. Para la equivalencia de parches, la precisión mejora del 78% al 88% en ejemplos seleccionados y alcanza el 93% en parches generados por agentes del mundo real, acercándose a la fiabilidad necesaria para señales de recompensa de RL libres de ejecución. Para la respuesta a preguntas sobre código en RubberDuckBench Mohammad et al. (2026), el razonamiento semiformal logra una precisión del 87%. Para la localización de fallos en Defects4J Just et al. (2014), el razonamiento semiformal mejora la precisión Top-5 en 5 puntos porcentuales respecto al razonamiento estándar. Estos resultados demuestran que el razonamiento agéntico estructurado permite un análisis semántico de código significativo sin ejecución, abriendo aplicaciones prácticas en pipelines de entrenamiento de RL, revisión de código y análisis estático de programas.
Los razonadores de tipo "Pensar-Responder", como DeepSeek-R1, han logrado avances notables al aprovechar un razonamiento interno interpretable. Sin embargo, a pesar de la frecuente presencia de pistas autorreflexivas como "¡Oops!", estos sistemas siguen siendo vulnerables a errores en la salida durante la inferencia de pasada única. Para abordar esta limitación, proponemos un Proceso Recursivo de Pensar-Responder (R-TAP, por sus siglas en inglés) eficiente, que permite a los modelos participar en ciclos de razonamiento iterativos y generar respuestas más precisas, yendo más allá de los enfoques convencionales de pasada única. Es central en este enfoque un generador de confianza que evalúa la certeza de las respuestas del modelo y guía las mejoras subsiguientes. Al incorporar dos recompensas complementarias —la Recompensa por Aumento Recursivo de la Confianza y la Recompensa por Confianza en la Respuesta Final— demostramos que los modelos potenciados por R-TAP superan consistentemente a los métodos convencionales de pasada única, tanto para modelos de lenguaje grande (LLM) como para modelos de lenguaje visual (VLM). Además, al analizar la frecuencia de expresiones similares a "Oops" en las respuestas del modelo, encontramos que los modelos con R-TAP aplicado exhiben significativamente menos patrones autorreflexivos, lo que resulta en un razonamiento en tiempo de inferencia más estable y rápido. Esperamos que R-TAP allane el camino para evolucionar hacia métodos eficientes y elaborados que refinen los procesos de razonamiento de la IA futura.
La dirección de la atención es una técnica importante para controlar el enfoque del modelo, permitiendo capacidades como el resaltado de indicaciones, donde el modelo prioriza el texto especificado por el usuario. Sin embargo, los métodos existentes de dirección de la atención requieren el almacenamiento explícito de la matriz de atención completa, lo que los hace incompatibles con implementaciones eficientes en memoria como FlashAttention. Introducimos la Amplificación Espectral de Claves por Edición (SEKA), un método de dirección que no requiere entrenamiento y que aborda este problema editando directamente los *embeddings* de clave antes del cálculo de la atención. SEKA utiliza la descomposición espectral para dirigir los *embeddings* de clave hacia direcciones latentes que amplifican las puntuaciones de atención para ciertos *tokens*. Extendemos esto a SEKA Adaptativo (AdaSEKA), una variante adaptable a la consulta que utiliza un mecanismo de enrutamiento sin entrenamiento para combinar dinámicamente múltiples subespacios expertos basándose en la intención semántica de la indicación. Nuestros experimentos muestran que ambos métodos superan significativamente a los baselines sólidos en benchmarks estándar de dirección, añadiendo una latencia y una sobrecarga de memoria mucho menores, siendo compatibles con la atención optimizada.
Presentamos Legal RAG Bench, un punto de referencia y una metodología de evaluación para valorar el rendimiento integral de los sistemas jurídicos de RAG. Como benchmark, Legal RAG Bench consta de 4.876 fragmentos del Victorian Criminal Charge Book junto con 100 preguntas complejas, elaboradas manualmente, que exigen un conocimiento experto en derecho penal y procedimiento. Se proporcionan tanto respuestas de desarrollo extenso como los pasajes de apoyo correspondientes. Como metodología de evaluación, Legal RAG Bench aprovecha un diseño factorial completo y un novedoso marco de descomposición jerárquica de errores, permitiendo comparaciones homogéneas de las contribuciones de los modelos de recuperación y de razonamiento en RAG. Evaluamos tres modelos de embeddings de última generación (Kanon 2 Embedder de Isaacus, Gemini Embedding 001 de Google y Text Embedding 3 Large de OpenAI) y dos LLMs de vanguardia (Gemini 3.1 Pro y GPT-5.2), y encontramos que la recuperación de información es el principal impulsor del rendimiento de los sistemas jurídicos de RAG, mientras que los LLMs ejercen un efecto más moderado en la corrección y la fundamentación. Kanon 2 Embedder, en particular, tuvo el impacto positivo más significativo en el rendimiento, mejorando la corrección media en 17,5 puntos, la fundamentación en 4,5 puntos y la precisión de la recuperación en 34 puntos. Observamos que muchos errores atribuidos a alucinaciones en los sistemas jurídicos de RAG son, en realidad, desencadenados por fallos en la recuperación, lo que nos lleva a concluir que la recuperación establece el límite máximo de rendimiento para muchos sistemas jurídicos de RAG modernos. Documentamos el porqué y el cómo construimos Legal RAG Bench junto con los resultados de nuestras evaluaciones. También liberamos abiertamente nuestro código y datos para facilitar la reproducción de nuestros hallazgos.
La creación de entornos digitales interactivos para videojuegos, robótica y simulaciones depende de objetos 3D articulados cuya funcionalidad surge de su geometría de piezas y su estructura cinemática. Sin embargo, los enfoques existentes siguen siendo fundamentalmente limitados: los métodos de reconstrucción basados en optimización requieren un ajuste lento y específico por objeto, y normalmente solo manejan objetos simples con una única articulación, mientras que los métodos basados en recuperación ensamblan piezas a partir de una biblioteca fija, lo que genera geometrías repetitivas y una pobre generalización. Para abordar estos desafíos, presentamos ArtLLM, un marco novedoso para generar activos articulados de alta calidad directamente a partir de mallas 3D completas. En su núcleo se encuentra un modelo de lenguaje grande multimodal 3D entrenado en un conjunto de datos de articulación a gran escala, recopilado tanto de conjuntos de datos de articulación existentes como de objetos generados proceduralmente. A diferencia de trabajos anteriores, ArtLLM predice de forma autoregresiva un número variable de partes y articulaciones, infiriendo su estructura cinemática de manera unificada a partir de la nube de puntos del objeto. Este diseño consciente de la articulación condiciona luego a un modelo generativo 3D para sintetizar geometrías de piezas de alta fidelidad. Los experimentos en el conjunto de datos PartNet-Mobility muestran que ArtLLM supera significativamente a los métodos más avanzados tanto en precisión del diseño de partes como en la predicción de articulaciones, al mismo tiempo que generaliza de manera robusta a objetos del mundo real. Finalmente, demostramos su utilidad en la construcción de gemelos digitales, destacando su potencial para el aprendizaje robótico escalable.
Los LLM han transformado fundamentalmente la recuperación densa, actualizando sus arquitecturas base de codificadores discriminativos a arquitecturas generativas. Sin embargo, persiste una desconexión crítica: aunque los LLM poseen fuertes capacidades de razonamiento, los recuperadores actuales los utilizan predominantemente como codificadores estáticos, dejando sin explorar su potencial para el razonamiento complejo. Para abordar esto, los enfoques existentes suelen adoptar pipelines de reescritura-y-recuperación para generar razonamientos CoT explícitos antes de la recuperación. Sin embargo, esto incurre en una latencia prohibitiva. En este artículo, proponemos LaSER, un novedoso marco de auto-destilación que internaliza el razonamiento explícito en el espacio latente de los recuperadores densos. Operando sobre una arquitectura LLM compartida, LaSER introduce un mecanismo de entrenamiento de doble vista: una vista Explícita que codifica explícitamente las trayectorias de razonamiento verdaderas, y una vista Latente que realiza un pensamiento latente implícito. Para cerrar la brecha entre estas vistas, diseñamos una estrategia de alineación multi-grano. Más allá de la alineación estándar de salidas, introducimos un mecanismo de alineación de trayectoria que sincroniza los estados latentes intermedios de la ruta latente con la progresión semántica de los segmentos de razonamiento explícito. Esto permite al recuperador pensar en silencio y efectivamente sin generación de texto autoregresiva. Experimentos exhaustivos en benchmarks intensivos de razonamiento, tanto dentro como fuera de dominio, demuestran que LaSER supera significativamente a los baselines state-of-the-art. Además, los análisis en diversas arquitecturas base y escalas de modelo validan la robustez de nuestro enfoque, confirmando que nuestro marco de aprendizaje unificado es esencial para elicitar un pensamiento latente efectivo. Nuestro método combina exitosamente la profundidad de razonamiento de los pipelines CoT explícitos con la eficiencia inferencial de los recuperadores densos estándar.
El aprendizaje por refuerzo en tiempo de prueba (TTRL) ha surgido como un paradigma prometedor para la autoevolución de grandes modelos de razonamiento (LRM), permitiendo la adaptación en línea sobre entradas de prueba no etiquetadas mediante recompensas autoinducidas a través de votación mayoritaria. Sin embargo, un consenso no verificado, espurio y de alta frecuencia puede convertirse en una señal de recompensa sesgada y reforzada, conduciendo a un colapso modal incorrecto. Abordamos este modo de fallo con T^3RL (Verificación con Herramientas para el Aprendizaje por Refuerzo en Tiempo de Prueba), que introduce la verificación con herramientas en tiempo de prueba en la estimación de recompensas. Concretamente, un verificador utiliza una herramienta externa como evidencia (por ejemplo, de la ejecución de código) para dar mayor peso a las trayectorias verificadas en una votación consciente de la verificación, produciendo pseudolabels más confiables para el entrenamiento. En diversas dificultades matemáticas (MATH-500, AMC y AIME 2024) y tipos de modelos base diversos, T^3RL mejora significativamente respecto a TTRL, con ganancias mayores en problemas más difíciles. En un sentido más amplio, T^3RL puede verse como una síntesis de datos en línea verificada, destacando la verificación con herramientas en tiempo de prueba como un mecanismo clave para estabilizar la autoevolución.
El entrenamiento con datos simbólicos verificables es un método prometedor para ampliar la frontera de razonamiento de los modelos de lenguaje más allá de lo que ofrecen los corpus de pre-entrenamiento estándar. Sin embargo, los generadores procedimentales existentes a menudo dependen de rompecabezas o plantillas fijos y no proporcionan la amplitud distribucional necesaria a escala. Presentamos Reasoning Core, un conjunto de herramientas escalable que genera de manera procedimental datos de razonamiento simbólico verificables en dominios formales fundamentales: planificación PDDL sobre dominios aleatorizados, lógica de primer orden con igualdad, análisis sintáctico y generación de gramáticas libres de contexto, razonamiento causal sobre redes bayesianas aleatorias y sistemas de ecuaciones. Cada tarea se empareja con un solucionador externo para una verificación rigurosa y admite un control continuo de la dificultad para el diseño curricular. Los ejemplos pueden incluir opcionalmente trazas de razonamiento derivadas del solucionador, permitiendo un entrenamiento supervisado desde las primeras etapas de pre-entrenamiento, y la misma interfaz proporciona funciones de recompensa verificables para el aprendizaje por refuerzo. Nuestros experimentos muestran que mezclar datos de Reasoning Core en el pre-entrenamiento mejora el razonamiento en tareas posteriores mientras preserva, o incluso mejora ligeramente, la calidad del modelado del lenguaje. Las evaluaciones *zero-shot* confirman que estas tareas representan un desafío para modelos de vanguardia como GPT-5. El código y los datos están disponibles públicamente bajo la licencia MIT.
Este informe presenta CharacterFlywheel, un proceso iterativo de volante de inercia para mejorar los modelos de lenguaje grande (LLM) en aplicaciones de chat social en producción en Instagram, WhatsApp y Messenger. Partiendo de LLaMA 3.1, refinamos los modelos a lo largo de 15 generaciones utilizando datos del tráfico real de usuarios, tanto interno como externo. Mediante implementaciones continuas desde julio de 2024 hasta abril de 2025, realizamos pruebas A/B controladas de 7 días que mostraron mejoras consistentes en la participación: 7 de cada 8 modelos recién implementados demostraron un incremento positivo respecto a la línea base, con los modelos de mejor rendimiento logrando hasta un 8.8% de mejora en la amplitud de la participación y un 19.4% en la profundidad de la participación. También observamos ganancias sustanciales en la capacidad de direccionamiento, con el seguimiento de instrucciones aumentando del 59.2% al 84.8% y las violaciones de instrucciones disminuyendo del 26.6% al 5.8%. Detallamos el proceso CharacterFlywheel, que integra la curación de datos, el modelado de recompensas para estimar e interpolar el panorama de las métricas de participación, el ajuste fino supervisado (SFT), el aprendizaje por refuerzo (RL), y evaluaciones tanto offline como online para garantizar un progreso confiable en cada paso de optimización. También discutimos nuestros métodos para la prevención de sobreajuste y la navegación de las dinámicas de producción a gran escala. Estas contribuciones avanzan el rigor científico y la comprensión de los LLM en aplicaciones sociales que sirven a millones de usuarios.
Presentamos (Classroom Final Exam), un benchmark multimodal para evaluar las capacidades de razonamiento de los grandes modelos de lenguaje en más de 20 dominios STEM. está compilado a partir de problemas auténticos de tareas y exámenes universitarios utilizados repetidamente, junto con soluciones de referencia proporcionadas por los instructores del curso. representa un desafío significativo incluso para los modelos de vanguardia: el recién lanzado Gemini-3.1-pro-preview logra una precisión general del 59.69%, mientras que el segundo mejor modelo, Gemini-3-flash-preview, alcanza un 55.46%, lo que deja un margen de mejora considerable. Más allá de los resultados del ranking, realizamos un análisis diagnóstico descomponiendo las soluciones de referencia en flujos de razonamiento. Encontramos que, aunque los modelos de vanguardia a menudo pueden responder correctamente a subpreguntas intermedias, tienen dificultades para derivar y mantener de manera confiable estados intermedios correctos a lo largo de soluciones de múltiples pasos. Además, observamos que las soluciones generadas por el modelo suelen tener más pasos de razonamiento que las proporcionadas por el instructor, lo que indica una eficiencia de pasos subóptima y un mayor riesgo de acumulación de errores. Los datos y el código están disponibles en https://github.com/Analogy-AI/CFE_Bench.
Los modelos de difusión texto-imagen (T2I) recientes logran un realismo notable, pero la alineación fiel entre la instrucción y la imagen sigue siendo un desafío, particularmente para instrucciones complejas con múltiples objetos, relaciones y atributos detallados. Los métodos de escalado en tiempo de inferencia existentes, que no requieren entrenamiento, dependen de presupuestos de iteración fijos que no pueden adaptarse a la dificultad de la instrucción, mientras que los modelos ajustados por reflexión requieren conjuntos de datos de reflexión cuidadosamente seleccionados y un ajuste fino extensivo conjunto de modelos de difusión y modelos de visión y lenguaje, lo que a menudo genera sobreajuste a los datos de rutas de reflexión y carece de transferibilidad entre modelos. Presentamos RAISE (Evolución Automejoradora y Adaptativa a Requisitos), un marco evolutivo impulsado por requisitos y que no requiere entrenamiento para la generación T2I adaptativa. RAISE formula la generación de imágenes como un proceso de escalado adaptativo impulsado por requisitos, evolucionando una población de candidatos en tiempo de inferencia a través de un conjunto diverso de acciones de refinamiento, que incluyen reescritura de instrucciones, remuestreo de ruido y edición instructiva. Cada generación se verifica frente a una lista de verificación estructurada de requisitos, lo que permite al sistema identificar dinámicamente los elementos no satisfechos y asignar más cálculo solo donde sea necesario. Esto logra un escalado adaptativo en tiempo de prueba que alinea el esfuerzo computacional con la complejidad semántica de la consulta. En GenEval y DrawBench, RAISE alcanza una alineación de vanguardia (0.94 general en GenEval) mientras incurre en menos muestras generadas (reducidas en un 30-40%) y llamadas al Modelo de Visión y Lenguaje (reducidas en un 80%) que los métodos base anteriores de escalado y ajuste por reflexión, demostrando una automejora multirronda eficiente, generalizable y agnóstica al modelo. El código está disponible en https://github.com/LiyaoJiang1998/RAISE.
Presentamos Synthetic Visual Genome 2 (SVG2), un conjunto de datos a gran escala de grafos de escena panópticos en video. SVG2 contiene más de 636K videos con 6.6M de objetos, 52.0M de atributos y 6.7M de relaciones, lo que supone un aumento de un orden de magnitud en escala y diversidad respecto a conjuntos de datos anteriores de grafos de escena espacio-temporales. Para crear SVG2, diseñamos un pipeline completamente automatizado que combina segmentación panóptica multi-escala, seguimiento de trayectorias en línea y fuera de línea con descubrimiento automático de nuevos objetos, análisis semántico por trayectoria e inferencia de relaciones espacio-temporales basada en GPT-5. Sobre este recurso, entrenamos TRaSER, un modelo de generación de grafos de escena en video. TRaSER aumenta los Modelos de Lenguaje Visual (VLM) con un mecanismo de disposición de tokens alineado con trayectorias y nuevos módulos: un remuestreador de trayectorias de objetos y un remuestreador de ventana temporal para convertir videos brutos y trayectorias panópticas en grafos de escena espacio-temporales compactos en una sola pasada forward. El remuestreador de ventana temporal vincula tokens visuales a segmentos cortos de trayectoria para preservar el movimiento local y la semántica temporal, mientras que el remuestreador de trayectorias de objetos agrega trayectorias completas para mantener el contexto global de los objetos. En los conjuntos de datos de prueba PVSG, VIPSeg, VidOR y SVG2, TRaSER mejora la detección de relaciones entre +15 y 20%, la predicción de objetos entre +30 y 40% respecto a las bases de referencia de código abierto más sólidas y en +13% respecto a GPT-5, y la predicción de atributos en +15%. Cuando los grafos de escena generados por TRaSER se envían a un VLM para respuesta a preguntas sobre video, se obtiene una ganancia de precisión absoluta de +1.5 a 4.6% respecto a usar solo video o video aumentado con los grafos de escena generados por Qwen2.5-VL, lo que demuestra la utilidad de los grafos de escena espacio-temporales explícitos como representación intermedia.
La respuesta visual a preguntas basada en conocimiento (KB-VQA) demuestra un potencial significativo para manejar tareas que requieren gran cantidad de conocimiento. Sin embargo, surgen conflictos entre el conocimiento paramétrico estático en los modelos de lenguaje visual (VLMs) y la información recuperada dinámicamente, debido al conocimiento estático del modelo procedente del pre-entrenamiento. Las salidas pueden ignorar los contextos recuperados o exhibir una integración inconsistente con el conocimiento paramétrico, lo que plantea desafíos sustanciales para la KB-VQA. Los métodos actuales de mitigación de conflictos de conocimiento, adaptados principalmente de enfoques basados en lenguaje, se centran en conflictos a nivel de contexto mediante estrategias de *prompting* diseñadas o mecanismos de decodificación conscientes del contexto. No obstante, estos métodos descuidan el papel crítico de la información visual en los conflictos y adolecen de contextos recuperados redundantes, lo que perjudica la identificación precisa y la mitigación efectiva de los conflictos. Para abordar estas limitaciones, proponemos CC-VQA: un método novedoso, libre de entrenamiento, y consciente de conflictos y correlaciones para KB-VQA. Nuestro método comprende dos componentes principales: (1) Razonamiento de Conflictos Contextuales Centrado en la Visión, que realiza un análisis de conflictos visual-semánticos a través de contextos de conocimiento internos y externos; y (2) Codificación y Decodificación Guiada por Correlaciones, que presenta compresión de codificación posicional para enunciados de baja correlación y decodificación adaptativa utilizando una puntuación de conflictos ponderada por correlaciones. Evaluaciones exhaustivas en los benchmarks E-VQA, InfoSeek y OK-VQA demuestran que CC-VQA logra un rendimiento de vanguardia, produciendo mejoras de precisión absoluta del 3.3% al 6.4% en comparación con los métodos existentes. El código está disponible en https://github.com/cqu-student/CC-VQA.
Identificamos el razonamiento sobre oclusiones como un aspecto fundamental pero subestimado en la generación condicionada por disposición 3D. Es esencial para sintetizar objetos parcialmente ocluidos con geometría y escala consistentes en profundidad. Si bien los métodos existentes pueden generar escenas realistas que siguen disposiciones de entrada, a menudo fallan al modelar oclusiones precisas entre objetos. Proponemos SeeThrough3D, un modelo para generación condicionada por disposición 3D que modela explícitamente las oclusiones. Introducimos una representación de escena 3D consciente de oclusiones (OSCR), donde los objetos se representan como cajas 3D translúcidas colocadas en un entorno virtual y renderizadas desde el punto de vista de cámara deseado. La transparencia codifica las regiones ocultas de los objetos, permitiendo al modelo razonar sobre las oclusiones, mientras que la vista renderizada proporciona control explícito de la cámara durante la generación. Condicionamos un modelo preentrenado de generación de imágenes basado en flujo y texto mediante la introducción de un conjunto de tokens visuales derivados de nuestra representación 3D renderizada. Además, aplicamos autoatención enmascarada para vincular con precisión cada caja delimitadora de objeto a su descripción textual correspondiente, permitiendo la generación precisa de múltiples objetos sin mezcla de atributos. Para entrenar el modelo, construimos un conjunto de datos sintético con diversas escenas multiobjeto que presentan fuertes oclusiones entre objetos. SeeThrough3D generaliza eficazmente a categorías de objetos no vistas y permite un control preciso de la disposición 3D con oclusiones realistas y control de cámara consistente.
El Ajuste Federado de Instrucciones (FIT) permite el ajuste colaborativo de instrucciones de modelos de lenguaje grandes entre múltiples organizaciones (clientes) en un entorno de silos cruzados sin requerir el intercambio de instrucciones privadas. Hallazgos recientes sobre puertas traseras naturales y el método existente de recolección de datos de entrenamiento sugieren que las muestras envenenadas pueden ser omnipresentes e incrustarse inadvertidamente en conjuntos de datos del mundo real, distribuyéndose potencialmente entre todos los clientes, incluso si estos son benignos. Este trabajo examina sistemáticamente esta amenaza en FIT, demostrando que las defensas existentes son ineficaces cuando los datos envenenados están intercalados entre todos los clientes. Abordar este desafío conlleva dos dificultades principales: identificar las características distintivas de las muestras envenenadas en cada cliente y permitir una defensa colaborativa cuando algunos clientes están fuertemente dominados por muestras envenenadas. Para abordar estas dificultades, identificamos los gradientes en el dominio de la frecuencia como una señal robusta para distinguir datos envenenados. Además, proponemos un mecanismo global de agrupación secundaria que facilita la identificación colaborativa de muestras envenenadas entre clientes. En resumen, este artículo presenta ProtegoFed, el primer marco FIT libre de puertas traseras que detecta, elimina e incluso purifica con precisión datos envenenados intercalados entre clientes durante el entrenamiento. Los resultados experimentales en cuatro conjuntos de datos de FL muestran que ProtegoFed identifica entre el 92.00% y el 100.00% de las muestras envenenadas, reduce la tasa de éxito del ataque a casi cero y mantiene la utilidad en la tarea principal. El código está disponible en https://github.com/dongdongzhaoUP/ProtegoFed.
Los recientes avances en generación de vídeo han abierto nuevas vías para la simulación macroscópica de sistemas dinámicos complejos, pero su aplicación a fenómenos microscópicos sigue estando mayormente inexplorada. La simulación a microescala promete grandes avances en aplicaciones biomédicas como el descubrimiento de fármacos, sistemas de órgano-en-un-chip y estudios de mecanismos de enfermedades, además de mostrar potencial en educación y visualización interactiva. En este trabajo presentamos MicroWorldBench, un benchmark multinivel basado en rúbricas para tareas de simulación microscópica. MicroWorldBench permite una evaluación sistemática basada en rúbricas mediante 459 criterios únicos anotados por expertos que abarcan múltiples tareas de simulación microscópica (por ejemplo, procesos a nivel de órgano, dinámicas celulares e interacciones moleculares subcelulares) y dimensiones de evaluación (por ejemplo, fidelidad científica, calidad visual, seguimiento de instrucciones). MicroWorldBench revela que los modelos actuales de generación de vídeo de última generación fallan en la simulación microscópica, mostrando violaciones de leyes físicas, inconsistencias temporales y desalineación con criterios expertos. Para abordar estas limitaciones, construimos MicroSim-10K, un conjunto de datos de simulación de alta calidad verificado por expertos. Aprovechando este conjunto de datos, entrenamos MicroVerse, un modelo de generación de vídeo específico para simulación microscópica. MicroVerse puede reproducir con precisión mecanismos microscópicos complejos. Nuestro trabajo introduce por primera vez el concepto de Simulación de Micro-Mundos y presenta una prueba de concepto, allanando el camino para aplicaciones en biología, educación y visualización científica. Demostramos el potencial de las simulaciones microscópicas educativas de mecanismos biológicos. Nuestros datos y código están disponibles públicamente en https://github.com/FreedomIntelligence/MicroVerse.
El desarrollo de sistemas de reconocimiento automático del habla (ASR) para lenguas de bajos recursos se ve obstaculizado por la escasez de corpus transcritos. Este estudio de prueba de concepto explora las canciones como una fuente de datos no convencional pero prometedora para el ASR del kazajo. Curramos un conjunto de datos de 3.013 pares audio-texto (aproximadamente 4,5 horas) de 195 canciones de 36 artistas, segmentadas a nivel de línea de letra. Utilizando Whisper como reconocedor base, afinamos modelos bajo siete escenarios de entrenamiento que involucran Canciones, Common Voice Corpus (CVC) y FLEURS, y los evaluamos en tres benchmarks: CVC, FLEURS y Kazakh Speech Corpus 2 (KSC2). Los resultados muestran que el ajuste fino basado en canciones mejora el rendimiento respecto a los baselines *zero-shot*. Por ejemplo, Whisper Large-V3 Turbo entrenado con una mezcla de Canciones, CVC y FLEURS logra un WER normalizado del 27,6% en CVC y del 11,8% en FLEURS, mientras que reduce a la mitad el error en KSC2 (39,3% frente a 81,2%) en comparación con el modelo *zero-shot*. Aunque estas mejoras se mantienen por debajo de las de los modelos entrenados con el corpus de 1.100 horas de KSC2, demuestran que incluso mezclas modestas de canciones y habla pueden producir mejoras de adaptación significativas en ASR de bajos recursos. El conjunto de datos se publica en Hugging Face con fines de investigación bajo una licencia restringida y no comercial.
El aprendizaje por observación requiere que un agente aprenda a realizar una tarea refiriéndose únicamente a observaciones de la tarea ejecutada. Este trabajo investiga el escenario equivalente en el aprendizaje robótico del mundo real, donde no se asume el acceso a recompensas diseñadas manualmente ni a las acciones del demostrador. Para abordar este entorno con restricciones de datos, este trabajo presenta un algoritmo de Aprendizaje por Refuerzo Inverso (IRL) basado en planificación para el modelado del mundo a partir únicamente de la observación y la interacción. Los experimentos realizados completamente en el mundo real demuestran que este paradigma es efectivo para aprender tareas de manipulación basadas en imágenes desde cero en menos de una hora, sin asumir conocimiento previo, pre-entrenamiento o datos de ningún tipo más allá de las observaciones de la tarea. Además, este trabajo demuestra que la representación del modelo del mundo aprendida es capaz de realizar aprendizaje por transferencia en línea en el mundo real desde cero. En comparación con enfoques existentes, incluidos IRL, RL y Clonación de Comportamiento (BC), que tienen suposiciones más restrictivas, el enfoque propuesto demuestra una eficiencia muestral y tasas de éxito significativamente mayores, permitiendo un camino práctico hacia adelante para el modelado del mundo en línea y la planificación a partir de la observación y la interacción. Videos y más en: https://uwrobotlearning.github.io/mpail2/.
Presentamos FireRed-OCR, un marco sistemático para especializar modelos visuales-lingüísticos generales (VLM) y convertirlos en modelos de OCR de alto rendimiento. Los grandes modelos visuales-lingüísticos han demostrado capacidades generales impresionantes, pero a menudo sufren de "alucinación estructural" al procesar documentos complejos, lo que limita su utilidad en aplicaciones industriales de OCR. En este artículo, presentamos FireRed-OCR, un marco novedoso diseñado para transformar VLMs de propósito general (basados en Qwen3-VL) en expertos en análisis estructural de documentos con precisión a nivel de píxel. Para abordar la escasez de datos estructurados de alta calidad, construimos una "Fábrica de Datos de Geometría + Semántica". A diferencia del muestreo aleatorio tradicional, nuestra canalización aprovecha la agrupación de características geométricas y el etiquetado multidimensional para sintetizar y curar un conjunto de datos altamente equilibrado, manejando eficazmente diseños de cola larga y tipos de documentos raros. Además, proponemos una Estrategia de Entrenamiento Progresivo en Tres Etapas que guía al modelo desde la percepción a nivel de píxel hasta la generación de estructura lógica. Este currículo incluye: (1) Pre-alineación multitarea para fundamentar la comprensión de la estructura del documento por parte del modelo; (2) SFT Especializado para estandarizar la salida en Markdown de imagen completa; y (3) Optimización de Políticas Relativas Grupales con Restricciones de Formato (GRPO), que utiliza aprendizaje por refuerzo para hacer cumplir la validez sintáctica estricta y la integridad estructural (por ejemplo, cierre de tablas, sintaxis de fórmulas). Evaluaciones exhaustivas en OmniDocBench v1.5 demuestran que FireRed-OCR logra un rendimiento de vanguardia con una puntuación general del 92.94%, superando significativamente a líneas de base sólidas como DeepSeek-OCR 2 y OCRVerse en métricas de texto, fórmulas, tablas y orden de lectura. Liberamos nuestro código y los pesos del modelo para facilitar el paradigma de "VLM General a Experto Estructural Especializado".
Los Modelos de Fundamentos Geoespaciales (GFM) han sido evaluados en diversas tareas de observación de la Tierra, incluyendo múltiples dominios, y han demostrado un gran potencial para producir mapas fiables incluso con etiquetas escasas. Sin embargo, la evaluación comparativa de los GFMs para aplicaciones criosféricas ha sido limitada, principalmente debido a la falta de conjuntos de datos de evaluación adecuados. Para abordar esta brecha, presentamos Cryo-Bench, un benchmark compilado para evaluar el rendimiento de los GFMs en componentes criosféricos clave. Cryo-Bench incluye glaciares cubiertos de detritos, lagos glaciares, hielo marino y frentes de desprendimiento, abarcando múltiples sensores y amplias regiones geográficas. Evaluamos 14 GFMs junto con líneas base de UNet y ViT para valorar sus ventajas, limitaciones y estrategias de uso óptimas. Con un codificador congelado, UNet logra el mIoU promedio más alto de 66.38, seguido de TerraMind con 64.02, en los cinco conjuntos de datos de evaluación incluidos en Cryo-Bench. En el entorno de pocos ejemplos (10% de datos de entrada), GFMs como DOFA y TerraMind superan a UNet, alcanzando puntuaciones mIoU de 59.53, 56.62 y 56.60, respectivamente, en comparación con el 56.60 de U-Net. Al ajustar completamente los GFMs, observamos un rendimiento inconsistente entre conjuntos de datos y modelos. Sin embargo, el ajuste de la tasa de aprendizaje junto con el fine-tuning mejora sustancialmente el rendimiento de los GFMs. Por ejemplo, la evaluación en dos conjuntos de datos representativos (GLID y CaFFe) muestra una mejora relativa promedio del 12.77%. A pesar de tener una representación mínima de la Criosfera en sus datos de preentrenamiento, los GFMs exhiben capacidades notables de adaptación de dominio y producen resultados significativos en diversas tareas. Con base en nuestros hallazgos, recomendamos el fine-tuning del codificador con optimización de hiperparámetros para lograr el mejor rendimiento posible, mientras que se deben usar codificadores congelados cuando los usuarios necesiten resultados rápidos sin experimentación extensiva. (https://github.com/Sk-2103/Cryo-Bench{GitHub}).
El rendimiento lácteo de las cabras lecheras Saanen, reconocidas por su alta producción de leche, está intrínsecamente ligado a su tamaño corporal, lo que hace que la medición corporal 3D precisa sea esencial para evaluar el potencial de producción lechera. Sin embargo, los métodos de reconstrucción existentes carecen de datos 3D auténticos específicos para cabras. Para abordar esta limitación, establecemos el conjunto de datos FemaleSaanenGoat que contiene vídeos RGBD sincronizados de ocho vistas de 55 cabras Saanen hembras (6-18 meses). Utilizando DynamicFusion multi-vista, fusionamos secuencias de nubes de puntos ruidosas y no rígidas en escaneos 3D de alta fidelidad, superando los desafíos derivados de superficies irregulares y movimientos rápidos. Basándonos en estos escaneos, desarrollamos SaanenGoat, un modelo de forma 3D paramétrico diseñado específicamente para cabras Saanen hembras. Este modelo presenta una plantilla refinada con 41 articulaciones esqueléticas y una representación mejorada de la ubre, registrada con nuestros datos de escaneo. Un espacio de forma integral construido a partir de 48 cabras permite una representación precisa de diversas variaciones individuales. Con la ayuda del modelo SaanenGoat, obtenemos una reconstrucción 3D de alta precisión a partir de una entrada RGBD de vista única y logramos la medición automatizada de seis dimensiones corporales críticas: longitud corporal, altura, anchura de pecho, perímetro torácico, anchura de cadera y altura de la cadera. Los resultados experimentales demuestran la precisión superior de nuestro método tanto en la reconstrucción 3D como en la medición corporal, presentando un nuevo paradigma para aplicaciones de visión 3D a gran escala en la ganadería de precisión.