Artículos de investigación en IA seleccionados diariamente con traducciones
La optimización de los grandes modelos de lenguaje (LLM) sigue siendo un desafío crítico, particularmente dado que el escalado de modelos exacerba la sensibilidad a la imprecisión algorítmica y la inestabilidad del entrenamiento. Los avances recientes en optimizadores han mejorado la eficiencia de convergencia mediante la ortogonalización de momento, pero adolecen de dos limitaciones clave de robustez: fragilidad dimensional en la precisión de la ortogonalización y vulnerabilidad al ruido inducido por valores atípicos. Para abordar estos desafíos de robustez, presentamos ROOT, un Optimizador Ortogonalizado Robusto que mejora la estabilidad del entrenamiento mediante mecanismos duales de robustez. En primer lugar, desarrollamos un esquema de ortogonalización robusto a la dimensión que utiliza iteraciones de Newton adaptativas con coeficientes de grano fino ajustados a tamaños de matriz específicos, garantizando una precisión consistente en diversas configuraciones arquitectónicas. En segundo lugar, introducimos un marco de optimización robusta mediante optimización proximal que suprime el ruido de los valores atípicos preservando al mismo tiempo las direcciones de gradiente significativas. Experimentos exhaustivos demuestran que ROOT logra una robustez significativamente mejorada, con una convergencia más rápida y un rendimiento final superior en comparación con los optimizadores basados en Muon y Adam, particularmente en escenarios ruidosos y no convexos. Nuestro trabajo establece un nuevo paradigma para desarrollar optimizadores robustos y precisos capaces de manejar las complejidades del entrenamiento moderno de modelos a gran escala. El código estará disponible en https://github.com/huawei-noah/noah-research/tree/master/ROOT.
Los avances recientes en la computación evolutiva guiada por modelos de lenguaje (LLM), particularmente AlphaEvolve (Novikov et al., 2025; Georgiev et al., 2025), han demostrado un éxito notable en el descubrimiento de construcciones matemáticas novedosas y en la resolución de problemas de optimización desafiantes. Sin embargo, las descripciones de alto nivel en los trabajos publicados dejan muchos detalles de implementación sin especificar, lo que dificulta la reproducibilidad y la investigación adicional. En este informe presentamos GigaEvo, un marco de trabajo de código abierto y extensible que permite a los investigadores estudiar y experimentar con enfoques híbridos de evolución-LLM inspirados en AlphaEvolve. Nuestro sistema proporciona implementaciones modulares de componentes clave: algoritmos de diversidad-calidad MAP-Elites, pipelines de evaluación asíncronos basados en grafos acíclicos dirigidos (DAG), operadores de mutación impulsados por LLM con generación de insights y seguimiento bidireccional de linajes, y estrategias evolutivas flexibles de multi-isla. Para evaluar la reproducibilidad y validar nuestra implementación, probamos GigaEvo en problemas desafiantes del artículo de AlphaEvolve: colocación de triángulos de Heilbronn, empaquetamiento de círculos en cuadrados y números de beso en dimensiones altas. El marco enfatiza la modularidad, la concurrencia y la facilidad de experimentación, permitiendo la creación rápida de prototipos mediante configuración declarativa. Proporcionamos descripciones detalladas de la arquitectura del sistema, decisiones de implementación y metodología experimental para apoyar investigaciones futuras en métodos evolutivos impulsados por LLM. El marco GigaEvo y todo el código experimental están disponibles en https://github.com/AIRI-Institute/gigaevo-core.
La segmentación de imágenes médicas es fundamental para los descubrimientos biomédicos. Los métodos existentes carecen de generalización y requieren una extensa y laboriosa anotación manual para cada nueva aplicación clínica. Aquí presentamos MedSAM-3, un modelo de segmentación médica activable por texto para la segmentación de imágenes y videos médicos. Al ajustar la arquitectura del Segment Anything Model (SAM) 3 con imágenes médicas emparejadas con etiquetas conceptuales semánticas, nuestro MedSAM-3 permite la Segmentación de Conceptos Activables (PCS) médica, lo que posibilita el direccionamiento preciso de estructuras anatómicas mediante descripciones textuales de vocabulario abierto, en lugar de depender únicamente de indicaciones geométricas. Además, introducimos el Agente MedSAM-3, un marco que integra Modelos de Lenguaje Grandes Multimodales (MLLMs) para realizar razonamientos complejos y refinamientos iterativos en un flujo de trabajo con agente en el bucle. Experimentos exhaustivos en diversas modalidades de imagen médica, incluyendo rayos X, resonancia magnética, ultrasonido, tomografía computarizada y video, demuestran que nuestro enfoque supera significativamente a los modelos especializados y de base existentes. Publicaremos nuestro código y modelo en https://github.com/Joey-S-Liu/MedSAM3.
Los agentes de visión y lenguaje han logrado avances notables en diversas tareas de razonamiento multimodal; sin embargo, su aprendizaje sigue limitado por las restricciones de la supervisión anotada por humanos. Los enfoques recientes de autorrecompensa intentan superar esta limitación permitiendo que los modelos actúen como sus propios críticos o proveedores de recompensas. No obstante, la autoevaluación puramente basada en texto lucha por verificar pasos de razonamiento visual complejos y sufre a menudo de alucinaciones evaluativas. Para abordar estos desafíos, inspirados por los avances recientes en el razonamiento con herramientas integradas, proponemos Agent0-VL, un agente de visión y lenguaje que se auto-evoluciona y logra una mejora continua mediante el razonamiento con herramientas integradas. Agent0-VL incorpora el uso de herramientas no solo en el razonamiento, sino también en la autoevaluación y la autorreparación, permitiendo que el modelo introspeccione, verifique y refine su razonamiento mediante un análisis basado en evidencias. Unifica dos roles sinérgicos dentro de un único LVLM: un Solucionador que realiza un razonamiento multi-turno con herramientas integradas, y un Verificador que genera retroalimentación estructurada y autorrecompensas granulares mediante una crítica fundamentada en herramientas. Estos roles interactúan a través de un Ciclo de Razonamiento Auto-Evolutivo, donde la verificación basada en herramientas y el aprendizaje por refuerzo alinean conjuntamente las distribuciones de razonamiento y evaluación para una auto-mejora estable. A través de esta evolución de cero recompensas externas, Agent0-VL alinea sus comportamientos de razonamiento y verificación sin ninguna anotación humana o modelos externos de recompensa, logrando una auto-mejora continua. Los experimentos en resolución de problemas geométricos y análisis científicos visuales muestran que Agent0-VL logra una mejora del 12.5% sobre el modelo base. Nuestro código está disponible en https://github.com/aiming-lab/Agent0/Agent0-VL{este enlace https}.
Preservar la identidad del primer fotograma mientras se garantiza un control de movimiento preciso es un desafío fundamental en la animación de imágenes humanas. El proceso de Vinculación Imagen-Movimiento del paradigma dominante Referencia-a-Video (R2V) pasa por alto desalineaciones espacio-temporales críticas comunes en aplicaciones del mundo real, lo que genera fallos como la deriva de identidad y artefactos visuales. Presentamos SteadyDancer, un marco basado en el paradigma Imagen-a-Video (I2V) que logra una animación armoniosa y coherente, siendo el primero en garantizar robustamente la preservación del primer fotograma. En primer lugar, proponemos un Mecanismo de Reconciliación de Condiciones para armonizar las dos condiciones conflictivas, permitiendo un control preciso sin sacrificar la fidelidad. En segundo lugar, diseñamos Módulos de Modulación de Pose Sinérgicos para generar una representación de pose adaptativa y coherente altamente compatible con la imagen de referencia. Finalmente, empleamos una Tubería de Entrenamiento por Objetivos Escalonados y Desacoplados que optimiza jerárquicamente el modelo para la fidelidad de movimiento, la calidad visual y la coherencia temporal. Los experimentos demuestran que SteadyDancer logra un rendimiento de vanguardia tanto en fidelidad de apariencia como en control de movimiento, mientras requiere significativamente menos recursos de entrenamiento que métodos comparables.
En los últimos años se ha observado un progreso significativo en los Modelos Multimodales Unificados, pero una pregunta fundamental sigue en el aire: ¿La comprensión realmente informa a la generación? Para investigarlo, presentamos UniSandbox, un marco de evaluación desacoplado junto con conjuntos de datos sintéticos y controlados para evitar filtraciones de datos y permitir un análisis detallado. Nuestros hallazgos revelan una brecha significativa entre comprensión y generación, que se refleja principalmente en dos dimensiones clave: generación de razonamiento y transferencia de conocimiento. Específicamente, para las tareas de generación de razonamiento, observamos que una Cadena de Pensamiento (CoT) explícita en el módulo de comprensión puentea eficazmente la brecha, y demostramos además que un enfoque de auto-entrenamiento puede internalizar con éxito esta capacidad, permitiendo un razonamiento implícito durante la generación. Adicionalmente, para las tareas de transferencia de conocimiento, encontramos que la CoT ayuda al proceso generativo al facilitar la recuperación de conocimiento recién aprendido, y también descubrimos que las arquitecturas basadas en consultas exhiben inherentemente propiedades latentes similares a la CoT que afectan esta transferencia. UniSandbox ofrece perspectivas preliminares para diseñar futuras arquitecturas unificadas y estrategias de entrenamiento que realmente salven la brecha entre comprensión y generación. El código y los datos están disponibles en https://github.com/PKU-YuanGroup/UniSandBox.
El aprendizaje por refuerzo (RL) desempeña un papel cada vez más importante en la mejora de las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs), aunque la optimización de políticas estable y de alto rendimiento sigue siendo un reto. Los ratios de importancia a nivel de token suelen exhibir una alta varianza —un fenómeno que se ve agravado en los modelos Mixture-of-Experts—, lo que conduce a actualizaciones inestables. Los métodos existentes de optimización de políticas basados en grupos, como GSPO y GRPO, alivian este problema mediante el recorte duro (hard clipping), lo que dificulta mantener tanto la estabilidad como un aprendizaje efectivo. Proponemos la Optimización de Políticas Adaptativa Suave (SAPO), que reemplaza el recorte duro por una compuerta suave controlada por temperatura que atenúa adaptativamente las actualizaciones fuera de la política (off-policy) preservando las señales de aprendizaje útiles. En comparación con GSPO y GRPO, SAPO es coherente a nivel de secuencia y adaptable a nivel de token. Al igual que GSPO, SAPO mantiene la coherencia a nivel de secuencia, pero su compuerta suave forma una región de confianza continua que evita la frágil banda de recorte duro utilizada en GSPO. Cuando una secuencia contiene algunos tokens muy fuera de la política, GSPO suprime todos los gradientes para esa secuencia, mientras que SAPO reduce selectivamente el peso solo de los tokens problemáticos y preserva la señal de aprendizaje de aquellos cercanos a la política, mejorando la eficiencia muestral. Respecto a GRPO, SAPO reemplaza el recorte duro a nivel de token con una escala suave controlada por temperatura, permitiendo actualizaciones más informativas y estables. Los resultados empíricos en benchmarks de razonamiento matemático indican que SAPO exhibe una mayor estabilidad durante el entrenamiento y un mejor rendimiento Pass@1 con presupuestos de entrenamiento comparables. Además, empleamos SAPO para entrenar la serie de modelos Qwen3-VL, demostrando que SAPO produce ganancias de rendimiento consistentes en diversas tareas y diferentes tamaños de modelo. En general, SAPO proporciona una estrategia de optimización más fiable, escalable y efectiva para el entrenamiento con RL de los LLMs.
Los modelos de vídeo preentrenados aprenden distribuciones previas potentes para generar contenido de alta calidad y coherencia temporal. Si bien estos modelos sobresalen en coherencia temporal, su dinámica suele verse limitada por la naturaleza continua de sus datos de entrenamiento. Planteamos la hipótesis de que, al inyectar la rica y sin restricciones diversidad de contenido de los datos de imagen en este marco temporal coherente, podemos generar conjuntos de imágenes que presenten tanto transiciones naturales como un rango dinámico mucho más expansivo. Con este fin, presentamos iMontage, un marco unificado diseñado para readaptar un potente modelo de vídeo como generador de imágenes todo en uno. El marco consume y produce conjuntos de imágenes de longitud variable, unificando una amplia gama de tareas de generación y edición de imágenes. Para lograrlo, proponemos una estrategia de adaptación elegante y mínimamente invasiva, complementada con un proceso de curación de datos y un paradigma de entrenamiento específicos. Este enfoque permite que el modelo adquiera amplias capacidades de manipulación de imágenes sin corromper sus invaluables distribuciones previas de movimiento originales. iMontage destaca en varias tareas principales de tipo "muchas entradas-muchas salidas", manteniendo no solo una fuerte consistencia contextual entre imágenes, sino también generando escenas con dinámicas extraordinarias que superan los alcances convencionales. Consulte nuestra página web en: https://kr1sjfu.github.io/iMontage-web/.
Los modelos de mundo están surgiendo como un paradigma fundamental para la IA encarnada escalable y eficiente en datos. En este trabajo, presentamos GigaWorld-0, un marco unificado de modelo de mundo diseñado explícitamente como un motor de datos para el aprendizaje Visión-Lenguaje-Acción (VLA). GigaWorld-0 integra dos componentes sinérgicos: GigaWorld-0-Video, que aprovecha la generación de video a gran escala para producir secuencias encarnadas diversas, ricas en textura y temporalmente coherentes bajo un control granular de la apariencia, el punto de vista de la cámara y la semántica de la acción; y GigaWorld-0-3D, que combina el modelado generativo 3D, la reconstrucción mediante *Gaussian Splatting* 3D, la identificación de sistemas físicamente diferenciable y la planificación de movimiento ejecutable para garantizar la coherencia geométrica y el realismo físico. Su optimización conjunta permite la síntesis escalable de datos de interacción encarnada que son visualmente atractivos, espacialmente coherentes, físicamente plausibles y alineados con instrucciones. El entrenamiento a gran escala es factible gracias a nuestro eficiente marco GigaTrain, que explota la precisión FP8 y la atención dispersa para reducir drásticamente los requisitos de memoria y computación. Realizamos evaluaciones exhaustivas que muestran que GigaWorld-0 genera datos de alta calidad, diversos y controlables en múltiples dimensiones. De manera crucial, los modelos VLA (por ejemplo, GigaBrain-0) entrenados con datos generados por GigaWorld-0 logran un rendimiento sólido en el mundo real, mejorando significativamente la generalización y el éxito de las tareas en robots físicos sin ninguna interacción del mundo real durante el entrenamiento.
La complejidad cuadrática de la atención completa limita el procesamiento eficiente de contextos largos en los modelos de lenguaje grandes (LLM). La atención dispersa mitiga este costo al restringir cada consulta a atender a un subconjunto de tokens anteriores; sin embargo, los enfoques que no requieren entrenamiento a menudo conducen a una degradación severa del rendimiento. Los métodos nativos de atención dispersa (por ejemplo, NSA, MoBA) alivian este problema, pero exhiben una paradoja crítica: producen una menor dispersión de atención que los modelos de atención completa, a pesar de tener como objetivo aproximarse a la atención completa, lo que puede limitar su efectividad. Atribuimos esta paradoja a una deficiencia en la actualización del gradiente: los pares clave-valor de bajo rango excluidos durante el entrenamiento disperso no reciben contribución directa ni gradientes hacia atrás y, por lo tanto, nunca aprenden la supresión adecuada. Para superar esta limitación, proponemos SSA (Atención Dispersa Dispersa), un marco de entrenamiento unificado que considera tanto la atención dispersa como la completa y aplica una alineación bidireccional en cada capa. Este diseño preserva el flujo de gradientes hacia todos los tokens mientras fomenta explícitamente que las salidas de atención dispersa se alineen con sus contrapartes de atención completa, promoviendo así una mayor dispersión. Como resultado, SSA logra un rendimiento de vanguardia bajo inferencia tanto de atención dispersa como completa en múltiples benchmarks de sentido común. Además, SSA permite a los modelos adaptarse suavemente a diferentes presupuestos de dispersión; el rendimiento mejora consistentemente a medida que se permite atender a más tokens, respaldando compensaciones flexibles entre computación y rendimiento durante la inferencia. Finalmente, demostramos que el entrenamiento nativo de atención dispersa mejora sorprendentemente la extrapolación de contextos largos al mitigar la sobreasignación de valores de atención en las áreas "sumidero", siendo SSA el que demuestra la capacidad de extrapolación más sólida.
Este artículo presenta HunyuanOCR, un Modelo de Lenguaje-Visión (VLM) de grado comercial, de código abierto y ligero (1B parámetros) dedicado a tareas de OCR. La arquitectura comprende un Transformer de Visión Nativo (ViT) y un LLM ligero conectados mediante un adaptador MLP. HunyuanOCR demuestra un rendimiento superior, superando a las APIs comerciales, a los pipelines tradicionales y a modelos más grandes (por ejemplo, Qwen3-VL-4B). Específicamente, supera a las soluciones públicas actuales en tareas de percepción (Detección de Texto, Análisis Sintáctico) y sobresale en tareas semánticas (IE, Traducción de Imagen-Texto), asegurando el primer puesto en el Desafío ICDAR 2025 DIMT (Categoría de Modelos Pequeños). Además, logra resultados de vanguardia (SOTA) en OCRBench entre los VLMs con menos de 3B parámetros. HunyuanOCR logra avances en tres aspectos clave: 1) Unificación de Versatilidad y Eficiencia: Implementamos soporte integral para capacidades centrales que incluyen detección, análisis sintáctico, IE, VQA y traducción dentro de un marco ligero. Esto aborda las limitaciones de los estrechos "modelos expertos en OCR" y los ineficientes "VLMs Generales". 2) Arquitectura Eficiente de Extremo a Extremo: La adopción de un paradigma puro de extremo a extremo elimina las dependencias de módulos de preprocesamiento (por ejemplo, análisis de diseño). Esto resuelve fundamentalmente la propagación de errores común en los pipelines tradicionales y simplifica el despliegue del sistema. 3) Estrategias Basadas en Datos y RL: Confirmamos el papel crítico de los datos de alta calidad y, por primera vez en la industria, demostramos que las estrategias de Aprendizaje por Refuerzo (RL) producen ganancias significativas de rendimiento en tareas de OCR. HunyuanOCR es oficialmente de código abierto en HuggingFace. También proporcionamos una solución de despliegue de alto rendimiento basada en vLLM, situando su eficiencia productiva en el nivel más alto. Esperamos que este modelo impulse la investigación de vanguardia y proporcione una base sólida para aplicaciones industriales.
Los métodos recientes de modelos de mundo en video interactivo generan la evolución de escenas condicionada por instrucciones del usuario. Aunque logran resultados impresionantes, persisten dos limitaciones clave. Primero, no aprovechan completamente la correspondencia entre el movimiento de la escena impulsado por instrucciones y la geometría 3D subyacente, lo que resulta en inestabilidad estructural bajo cambios de punto de vista. Segundo, olvidan fácilmente la información histórica durante la interacción multi-paso, resultando en acumulación de errores y deriva progresiva en la semántica y estructura de la escena. Para abordar estos problemas, proponemos MagicWorld, un modelo de mundo en video interactivo que integra priores geométricos 3D y recuperación histórica. MagicWorld comienza desde una única imagen de escena, emplea acciones del usuario para impulsar la evolución dinámica de la escena y sintetiza autoregresivamente escenas continuas. Introducimos el Módulo de Geometría 3D Guiada por Acción (AG3D), que construye una nube de puntos desde el primer fotograma de cada interacción y la acción correspondiente, proporcionando restricciones geométricas explícitas para transiciones de viewpoint y mejorando así la consistencia estructural. Además, proponemos el mecanismo de Recuperación de Caché Histórico (HCR), que recupera fotogramas históricos relevantes durante la generación y los inyecta como señales de condicionamiento, ayudando al modelo a utilizar información pasada de la escena y mitigar la acumulación de errores. Los resultados experimentales demuestran que MagicWorld logra mejoras notables en estabilidad y continuidad de la escena a través de iteraciones de interacción.
Los flujos normalizadores (NFs) son modelos generativos basados en verosimilitud de extremo a extremo para datos continuos, y recientemente han recuperado atención con avances alentadores en generación de imágenes. Sin embargo, en el dominio de la generación de vídeo, donde la complejidad espacio-temporal y el coste computacional son sustancialmente mayores, los sistemas de vanguardia dependen casi exclusivamente de modelos basados en difusión. En este trabajo, revisitamos este espacio de diseño presentando STARFlow-V, un generador de vídeo basado en flujos normalizadores con beneficios sustanciales como el aprendizaje de extremo a extremo, la predicción causal robusta y la estimación nativa de verosimilitud. Basándose en el recientemente propuesto STARFlow, STARFlow-V opera en el espacio latente espacio-temporal con una arquitectura global-local que restringe las dependencias causales a un espacio latente global mientras preserva ricas interacciones locales intra-fotograma. Esto mitiga la acumulación de errores en el tiempo, un problema común en la generación estándar de modelos de difusión autorregresivos. Adicionalmente, proponemos el emparejamiento por puntuación de flujo (flow-score matching), que dota al modelo de un desruidor causal ligero para mejorar la consistencia en la generación de vídeo de forma autorregresiva. Para mejorar la eficiencia del muestreo, STARFlow-V emplea un esquema de iteración de Jacobi consciente del vídeo que reformula las actualizaciones internas como iteraciones paralelizables sin romper la causalidad. Gracias a la estructura invertible, el mismo modelo puede soportar nativamente tareas de generación de texto a vídeo, imagen a vídeo y vídeo a vídeo. Empíricamente, STARFlow-V logra una fuerte fidelidad visual y consistencia temporal con un rendimiento práctico de muestreo en comparación con líneas base basadas en difusión. Estos resultados presentan la primera evidencia, hasta donde sabemos, de que los NFs son capaces de generación de vídeo autorregresiva de alta calidad, estableciéndolos como una dirección de investigación prometedora para construir modelos del mundo. El código y muestras generadas están disponibles en https://github.com/apple/ml-starflow.
A pesar de los avances, los transformadores de difusión de video aún tienen dificultades para generalizar más allá de su longitud de entrenamiento, un desafío que denominamos extrapolación de longitud de video. Identificamos dos modos de fallo: la repetición periódica de contenido específica del modelo y una degradación de calidad universal. Trabajos previos intentaron resolver la repetición mediante codificaciones posicionales, pasando por alto la degradación de calidad y logrando solo una extrapolación limitada. En este artículo, revisitamos este desafío desde una perspectiva más fundamental: los mapas de atención, que gobiernan directamente cómo el contexto influye en las salidas. Identificamos que ambos modos de fallo surgen de una causa unificada: la dispersión de la atención, donde los tokens más allá de la ventana de entrenamiento diluyen los patrones de atención aprendidos. Esto conduce a una degradación de la calidad, y la repetición emerge como un caso especial cuando esta dispersión se estructura en patrones de atención periódicos, inducidos por las propiedades armónicas de las codificaciones posicionales. Basándonos en esta idea, proponemos UltraViCo, un método plug-and-play, libre de entrenamiento, que suprime la atención para los tokens más allá de la ventana de entrenamiento mediante un factor de decaimiento constante. Al abordar conjuntamente ambos modos de fallo, superamos a un amplio conjunto de líneas base en diversos modelos y ratios de extrapolación, elevando el límite de extrapolación de 2x a 4x. Notablemente, mejora el Grado Dinámico y la Calidad de Imagen en un 233% y un 40.5% respectivamente, respecto al mejor método anterior en una extrapolación de 4x. Además, nuestro método se generaliza sin problemas a tareas derivadas como la síntesis y edición de video controlable.
Los modelos generativos han destacado en la síntesis RGB, pero las aplicaciones del mundo real requieren manipulación RGBA. Esto ha generado un panorama fragmentado: modelos especializados de tarea única manejan el canal alfa pero carecen de versatilidad, mientras que los marcos unificados multitarea se limitan al dominio RGB. Para cerrar esta brecha crítica, proponemos OmniAlpha, el primer marco generativo unificado y multitarea para la generación y edición secuencial de imágenes RGBA. Su arquitectura presenta MSRoPE-BiL, un novedoso método RoPE con un eje de capa extensible bidireccional para su backbone de Transformer de Difusión (DiT), permitiendo el procesamiento concurrente de múltiples capas RGBA de entrada y objetivo. Para alimentar este marco, presentamos AlphaLayers, un nuevo conjunto de datos de 1.000 tripletes multicapa de alta calidad, construido mediante una novedosa canalización automatizada de síntesis y filtrado. Entrenando OmniAlpha de forma conjunta en este conjunto de datos a través de un conjunto exhaustivo de 21 tareas diversas, experimentos extensivos demuestran que nuestro enfoque unificado supera consistentemente a líneas base especializadas sólidas. Más notablemente, OmniAlpha logra una reducción relativa dramática del 84.8% en SAD para extracción de mate sin máscara en AIM-500 y gana más del 90% de las preferencias humanas en completado condicionado por capas. Nuestro trabajo demuestra que un modelo unificado y multitarea puede aprender una representación compartida superior para RGBA, allanando el camino para sistemas generativos más potentes y conscientes de las capas.
Presentamos ReDirector, un novedoso método de generación de retomas de vídeo controlado por cámara para vídeos de longitud variable capturados dinámicamente. En particular, rectificamos un uso indebido común de RoPE en trabajos anteriores alineando las posiciones espacio-temporales del vídeo de entrada y la retoma objetivo. Además, introducimos Rotary Camera Encoding (RoCE), un desplazamiento de fase de RoPE condicionado por la cámara que captura e integra las relaciones multi-vista dentro y entre los vídeos de entrada y objetivo. Al integrar las condiciones de la cámara en RoPE, nuestro método se generaliza a trayectorias de cámara y longitudes de vídeo fuera de distribución, logrando una mejor localización de objetos dinámicos y preservación del fondo estático. Experimentos exhaustivos demuestran además mejoras significativas en la capacidad de control de la cámara, la consistencia geométrica y la calidad del vídeo en diversas trayectorias y longitudes.
Si bien los modelos de visión y lenguaje (VLM) recientes demuestran una sólida comprensión de imágenes, su capacidad para "pensar con imágenes", es decir, razonar a través de interacciones visuales multi-etapa, sigue siendo limitada. Presentamos VISTA-Gym, un entorno de entrenamiento escalable para incentivar capacidades de razonamiento visual integrado con herramientas en los VLM. VISTA-Gym unifica diversas tareas de razonamiento multimodal del mundo real (7 tareas de 13 conjuntos de datos en total) con una interfaz estandarizada para herramientas visuales (por ejemplo, segmentación, análisis), bucles de interacción ejecutables, señales de retroalimentación verificables y registro eficiente de trayectorias, permitiendo el aprendizaje por refuerzo agéntico visual a escala. Si bien los VLM recientes exhiben un razonamiento sólido solo con texto, tanto los modelos propietarios como los de código abierto aún tienen dificultades con la selección, invocación y coordinación de herramientas. Con VISTA-Gym, entrenamos a VISTA-R1 para intercalar el uso de herramientas con el razonamiento agéntico mediante muestreo de trayectorias multi-turno y aprendizaje por refuerzo de extremo a extremo. Experimentos exhaustivos en 11 benchmarks públicos de VQA intensivos en razonamiento muestran que VISTA-R1-8B supera a los métodos de última generación de tamaños similares en un 9.51%-18.72%, demostrando que VISTA-Gym es un terreno de entrenamiento efectivo para desbloquear las capacidades de razonamiento integrado con herramientas en los VLM.
La generación de ciudades 3D realistas es fundamental para los modelos de mundo, la realidad virtual y el desarrollo de videojuegos, donde una escena urbana ideal debe satisfacer simultáneamente la diversidad estilística, el detalle fino y la controlabilidad. Sin embargo, los métodos existentes tienen dificultades para equilibrar la flexibilidad creativa que ofrece la generación basada en texto con la capacidad de edición a nivel de objeto que permiten las representaciones estructurales explícitas. Presentamos MajutsuCity, un marco impulsado por lenguaje natural y estéticamente adaptable para sintetizar escenas urbanas 3D estructuralmente consistentes y estilísticamente diversas. MajutsuCity representa una ciudad como una composición de diseños, activos y materiales controlables, y opera a través de un pipeline de cuatro etapas. Para extender la controlabilidad más allá de la generación inicial, integramos además MajutsuAgent, un agente de edición interactivo basado en lenguaje que soporta cinco operaciones a nivel de objeto. Para respaldar la síntesis de escenas fotorrealistas y personalizables, también construimos MajutsuDataset, un conjunto de datos multimodal de alta calidad que contiene diseños semánticos 2D y mapas de altura, diversos activos 3D de edificios, y materiales PBR y skyboxes seleccionados, cada uno acompañado de anotaciones detalladas. Paralelamente, desarrollamos un conjunto práctico de métricas de evaluación, que cubre dimensiones clave como la consistencia estructural, la complejidad de la escena, la fidelidad de los materiales y la atmósfera de iluminación. Experimentos exhaustivos demuestran que MajutsuCity reduce el FID del diseño en un 83.7% en comparación con CityDreamer y en un 20.1% frente a CityCraft. Nuestro método ocupa el primer puesto en todas las puntuaciones AQS y RDR, superando a los métodos existentes por un claro margen. Estos resultados confirman a MajutsuCity como un nuevo estado del arte en fidelidad geométrica, adaptabilidad estilística y controlabilidad semántica para la generación de ciudades 3D. Esperamos que nuestro marco pueda inspirar nuevas vías de investigación en la generación de ciudades 3D. Nuestro conjunto de datos y código se publicarán en https://github.com/LongHZ140516/MajutsuCity.
Los modelos de lenguaje grandes (LLM) resuelven problemas complejos pero fallan en variantes más simples, lo que sugiere que obtienen respuestas correctas mediante mecanismos fundamentalmente distintos al razonamiento humano. Para comprender esta brecha, sintetizamos investigaciones de la ciencia cognitiva en una taxonomía de 28 elementos cognitivos que abarcan invariantes de razonamiento, controles metacognitivos, representaciones para organizar el razonamiento y el conocimiento, y operaciones de transformación. Introducimos un marco de evaluación granular y realizamos el primer análisis empírico a gran escala de 192.000 trazas de 18 modelos a través de texto, visión y audio, complementado con 54 trazas de pensamiento en voz alta de humanos, que ponemos a disposición del público. Encontramos que los modelos subutilizan elementos cognitivos correlacionados con el éxito, reduciéndose a un procesamiento secuencial rígido en problemas mal estructurados donde son críticas las representaciones diversas y la monitorización metacognitiva. Las trazas humanas muestran más abstracción y procesamiento conceptual, mientras que los modelos recurren por defecto a una enumeración superficial. Un meta-análisis de 1.600 artículos sobre razonamiento en LLM revela que la comunidad investigadora se concentra en elementos fácilmente cuantificables (organización secuencial: 55%, descomposición: 60%) pero descuida los controles metacognitivos (autoconciencia: 16%) que se correlacionan con el éxito. Los modelos poseen repertorios conductuales asociados al éxito pero no los despliegan espontáneamente. Aprovechando estos patrones, desarrollamos una guía de razonamiento en tiempo de prueba que estructura automáticamente andamiajes exitosos, mejorando el rendimiento hasta en un 66,7% en problemas complejos. Al establecer un vocabulario común entre la ciencia cognitiva y la investigación en LLM, nuestro marco permite el diagnóstico sistemático de fallos de razonamiento y el desarrollo fundamentado de modelos que razonen mediante mecanismos cognitivos robustos en lugar de atajos espurios, a la vez que proporciona herramientas para probar teorías de la cognición humana a escala.
El razonamiento abstracto a partir de ejemplos mínimos sigue siendo un problema fundamental sin resolver para los modelos de base de vanguardia como GPT-5 y Grok 4. Estos modelos aún no logran inferir reglas de transformación estructuradas a partir de un puñado de ejemplos, lo cual es un sello distintivo clave de la inteligencia humana. El Corpus de Abstracción y Razonamiento para la Inteligencia Artificial General (ARC-AGI) proporciona un banco de pruebas riguroso para esta capacidad, exigiendo la inducción de reglas conceptuales y su transferencia a tareas novedosas. La mayoría de los métodos existentes tratan ARC-AGI como una tarea de razonamiento puramente textual, pasando por alto el hecho de que los humanos dependen en gran medida de la abstracción visual al resolver estos acertijos. Sin embargo, nuestros experimentos piloto revelan una paradoja: representar ingenuamente las cuadrículas de ARC-AGI como imágenes degrada el rendimiento debido a una ejecución de reglas imprecisa. Esto nos lleva a nuestra hipótesis central: la visión y el lenguaje poseen fortalezas complementarias en distintas etapas del razonamiento; la visión favorece la abstracción y verificación de patrones globales, mientras que el lenguaje se especializa en la formulación simbólica de reglas y su ejecución precisa. Partiendo de esta idea, introducimos dos estrategias sinérgicas: (1) Razonamiento por Sinergia Visión-Lenguaje (VLSR), que descompone ARC-AGI en subtareas alineadas por modalidad; y (2) Autocorrección por Cambio de Modalidad (MSSC), que aprovecha la visión para verificar el razonamiento basado en texto y realizar una corrección intrínseca de errores. Experimentos exhaustivos demuestran que nuestro enfoque produce una mejora de hasta el 4.33% respecto a los baselines que solo usan texto en diversos modelos emblemáticos y múltiples tareas de ARC-AGI. Nuestros hallazgos sugieren que unificar la abstracción visual con el razonamiento lingüístico es un paso crucial para lograr una inteligencia generalizable y similar a la humana en los futuros modelos de base. El código fuente será liberado próximamente.
El progreso en agentes de uso informático (CUA) se ha visto limitado por la ausencia de conjuntos de datos grandes y de alta calidad que capturen cómo los humanos interactúan con un ordenador. Mientras que los LLM han prosperado gracias a la abundancia de datos textuales, no existe un corpus comparable para las trayectorias de los CUA. Para abordar estas carencias, presentamos FaraGen, un novedoso sistema de generación de datos sintéticos para tareas web multi-etapa. FaraGen puede proponer tareas diversas a partir de sitios web de uso frecuente, generar múltiples intentos de solución y filtrar trayectorias exitosas utilizando múltiples verificadores. Logra un alto rendimiento, productividad y diversidad para tareas web multi-etapa, produciendo trayectorias verificadas a un costo aproximado de $1 cada una. Utilizamos estos datos para entrenar a Fara-7B, un modelo CUA nativo que percibe el ordenador utilizando únicamente capturas de pantalla, ejecuta acciones mediante coordenadas predichas y es lo suficientemente pequeño como para ejecutarse en el dispositivo. Encontramos que Fara-7B supera a otros modelos CUA de tamaño comparable en puntos de referencia como WebVoyager, Online-Mind2Web y WebTailBench —nuestro novedoso benchmark que captura mejor las tareas web subrepresentadas en los benchmarks preexistentes—. Además, Fara-7B es competitivo con modelos de vanguardia mucho más grandes, lo que ilustra los beneficios clave de los sistemas escalables de generación de datos para avanzar en el desarrollo de modelos agentivos pequeños y eficientes. Estamos haciendo que Fara-7B sea de peso abierto en Microsoft Foundry y HuggingFace, y estamos liberando WebTailBench.
Este artículo estudia la Visual Question-Visual Answering (VQ-VA): generar una imagen, en lugar de texto, en respuesta a una pregunta visual, una capacidad que ha surgido recientemente en sistemas propietarios como NanoBanana y GPT-Image. Para llevar también esta capacidad a modelos de código abierto, presentamos VQ-VA World, un marco de trabajo centrado en los datos construido alrededor de una pipeline agentiva para la construcción de datos a gran escala y dirigida. Aprovechando un despliegue a escala web, esta pipeline rastrea una cantidad masiva de ~1,8 millones de muestras intercaladas de imagen y texto de alta calidad para el entrenamiento del modelo. Para la evaluación, lanzamos además IntelligentBench, un benchmark curado por humanos que evalúa sistemáticamente la VQ-VA en los aspectos de conocimiento del mundo, conocimiento de diseño y razonamiento. El entrenamiento con los datos de VQ-VA World produce fuertes mejoras empíricas: ayuda a LightFusion a alcanzar 53,06 en IntelligentBench, superando sustancialmente los mejores baselines de código abierto previos (es decir, 7,78 de LightFusion básico; 1,94 de UniWorld-V1), y reduciendo significativamente la brecha hacia los sistemas propietarios líderes (por ejemplo, 81,67 de NanoBanana; 82,64 de GPT-Image). Al liberar el conjunto completo de pesos del modelo, conjuntos de datos y pipelines, esperamos estimular la investigación futura sobre VQ-VA.
La planificación de tareas es fundamental para la IA encarnada, permitiendo que los agentes sigan instrucciones en lenguaje natural y ejecuten acciones de manera eficiente en mundos físicos 3D. Sin embargo, los conjuntos de datos existentes suelen simplificar la planificación ignorando el conocimiento de investigación operativa (IO) y la fundamentación espacial 3D. En este trabajo, proponemos la Planificación de Tareas con Fundamentación 3D basada en Investigación Operativa (ORS3D), una nueva tarea que requiere la sinergia de comprensión del lenguaje, fundamentación 3D y optimización de la eficiencia. A diferencia de configuraciones anteriores, ORS3D exige que los agentes minimicen el tiempo total de finalización aprovechando las subtareas paralelizables, por ejemplo, limpiar el fregadero mientras funciona el microondas. Para facilitar la investigación sobre ORS3D, construimos ORS3D-60K, un conjunto de datos a gran escala que comprende 60.000 tareas compuestas en 4.000 escenas del mundo real. Además, proponemos GRANT, un modelo de lenguaje grande multimodal encarnado equipado con un mecanismo de tokens de planificación simple pero efectivo para generar planes de tareas eficientes y acciones fundamentadas. Experimentos exhaustivos en ORS3D-60K validan la efectividad de GRANT en comprensión del lenguaje, fundamentación 3D y eficiencia de planificación. El código está disponible en https://github.com/H-EmbodVis/GRANT.
La generación realista de ciudades en 3D es fundamental para una amplia gama de aplicaciones, incluyendo la realidad virtual y los gemelos digitales. Sin embargo, la mayoría de los métodos existentes se basan en entrenar un único modelo de difusión, lo que limita su capacidad para generar escenas urbanas a escala personalizadas e ilimitadas. En este artículo, presentamos Yo'City, un novedoso marco agéntico que permite la generación de ciudades 3D personalizable por el usuario e infinitamente expandible, aprovechando las capacidades de razonamiento y composición de modelos grandes disponibles comercialmente. Específicamente, Yo'City primero conceptualiza la ciudad mediante una estrategia de planificación descendente que define una estructura jerárquica "Ciudad-Distrito-Cuadrícula". El Planificador Global determina el diseño general y los distritos funcionales potenciales, mientras que el Diseñador Local refina aún más cada distrito con descripciones detalladas a nivel de cuadrícula. Posteriormente, la generación 3D a nivel de cuadrícula se logra mediante un bucle de síntesis de imágenes isométricas "producir-refinar-evaluar", seguido de la generación de imagen a 3D. Para simular una evolución urbana continua, Yo'City introduce además un mecanismo de expansión guiado por relaciones e interactivo con el usuario, que realiza una optimización del diseño consciente de la distancia y la semántica basada en grafos de escenas, garantizando un crecimiento urbano espacialmente coherente. Para evaluar exhaustivamente nuestro método, construimos un conjunto de datos de referencia diverso y diseñamos seis métricas multidimensionales que evalúan la calidad de la generación desde las perspectivas de semántica, geometría, textura y diseño. Experimentos exhaustivos demuestran que Yo'City supera consistentemente a los métodos state-of-the-art existentes en todos los aspectos de evaluación.
La generación aumentada por recuperación (RAG) mejora los grandes modelos de lenguaje (LLM) con conocimiento externo, pero aún adolece de contextos extensos y una optimización disociada entre recuperación y generación. En este trabajo, proponemos CLaRa (Razonamiento Latente Continuo), un marco unificado que realiza compresión basada en *embeddings* y optimización conjunta en un espacio continuo compartido. Para obtener vectores comprimidos semánticamente ricos y recuperables, presentamos SCP, un marco de síntesis de datos que preserva información clave utilizando supervisión de preguntas-respuestas y paráfrasis. CLaRa entrena luego el reranker y el generador de extremo a extremo mediante una única pérdida de modelado del lenguaje, con gradientes fluyendo a través de ambos módulos usando un estimador *top-k* diferenciable. Teóricamente, esta optimización unificada alinea la relevancia de la recuperación con la calidad de la respuesta. Experimentos en múltiples benchmarks de preguntas-respuestas muestran que CLaRa logra un rendimiento de compresión y reranking de vanguardia, superando a menudo líneas base afinadas basadas en texto.
Si bien los modelos recientes de generación de vídeo han logrado una fidelidad visual significativa, a menudo adolecen de una falta de controlabilidad física explícita y plausibilidad. Para abordar esto, algunos estudios recientes intentaron guiar la generación de vídeo mediante renderizado basado en física. Sin embargo, estos métodos se enfrentan a desafíos inherentes para modelar con precisión propiedades físicas complejas y controlar eficazmente el comportamiento físico resultante en secuencias temporales prolongadas. En este trabajo, presentamos PhysChoreo, un novedoso marco que puede generar vídeos con diversa controlabilidad y realismo físico a partir de una única imagen. Nuestro método consta de dos etapas: primero, estima las propiedades físicas iniciales estáticas de todos los objetos en la imagen mediante una reconstrucción de propiedades físicas consciente de las partes. Luego, mediante una simulación temporalmente instruida y físicamente editable, sintetiza vídeos de alta calidad con comportamientos dinámicos ricos y realismo físico. Los resultados experimentales muestran que PhysChoreo puede generar vídeos con comportamientos ricos y realismo físico, superando a los métodos más avanzados en múltiples métricas de evaluación.
La edición basada en difusión permite la modificación realista de regiones locales de imágenes, dificultando la detección de contenido generado por IA. Los benchmarks de detección de AIGC existentes se centran en clasificar imágenes completas, pasando por alto la localización de ediciones basadas en difusión. Presentamos DiffSeg30k, un conjunto de datos público de 30k imágenes editadas por difusión con anotaciones a nivel de píxel, diseñado para apoyar la detección de grano fino. DiffSeg30k presenta: 1) Imágenes en entornos reales--recopilamos imágenes o prompts de imágenes de COCO para reflejar la diversidad de contenido del mundo real; 2) Modelos de difusión diversos--ediciones locales utilizando ocho modelos de difusión SOTA; 3) Edición multiturno--cada imagen se somete hasta tres ediciones secuenciales para imitar la edición secuencial del mundo real; y 4) Escenarios de edición realistas--un pipeline basado en un modelo de visión y lenguaje (VLM) identifica automáticamente regiones significativas y genera prompts conscientes del contexto que cubren adiciones, eliminaciones y cambios de atributos. DiffSeg30k traslada la detección de AIGC de la clasificación binaria a la segmentación semántica, permitiendo la localización simultánea de ediciones y la identificación de los modelos de edición. Evaluamos tres enfoques de segmentación baseline, revelando desafíos significativos en tareas de segmentación semántica, particularmente en cuanto a la robustez frente a distorsiones de imagen. Los experimentos también revelan que los modelos de segmentación, a pesar de estar entrenados para localización a nivel de píxel, surgen como clasificadores de imágenes completas altamente confiables para ediciones por difusión, superando a clasificadores de falsificación establecidos mientras muestran un gran potencial en la generalización cruzada entre generadores. Creemos que DiffSeg30k impulsará la investigación en la localización de grano fino del contenido generado por IA al demostrar las promesas y limitaciones de los métodos basados en segmentación. DiffSeg30k se publica en: https://huggingface.co/datasets/Chaos2629/Diffseg30k
Los recientes avances en modelos de lenguaje multimodal (MLLM) y sistemas agentes de video han mejorado significativamente la comprensión general de videos. Sin embargo, cuando se aplican a la comprensión y educación con videos científicos, un dominio que exige la integración de conocimiento profesional externo y un razonamiento riguroso paso a paso, los enfoques existentes suelen presentar dificultades. Para cerrar esta brecha, proponemos SciEducator, el primer sistema multiagente de autoevolución iterativa para la comprensión y educación con videos científicos. Basado en el clásico Ciclo de Deming de la ciencia de la gestión, nuestro diseño reformula su filosofía Planificar-Hacer-Estudiar-Actuar en un mecanismo de razonamiento y retroalimentación autoevolutivo, que facilita la interpretación de actividades científicas complejas en videos. Además, SciEducator puede producir contenido educativo multimodal adaptado a procesos científicos específicos, incluyendo instrucciones textuales, guías visuales, narraciones de audio y referencias interactivas. Para respaldar la evaluación, construimos SciVBench, un benchmark que consiste en 500 pares de preguntas y respuestas científicas verificadas por expertos y basadas en literatura, abarcando cinco categorías que cubren fenómenos físicos, químicos y cotidianos. Experimentos exhaustivos demuestran que SciEducator supera sustancialmente a los MLLM cerrados líderes (por ejemplo, Gemini, GPT-4o) y a los agentes de video más avanzados en el benchmark, estableciendo un nuevo paradigma para la comunidad.
Si bien los recientes modelos de difusión de texto a vídeo (T2V) han logrado una calidad y alineación con el texto impresionantes, a menudo producen resultados de baja diversidad al muestrear múltiples vídeos a partir de un mismo texto. Abordamos este desafío formulándolo como un problema de optimización de políticas a nivel de conjunto, con el objetivo de entrenar una política que pueda cubrir el amplio y diverso rango de resultados plausibles para un texto dado. Para ello, presentamos DPP-GRPO, un novedoso marco para la generación diversa de vídeos que combina las teorías de Procesos Puntuales Determinantales (DPP) y la Optimización de Políticas Relativas por Grupos (GRPO) para aplicar una recompensa explícita a las generaciones diversas. Nuestro objetivo convierte la diversidad en una señal explícita al imponer rendimientos decrecientes sobre muestras redundantes (mediante DPP) y al proporcionar retroalimentación grupal sobre conjuntos de candidatos (mediante GRPO). Nuestro marco es plug-and-play y agnóstico al modelo, y fomenta generaciones diversas en apariencia visual, movimientos de cámara y estructura de la escena sin sacrificar la fidelidad al texto o la calidad perceptual. Implementamos nuestro método en WAN y CogVideoX, y demostramos que mejora consistentemente la diversidad de vídeos en benchmarks de última generación como VBench, VideoScore y estudios de preferencia humana. Además, publicamos nuestro código y un nuevo conjunto de datos de evaluación con 30,000 textos diversos para apoyar futuras investigaciones.
Los modelos generativos para el diseño de fármacos basado en estructuras suelen limitarse a una modalidad específica, lo que restringe su aplicabilidad más amplia. Para abordar este desafío, presentamos FuncBind, un marco basado en visión computacional para generar moléculas condicionadas por el blanco a nivel atómico completo en sistemas atómicos. FuncBind utiliza campos neuronales para representar moléculas como densidades atómicas continuas y emplea modelos generativos basados en puntuación con arquitecturas modernas adaptadas de la literatura de visión computacional. Esta representación independiente de la modalidad permite entrenar un único modelo unificado en diversos sistemas atómicos, desde moléculas pequeñas hasta grandes, y manejar recuentos variables de átomos/residuos, incluidos aminoácidos no canónicos. FuncBind logra un rendimiento competitivo in silico en la generación de moléculas pequeñas, péptidos macrocíclicos y bucles de la región determinante de la complementariedad de anticuerpos, condicionados por estructuras blanco. FuncBind también generó enlaceadores de anticuerpos novedosos in vitro mediante el rediseño de novo del bucle H3 de la región determinante de la complementariedad de dos estructuras en co-cristal elegidas. Como contribución final, presentamos un nuevo conjunto de datos y punto de referencia para la generación de péptidos macrocíclicos condicionados por estructura. El código está disponible en https://github.com/prescient-design/funcbind.
Los Modelos de Lenguaje a Gran Escala (LLM) demuestran una competencia predictiva parcial en eventos sociales, políticos y económicos. Sin embargo, su capacidad predictiva varía notablemente según la estructura del dominio y el encuadre de los prompts. Investigamos cómo varía el rendimiento predictivo entre diferentes familias de modelos en preguntas del mundo real sobre eventos ocurridos después de la fecha de corte del modelo. Analizamos cómo el contexto, el tipo de pregunta y el conocimiento externo afectan la precisión y la calibración, y cómo la adición de contexto noticioso factual modifica la formación de creencias y los modos de fallo. Nuestros resultados muestran que la capacidad predictiva es altamente variable, ya que depende de qué preguntamos y cómo lo hacemos.
¿En qué datos debe entrenarse un modelo de visión y lenguaje? Para responder a esta pregunta, muchos esfuerzos de curación de datos se centran en la calidad de un conjunto de datos. Sin embargo, la mayoría de estos métodos existentes son (i) estáticos, es decir, producen un conjunto de datos fijo a partir de un conjunto de criterios de filtrado predeterminados, y (ii) agnósticos al concepto, es decir, utilizan filtros basados en modelos que inducen sesgos de datos adicionales. En este trabajo, vamos más allá de estos métodos estáticos y agnósticos al concepto y abogamos por una curación basada en conceptos, más flexible y adaptable a la tarea, en línea. Nuestra primera contribución es DataConcept, una colección de 128 millones de pares de imagen-texto obtenidos de la web, anotados con detalles granulares sobre su composición conceptual. Basándonos en DataConcept, presentamos Concept-Aware Batch Sampling (CABS), un marco de muestreo por lotes simple pero efectivo que construye lotes de manera flexible sobre la marcha basándose en distribuciones objetivo específicas. Proponemos dos variantes: (i) Maximización de la Diversidad (CABS-DM) para curar lotes con una amplia cobertura de conceptos disponibles, y (ii) Maximización de la Frecuencia (CABS-FM) para curar lotes con alta multiplicidad de objetos. Mediante evaluaciones exhaustivas en 28 puntos de referencia, demostramos que nuestro método CABS beneficia significativamente a las clases de modelos CLIP/SigLIP y produce modelos de alto rendimiento. En general, CABS representa una alternativa de código abierto sólida a los algoritmos de curación de datos en línea propietarios, permitiendo a los profesionales definir distribuciones conceptuales personalizadas que optimicen para tareas específicas posteriores.
Obtener el movimiento 3D preciso de una pelota de tenis de mesa a partir de vídeos monoculares estándar es un problema complejo, ya que los métodos existentes entrenados con datos sintéticos tienen dificultades para generalizar a las detecciones ruidosas e imperfectas de la pelota y la mesa en el mundo real. Esto se debe principalmente a la inherente falta de trayectorias 3D de referencia y anotaciones de efecto (spin) para vídeos del mundo real. Para superar esto, proponemos una novedosa canalización de dos etapas que divide el problema en una tarea de percepción de front-end y una tarea de elevación (uplifting) de 2D a 3D de back-end. Esta separación nos permite entrenar los componentes de front-end con supervisión 2D abundante de nuestro nuevo conjunto de datos TTHQ, mientras que la red de elevación de back-end se entrena exclusivamente con datos sintéticos físicamente correctos. Rediseñamos específicamente el modelo de elevación para que sea robusto ante artefactos comunes del mundo real, como detecciones faltantes y frecuencias de cuadro variables. Al integrar un detector de pelota y un detector de puntos clave de la mesa, nuestro enfoque transforma un método de elevación de prueba de concepto en una aplicación práctica, robusta y de alto rendimiento de extremo a extremo para el análisis de trayectorias y efecto en 3D en el tenis de mesa.