Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos SAM 3D, un modelo generativo para la reconstrucción 3D de objetos con base visual, que predige la geometría, la textura y la disposición a partir de una sola imagen. SAM 3D destaca en imágenes naturales, donde la oclusión y el desorden de la escena son comunes y las claves de reconocimiento visual a partir del contexto juegan un papel más importante. Logramos esto con una pipeline que incorpora retroalimentación humana y de modelos para anotar la forma, textura y pose de los objetos, proporcionando datos de reconstrucción 3D con base visual a una escala sin precedentes. Aprendemos de estos datos en un marco de entrenamiento moderno y multi-etapa que combina el preentrenamiento sintético con la alineación en el mundo real, superando la "barrera de datos" en 3D. Obtenemos mejoras significativas respecto a trabajos recientes, con una proporción de preferencia de al menos 5:1 en pruebas de evaluación humana sobre objetos y escenas del mundo real. Publicaremos nuestro código y los pesos del modelo, una demostración en línea y un nuevo benchmark desafiante para la reconstrucción 3D de objetos en entornos no controlados.
Los Agentes de Modelos de Lenguaje Grandes (LLM), a menudo entrenados con Aprendizaje por Refuerzo (RL), están limitados por una dependencia de datos curados por humanos, lo que restringe la escalabilidad y sujeta la IA al conocimiento humano. Los marcos de auto-evolución existentes ofrecen una alternativa, pero suelen estar restringidos por las capacidades inherentes del modelo y las interacciones de una sola ronda, obstaculizando el desarrollo de currículos complejos que impliquen el uso de herramientas o razonamiento dinámico. Presentamos Agent0, un marco completamente autónomo que evoluciona agentes de alto rendimiento sin datos externos mediante co-evolución multi-etapa e integración perfecta de herramientas. Agent0 establece una competencia simbiótica entre dos agentes inicializados desde el mismo LLM base: un agente curricular que propone tareas de frontera cada vez más desafiantes, y un agente ejecutor que aprende a resolverlas. Integramos herramientas externas para mejorar la capacidad de resolución de problemas del ejecutor; esta mejora, a su vez, presiona al agente curricular para que construya tareas más complejas y conscientes de las herramientas. A través de este proceso iterativo, Agent0 establece un ciclo de autorrefuerzo que produce continuamente currículos de alta calidad. Empíricamente, Agent0 aumenta sustancialmente las capacidades de razonamiento, mejorando el modelo Qwen3-8B-Base en un 18% en razonamiento matemático y un 24% en benchmarks de razonamiento general. El código está disponible en https://github.com/aiming-lab/Agent0.
¿Qué papel desempeña el primer fotograma en los modelos de generación de vídeo? Tradicionalmente, se ha considerado como el punto de partida espacio-temporal de un vídeo, simplemente una semilla para la animación posterior. En este trabajo, revelamos una perspectiva fundamentalmente diferente: los modelos de vídeo tratan implícitamente el primer fotograma como un búfer de memoria conceptual que almacena entidades visuales para su reutilización posterior durante la generación. Aprovechando esta idea, demostramos que es posible lograr una personalización robusta y generalizada del contenido de vídeo en diversos escenarios, utilizando solo 20-50 ejemplos de entrenamiento sin cambios arquitectónicos o ajuste a gran escala. Esto desvela una potente capacidad pasada por alto de los modelos de generación de vídeo para la personalización de vídeo basada en referencia.
Los recientes avances en modelos de razonamiento han demostrado un éxito notable en dominios de texto y visión mediante cadenas de pensamiento extendidas. Sin embargo, persiste un fenómeno desconcertante en los modelos de lenguaje auditivo: consistentemente obtienen mejores resultados con razonamiento mínimo o nulo, planteando una pregunta fundamental: ¿puede la inteligencia auditiva beneficiarse realmente del pensamiento deliberativo? Presentamos Step-Audio-R1, el primer modelo de razonamiento auditivo que logra desbloquear capacidades de razonamiento en el dominio auditivo. Mediante nuestro marco propuesto de Distilación de Razonamiento Anclado en Modalidad (MGRD), Step-Audio-R1 aprende a generar cadenas de razonamiento relevantes para audio que se anclan genuinamente en características acústicas, en lugar de generar deliberaciones desconectadas. Nuestro modelo exhibe sólidas capacidades de razonamiento auditivo, superando a Gemini 2.5 Pro y alcanzando un rendimiento comparable al estado del arte de Gemini 3 Pro en evaluaciones exhaustivas de comprensión y razonamiento auditivo que abarcan voz, sonidos ambientales y música. Estos resultados demuestran que el razonamiento es una capacidad transferible entre modalidades cuando se ancla adecuadamente, transformando la deliberación extendida de una desventaja en un activo poderoso para la inteligencia auditiva. Al establecer el primer modelo exitoso de razonamiento auditivo, Step-Audio-R1 abre nuevos caminos hacia la construcción de sistemas de razonamiento verdaderamente multimodales que piensan profundamente en todas las modalidades sensoriales.
A pesar de los notables avances, los modelos fundacionales multimodales aún presentan deficiencias sorprendentes en inteligencia espacial. En este trabajo, exploramos el escalado de modelos fundacionales multimodales para cultivar la inteligencia espacial dentro de la familia SenseNova-SI, construida sobre bases multimodales establecidas que incluyen modelos de comprensión visual (es decir, Qwen3-VL e InternVL3) y modelos unificados de comprensión y generación (es decir, Bagel). Adoptamos un enfoque metódico para construir una inteligencia espacial robusta y de alto rendimiento mediante la curación sistemática de SenseNova-SI-8M: ocho millones de muestras de datos diversas bajo una taxonomía rigurosa de capacidades espaciales. SenseNova-SI demuestra un rendimiento sin precedentes en una amplia gama de benchmarks de inteligencia espacial: 68.7% en VSI-Bench, 43.3% en MMSI, 85.6% en MindCube, 54.6% en ViewSpatial y 50.1% en SITE, manteniendo al mismo tiempo una sólida comprensión multimodal general (por ejemplo, 84.9% en MMBench-En). Más importante aún, analizamos el impacto del escalado de datos, discutimos los primeros indicios de capacidades de generalización emergentes habilitadas por el entrenamiento con datos diversos, analizamos el riesgo de sobreajuste y los atajos lingüísticos, presentamos un estudio preliminar sobre el razonamiento de cadena de pensamiento espacial y validamos la potencial aplicación en tareas específicas. SenseNova-SI es un proyecto en curso, y este informe se actualizará continuamente. Todos los modelos fundacionales multimodales recién entrenados se publican para facilitar futuras investigaciones en esta dirección.
Los avances recientes en modelos generativos de video, como Veo-3, han demostrado sorprendentes capacidades de razonamiento en modo zero-shot, generando una creciente necesidad de evaluación sistemática y confiable. Presentamos V-ReasonBench, un punto de referencia diseñado para evaluar el razonamiento en video a través de cuatro dimensiones clave: resolución estructurada de problemas, cognición espacial, inferencia basada en patrones y dinámica física. Este punto de referencia se construye a partir de secuencias de imágenes tanto sintéticas como del mundo real y ofrece un conjunto diverso de tareas verificables con respuestas que son reproducibles, escalables y no ambiguas. Las evaluaciones de seis modelos de video de última generación revelan diferencias claras en cada dimensión, con una variación significativa en el razonamiento estructurado, espacial, basado en patrones y físico. Además, comparamos modelos de video con modelos de imagen robustos, analizamos comportamientos comunes de alucinación y estudiamos cómo la duración del video afecta el razonamiento en cadena de fotogramas. En general, V-ReasonBench ofrece un marco unificado y reproducible para medir el razonamiento en video y tiene como objetivo apoyar el desarrollo de modelos con habilidades de razonamiento más confiables y alineadas con el ser humano.
Si bien los modelos de lenguaje han tenido un gran impacto en muchas aplicaciones del mundo real, la generación de vídeo sigue estando mayoritariamente confinada al entretenimiento. Motivados por la capacidad inherente del vídeo para demostrar información del mundo físico que es difícil de transmitir únicamente mediante lenguaje (por ejemplo, imaginen enseñar a alguien a hacerse la corbata usando solo texto), identificamos una oportunidad infrautilizada de extender el vídeo como una nueva modalidad de respuesta para la Predicción del Siguiente Evento (Next-Event Prediction, NEP), formalizada como Predicción del Siguiente Evento en Vídeo (Video-Next-Event Prediction, VNEP). Mientras que la tarea NEP establecida toma un vídeo con una pregunta procedimental o predictiva como entrada para predecir el siguiente evento en texto, VNEP requiere respuestas dinámicas en vídeo. Este cambio de *contar* a *mostrar* desbloquea respuestas más intuitivas y personalizadas para el aprendizaje procedimental y la exploración creativa. Sin embargo, esta tarea sigue siendo un desafío para los modelos existentes, ya que requiere la comprensión de entradas multimodales, el razonamiento condicionado por instrucciones y la generación de vídeo con coherencia visual y semántica. Para abordarlo, presentamos VANS, un modelo que aprovecha el aprendizaje por refuerzo para alinear un Modelo de Visión y Lenguaje (Vision-Language Model, VLM) con un Modelo de Difusión de Vídeo (Video Diffusion Model, VDM) para VNEP. El núcleo de VANS es nuestro Joint-GRPO propuesto, que orquesta el VLM y el VDM para que funcionen como una unidad. Impulsado por una recompensa compartida sobre sus respectivas salidas, optimiza el VLM para producir descripciones que sean precisas y fáciles de visualizar, mientras guía al VDM para generar vídeos que sean fieles a estas descripciones y al contexto visual de entrada. Para posibilitar este aprendizaje, creamos VANS-Data-100K, un conjunto de datos dedicado para la tarea VNEP. Los experimentos en benchmarks procedimentales y predictivos demuestran que VANS logra un rendimiento state-of-the-art tanto en la predicción como en la visualización de eventos en vídeo. El código se ha publicado en https://github.com/KlingTeam/VANS.
Entrenar una familia de modelos de lenguaje grande dirigidos a múltiples escalas y objetivos de implementación es prohibitivamente costoso, ya que requiere ejecuciones de entrenamiento separadas para cada tamaño diferente. Trabajos recientes sobre compresión de modelos mediante poda y destilación de conocimiento han reducido este coste; sin embargo, este proceso aún incurre en un coste de entrenamiento equivalente a cientos de miles de millones de tokens por modelo comprimido. En este artículo, presentamos Nemotron Elastic, un marco para construir LLMs orientados al razonamiento, incluyendo arquitecturas híbridas Mamba-Atención, que integran múltiples submodelos anidados dentro de un único modelo padre, cada uno optimizado para diferentes configuraciones de implementación y presupuestos. Cada uno de estos submodelos comparte pesos con el modelo padre y puede extraerse *zero-shot* durante la implementación sin necesidad de entrenamiento o ajuste fino adicional. Habilitamos esta funcionalidad mediante un enrutador entrenado de extremo a extremo, estrechamente acoplado a un plan de formación de dos etapas diseñado específicamente para modelos de razonamiento. Además, introducimos la elastificación SSM con conciencia de grupo que preserva las restricciones estructurales de Mamba, la elastificación MLP heterogénea, la importancia de capas basada en MSE normalizado para una mejor selección de profundidad, y la destilación de conocimiento que permite la optimización multi-presupuesto simultánea. Aplicamos Nemotron Elastic al modelo Nemotron Nano V2 de 12B, produciendo simultáneamente un modelo de 9B y uno de 6B utilizando solo 110B tokens de entrenamiento; esto resulta en una reducción de costes de más de 360x en comparación con entrenar familias de modelos desde cero, y aproximadamente 7x en comparación con las técnicas de compresión SoTA. Cada uno de los modelos anidados rinde a la par o mejor que el SoTA en precisión. Además, a diferencia de otros métodos de compresión, la capacidad anidada de nuestro enfoque permite tener un modelo de razonamiento múltiple-en-uno que tiene un coste de memoria de implementación constante frente al número de modelos en la familia.
Hemos liberado como código abierto MiMo-Embodied, el primer modelo fundacional cross-embodied que integra y logra un rendimiento de vanguardia tanto en Conducción Autónoma como en IA Embebida. MiMo-Embodied establece nuevos récords en 17 benchmarks de IA embebida en Planificación de Tareas, Predicción de Posibilidades de Acción (Affordance) y Comprensión Espacial, además de sobresalir en 12 benchmarks de conducción autónoma en Percepción Ambiental, Predicción de Estados y Planificación de la Conducción. En todas estas tareas, MiMo-Embodied supera significativamente a las líneas base existentes, ya sean de código abierto, cerrado o especializadas. Nuestros resultados indican que, mediante aprendizaje multi-etapa, construcción de datos curada y ajuste fino con CoT/RL, estos dos dominios exhiben una fuerte transferencia positiva y se refuerzan mutuamente. Proporcionamos un análisis detallado de nuestro diseño de modelo y metodologías de entrenamiento para facilitar futuras investigaciones. El código y los modelos están disponibles en https://github.com/XiaomiMiMo/MiMo-Embodied.
Los modelos Visión-Lenguaje-Acción (VLA) sobresalen en la manipulación robótica, pero están limitados por su fuerte dependencia de demostraciones expertas, lo que genera un sesgo demostrativo y restringe su rendimiento. El aprendizaje por refuerzo (RL) es una estrategia vital de post-entrenamiento para superar estos límites; sin embargo, los métodos VLA-RL actuales, incluidos los enfoques de optimización basados en grupos, se ven severamente afectados por la escasez de recompensas. Depender de indicadores binarios de éxito desperdicia información valiosa en trayectorias fallidas, resultando en una baja eficiencia de entrenamiento. Para resolver esto, proponemos la Optimización de Políticas Auto-Referenciales (SRPO), un novedoso marco VLA-RL. SRPO elimina la necesidad de demostraciones externas o ingeniería manual de recompensas al utilizar las propias trayectorias exitosas del modelo, generadas dentro del lote de entrenamiento actual, como autorreferencia. Esto nos permite asignar una recompensa progresiva a los intentos fallidos. Una innovación central es el uso de representaciones latentes del mundo para medir el progreso conductual de manera robusta. En lugar de depender de píxeles en bruto o requerir ajustes específicos por dominio, utilizamos las codificaciones comprimidas y transferibles del espacio latente de un modelo mundial. Estas representaciones capturan patrones de progreso naturalmente entre entornos, permitiendo una comparación precisa y generalizada de trayectorias. Las evaluaciones empíricas en el benchmark LIBERO demuestran la eficiencia y efectividad de SRPO. Partiendo de una línea base supervisada con un 48.9% de éxito, SRPO alcanza un nuevo estado del arte con una tasa de éxito del 99.2% en solo 200 pasos de RL, lo que representa una mejora relativa del 103% sin supervisión adicional. Además, SRPO muestra una robustez sustancial, logrando una mejora de rendimiento del 167% en el benchmark LIBERO-Plus.
Los hospitales y sistemas sanitarios dependen de decisiones operativas que determinan el flujo de pacientes, el coste y la calidad de la atención. A pesar del sólido rendimiento en conocimientos médicos y evaluaciones conversacionales, los modelos base entrenados con texto general pueden carecer del conocimiento especializado requerido para estas decisiones operativas. Presentamos Lang1, una familia de modelos (de 100M a 7B de parámetros) preentrenada con un corpus especializado que combina 80B de *tokens* clínicos de las historias clínicas electrónicas (HCE) de NYU Langone Health y 627B de *tokens* de internet. Para evaluar rigurosamente a Lang1 en entornos del mundo real, desarrollamos la Evaluación Médica Realista (ReMedE), un punto de referencia derivado de 668,331 notas de HCE que evalúa cinco tareas críticas: predicción de reingreso a 30 días, predicción de mortalidad a 30 días, duración de la estancia, codificación de comorbilidades y predicción de denegación de reclamaciones de seguros. En entornos *zero-shot*, tanto los modelos de propósito general como los especializados obtienen un rendimiento inferior en cuatro de las cinco tareas (36,6%-71,7% AUROC), siendo la predicción de mortalidad la excepción. Tras el ajuste fino (*finetuning*), Lang1-1B supera a los modelos generalistas ajustados hasta 70 veces más grandes y a los modelos *zero-shot* hasta 671 veces más grandes, mejorando el AUROC en un 3,64%-6,75% y un 1,66%-23,66%, respectivamente. También observamos un escalado cruzado de tareas, donde el ajuste fino conjunto en múltiples tareas conduce a una mejora en otras tareas. Lang1-1B se transfiere eficazmente a entornos fuera de distribución, incluyendo otras tareas clínicas y un sistema sanitario externo. Nuestros hallazgos sugieren que las capacidades predictivas para las operaciones hospitalarias requieren un ajuste fino supervisado explícito, y que este proceso se hace más eficiente mediante el preentrenamiento en el dominio específico de las HCE. Nuestros resultados respaldan la visión emergente de que los LLM especializados pueden competir con modelos generalistas en tareas especializadas, y muestran que una IA eficaz para sistemas sanitarios requiere la combinación de preentrenamiento en el dominio, ajuste fino supervisado y evaluación en el mundo real más allá de los puntos de referencia proxy.
Los sistemas neuronales de recuperación de información sobresalen en idiomas con muchos recursos, pero siguen sin explorarse lo suficiente para lenguas morfológicamente ricas y con menos recursos, como el turco. Los bi-codificadores densos actualmente dominan la RI en turco, sin embargo, los modelos de interacción tardía —que conservan representaciones a nivel de token para una coincidencia más fina— no han sido evaluados sistemáticamente. Presentamos TurkColBERT, el primer benchmark integral que compara codificadores densos y modelos de interacción tardía para la recuperación en turco. Nuestra pipeline de adaptación en dos etapas afina codificadores en inglés y multilingües en tareas turcas de NLI/STS, y luego los convierte en recuperadores estilo ColBERT usando PyLate entrenado en MS MARCO-TR. Evaluamos 10 modelos en cinco conjuntos de datos turcos BEIR que abarcan dominios científicos, financieros y argumentativos. Los resultados muestran una fuerte eficiencia paramétrica: colbert-hash-nano-tr, con 1.0M de parámetros, es 600 veces más pequeño que el codificador denso turkish-e5-large de 600M, preservando más del 71% de su mAP promedio. Los modelos de interacción tardía que son 3-5 veces más pequeños que los codificadores densos los superan significativamente; ColmmBERT-base-TR produce hasta un +13.8% de mAP en tareas específicas de dominio. Para la preparación para producción, comparamos algoritmos de indexación: MUVERA+Rerank es 3.33 veces más rápido que PLAID y ofrece una ganancia relativa de mAP de +1.7%. Esto permite una recuperación de baja latencia, con ColmmBERT-base-TR logrando tiempos de consulta de 0.54 ms bajo MUVERA. Publicamos todos los checkpoints, configuraciones y scripts de evaluación. Las limitaciones incluyen la dependencia de conjuntos de datos de tamaño moderado (≤50K documentos) y benchmarks traducidos, que pueden no reflejar completamente las condiciones reales de recuperación en turco; siguen siendo necesarias evaluaciones a mayor escala con MUVERA.
Presentamos NaTex, un marco de generación de texturas nativo que predice el color de la textura directamente en el espacio 3D. A diferencia de enfoques previos que dependen de la "horneada" (baking) de imágenes 2D de múltiples vistas sintetizadas por modelos de Difusión de Múltiples Vistas condicionados por geometría (MVDs), NaTex evita varias limitaciones inherentes al pipeline MVD. Estas incluyen las dificultades para manejar regiones ocluidas que requieren inpaintin, lograr una alineación precisa entre malla y textura a lo largo de los bordes, y mantener la consistencia y coherencia entre vistas tanto en el contenido como en la intensidad del color. NaTex presenta un paradigma novedoso que aborda los problemas antes mencionados al considerar la textura como una nube de puntos de color densa. Impulsados por esta idea, proponemos la difusión latente de color, que comprende un VAE de nube de puntos de color consciente de la geometría y un transformador de difusión de multi-control (DiT), entrenados completamente desde cero usando datos 3D, para la reconstrucción y generación de texturas. Para permitir una alineación precisa, introducimos un control de geometría nativo que condiciona el DiT con información espacial 3D directa mediante positional embeddings y latentes geométricos. Co-diseñamos la arquitectura VAE-DiT, donde los latentes geométricos se extraen mediante una rama de geometría dedicada estrechamente acoplada con el VAE de color, proporcionando una guía de superficie de grano fino que mantiene una fuerte correspondencia con la textura. Con estos diseños, NaTex demuestra un rendimiento sólido, superando significativamente a métodos anteriores en coherencia y alineación de texturas. Además, NaTex también exhibe fuertes capacidades de generalización, ya sea sin necesidad de entrenamiento adicional o con un ajuste simple, para varias aplicaciones posteriores, por ejemplo, generación de materiales, refinamiento de texturas, y segmentación y texturizado de partes.
Los recientes avances en generación visual han explorado cada vez más la integración de capacidades de razonamiento. Estos métodos incorporan razonamiento textual, es decir, "pensar", ya sea antes (como planificación previa) o después (como refinamiento posterior) del proceso de generación, pero carecen de interacción multimodal en tiempo real durante la propia generación. En este estudio preliminar, presentamos Thinking-while-Generating (TwiG), el primer marco entrelazado que permite la co-evolución del razonamiento textual a lo largo del proceso de generación visual. A medida que el contenido visual se genera progresivamente, el razonamiento textual se entrelaza para guiar las próximas regiones locales y reflexionar sobre las previamente sintetizadas. Esta interacción dinámica produce resultados visuales más conscientes del contexto y semánticamente más ricos. Para desvelar el potencial de este marco, investigamos tres estrategias candidatas: *prompting* de cero disparos, ajuste fino supervisado (SFT) en nuestro conjunto de datos TwiG-50K, y aprendizaje por refuerzo (RL) mediante una estrategia personalizada TwiG-GRPO, cada una ofreciendo perspectivas únicas sobre la dinámica del razonamiento entrelazado. Esperamos que este trabajo inspire futuras investigaciones sobre el entrelazado del razonamiento textual para mejorar la generación visual. El código se liberará en: https://github.com/ZiyuGuo99/Thinking-while-Generating.
Presentamos TimeViper, un modelo híbrido de visión y lenguaje diseñado para abordar los desafíos de la comprensión de vídeos largos. El procesamiento de vídeos largos exige tanto una arquitectura de modelo eficiente como un mecanismo efectivo para manejar contextos temporales extendidos. Con este fin, TimeViper adopta una arquitectura híbrida Mamba-Transformer que combina la eficiencia de los modelos de espacio de estados con la expresividad de los mecanismos de atención. A través de este diseño híbrido, revelamos el fenómeno de agregación de información de visión a texto, donde la información fluye progresivamente desde los tokens visuales hacia los tokens de texto a lo largo de la profundidad creciente del LLM, resultando en una severa redundancia de tokens visuales. Motivados por esta observación, proponemos TransV, un módulo de transferencia de información de tokens que transfiere y comprime los tokens visuales en tokens de instrucción manteniendo las capacidades de comprensión multimodal. Este diseño permite a TimeViper procesar vídeos de una hora de duración que superan las 10,000 frames. Experimentos exhaustivos en múltiples benchmarks demuestran que TimeViper compite con los modelos de vanguardia mientras extiende el número de frames. Además, analizamos los comportamientos de atención tanto de las capas Mamba como Transformer, ofreciendo nuevas perspectivas sobre la interpretabilidad de los modelos híbridos. Este trabajo representa un paso inicial hacia el desarrollo, interpretación y compresión de arquitecturas híbridas Mamba-Transformer.
El desarrollo UV aplana superficies 3D a 2D con distorsión mínima, lo que a menudo requiere descomponer la superficie compleja en múltiples *charts* o secciones. Aunque ha sido ampliamente estudiado, los métodos existentes de desarrollo UV frecuentemente presentan dificultades con mallas generadas por IA, que suelen ser ruidosas, irregulares y estar mal condicionadas. Estos métodos a menudo producen *charts* altamente fragmentados y límites subóptimos, introduciendo artefactos y dificultando las tareas posteriores. Presentamos PartUV, una canalización de desarrollo UV basada en partes que genera *charts* significativamente menos numerosos, alineados con las partes y que mantienen una baja distorsión. Construido sobre un método reciente de descomposición en partes basado en aprendizaje, PartField, PartUV combina una descomposición semántica de partes de alto nivel con nuevas heurísticas geométricas en un marco recursivo descendente. Garantiza que la distorsión de cada *chart* se mantenga por debajo de un umbral especificado por el usuario mientras minimiza el número total de *charts*. La canalización integra y extiende algoritmos de parametrización y empaquetamiento, incorpora un manejo dedicado de mallas no múltiples y degeneradas, y está extensamente paralelizada para mayor eficiencia. Evaluado en cuatro conjuntos de datos diversos, que incluyen formas artificiales, CAD, generadas por IA y Formas Comunes, PartUV supera a las herramientas existentes y a los métodos neuronales recientes en recuento de *charts* y longitud de costuras, logra una distorsión comparable, exhibe altas tasas de éxito en mallas desafiantes y permite nuevas aplicaciones como el empaquetamiento multi-baldosa específico por partes. Nuestra página del proyecto está en https://www.zhaoningwang.com/PartUV.
La segmentación de vídeo quirúrgico es crucial para la cirugía asistida por computadora, ya que permite la localización y el seguimiento precisos de instrumentos y tejidos. Los modelos de Segmentación Interactiva de Objetos en Vídeo (iVOS), como Segment Anything Model 2 (SAM2), ofrecen una flexibilidad basada en prompts que supera a los métodos con categorías predefinidas, pero se enfrentan a desafíos en escenarios quirúrgicos debido a la brecha de dominio y al seguimiento limitado a largo plazo. Para abordar estas limitaciones, construimos SA-SV, el mayor benchmark de iVOS quirúrgico con anotaciones espacio-temporales a nivel de instancia (masklets) que abarca ocho tipos de procedimientos (61k fotogramas, 1.6k masklets), permitiendo un desarrollo y evaluación integrales para el seguimiento a largo plazo y la generalización zero-shot. Basándonos en SA-SV, proponemos SAM2S, un modelo fundacional que mejora SAM2 para iVOS Quirúrgico mediante: (1) DiveMem, un mecanismo de memoria diversa entrenable para un seguimiento robusto a largo plazo; (2) aprendizaje semántico temporal para la comprensión de instrumentos; y (3) aprendizaje resiliente a la ambigüedad para mitigar las inconsistencias en las anotaciones de conjuntos de datos multi-fuente. Experimentos exhaustivos demuestran que el fine-tuning en SA-SV permite ganancias sustanciales de rendimiento, mejorando SAM2 en 12.99 puntos de J\&F promedio respecto al SAM2 original. SAM2S avanza aún más el rendimiento hasta 80.42 de J\&F promedio, superando al SAM2 original y al ajustado por 17.10 y 4.11 puntos respectivamente, manteniendo una inferencia en tiempo real de 68 FPS y una fuerte generalización zero-shot. El código y el conjunto de datos se publicarán en https://jinlab-imvr.github.io/SAM2S.
El entrenamiento a largo plazo de modelos de lenguaje a gran escala (LLM) requiere mantener una exploración estable para evitar que el modelo colapse en comportamientos subóptimos. La entropía es crucial en este contexto, ya que controla la exploración y ayuda a evitar la convergencia prematura a soluciones subóptimas. Sin embargo, los métodos existentes de aprendizaje por refuerzo tienen dificultades para mantener un nivel adecuado de entropía, ya que el proceso de entrenamiento implica una mezcla de muestras positivas y negativas, cada una afectando la entropía de manera diferente a lo largo de los pasos. Para abordar esto, proponemos Estabilización de Entropía mediante Control Proporcional-Integral (EntroPIC), un método novedoso que ajusta adaptativamente la influencia de las muestras positivas y negativas sintonizando dinámicamente sus coeficientes de pérdida. Este enfoque estabiliza la entropía durante todo el entrenamiento, garantizando una exploración eficiente y un progreso constante. Proporcionamos un análisis teórico exhaustivo para entornos de aprendizaje tanto *on-policy* como *off-policy*, demostrando que EntroPIC es efectivo para controlar la entropía en el entrenamiento de LLM a gran escala. Los resultados experimentales muestran que nuestro método mantiene exitosamente los niveles de entropía deseados, permitiendo un entrenamiento estable y óptimo por refuerzo para LLM.
Las arquitecturas basadas en transformadores son ampliamente adoptadas en sistemas de recomendación secuencial, sin embargo, su aplicación en Servicios Financieros (SF) presenta desafíos prácticos y de modelado distintos para la recomendación en tiempo real. Estos incluyen: a) interacciones de usuario de largo alcance (implícitas y explícitas) que abarcan tanto canales digitales como físicos, generando un contexto temporalmente heterogéneo, b) la presencia de múltiples productos interrelacionados que requieren modelos coordinados para respaldar diversas ubicaciones publicitarias y feeds personalizados, mientras se equilibran objetivos comerciales en competencia. Proponemos FinTRec, un marco basado en transformadores que aborda estos desafíos y sus objetivos operativos en SF. Si bien los modelos basados en árboles han sido tradicionalmente preferidos en SF debido a su explicabilidad y alineación con los requisitos regulatorios, nuestro estudio demuestra que FinTRec ofrece un cambio viable y efectivo hacia las arquitecturas basadas en transformadores. Mediante simulación histórica y correlaciones de pruebas A/B en vivo, mostramos que FinTRec supera consistentemente a la línea base de producción basada en árboles. La arquitectura unificada, cuando se ajusta para la adaptación de productos, permite el intercambio de señales entre productos, reduce el costo de entrenamiento y la deuda técnica, al tiempo que mejora el rendimiento offline en todos los productos. Hasta donde sabemos, este es el primer estudio integral de modelado unificado de recomendación secuencial en SF que aborda consideraciones tanto técnicas como comerciales.
La precisión en transferencia por sonda lineal de ImageNet-1K sigue siendo el indicador por defecto de la calidad de las representaciones visuales, pero ya no predice el rendimiento en imágenes científicas. En 46 puntos de control de modelos de visión modernos, la precisión top-1 de ImageNet explica solo el 34% de la varianza en tareas de ecología y clasifica incorrectamente al 30% de los modelos por encima del 75% de precisión. Presentamos BioBench, un benchmark de visión para ecología de código abierto que capta lo que ImageNet pasa por alto. BioBench unifica 9 tareas de aplicación práctica publicadas públicamente, 4 reinos taxonómicos y 6 modalidades de adquisición (RGB de dron, vídeo web, micrografías, fotos in situ y de especímenes, fotogramas de cámaras trampa), totalizando 3.1 millones de imágenes. Una única API de Python descarga los datos, ajusta clasificadores ligeros a "backbones" congelados y reporta la macro-F1 balanceada por clases (además de métricas específicas de dominio para FishNet y FungiCLEF); los modelos ViT-L se evalúan en 6 horas en una GPU A6000. BioBench proporciona una nueva señal para la visión por computadora en ecología y una plantilla para construir benchmarks confiables de IA para la ciencia en cualquier dominio. El código y las predicciones están disponibles en https://github.com/samuelstevens/biobench y los resultados en https://samuelstevens.me/biobench.
Si bien los modelos grandes de visión y lenguaje (LVLM) recientes exhiben sólidas capacidades de razonamiento multimodal, a menudo producen respuestas infundadas o alucinadas porque dependen excesivamente de priores lingüísticos en lugar de evidencia visual. Esta limitación subraya la ausencia de una medida cuantitativa de cuánto utilizan realmente estos modelos la información visual durante el razonamiento. Proponemos Draft and Refine (DnR), un marco de agente impulsado por una métrica de utilización condicionada por la pregunta. La métrica cuantifica la dependencia del modelo en la evidencia visual construyendo primero un mapa de relevancia condicionado por la consulta para localizar indicios específicos de la pregunta y luego midiendo la dependencia mediante un enmascaramiento probabilístico guiado por la relevancia. Guiado por esta métrica, el agente DnR refina su borrador inicial utilizando retroalimentación específica de expertos visuales externos. La salida de cada experto (como cuadros delimitadores o máscaras) se representa como indicios visuales en la imagen, y se vuelve a consultar al modelo para que seleccione la respuesta que produzca la mayor mejora en la utilización. Este proceso fortalece el grounding visual sin necesidad de reentrenamiento o cambios arquitectónicos. Los experimentos en benchmarks de VQA y generación de descripciones muestran ganancias consistentes en precisión y una reducción de las alucinaciones, demostrando que medir la utilización visual proporciona un camino fundamentado hacia sistemas de agentes multimodales más interpretables y basados en evidencia.
Los recientes avances en el preentrenamiento de imagen-texto han mejorado significativamente la comprensión visual mediante la alineación de representaciones visuales y textuales. El Preentrenamiento Contraste Lenguaje-Imagen (CLIP) ha desempeñado un papel fundamental en el aprendizaje multimodal. Sin embargo, su enfoque en la alineación de granularidad única y etiqueta única limita su eficacia en dominios complejos como la imagen médica, donde las imágenes suelen corresponder a múltiples etiquetas de alto nivel (por ejemplo, categorías de enfermedades) en diferentes granularidades de anotación (por ejemplo, descripción diagnóstica, explicación clínica). Para abordar esto, proponemos el Aprendizaje de Lenguaje Multi-Granular (MGLL), un marco de aprendizaje contrastivo diseñado para mejorar tanto la alineación multi-etiqueta como la cross-granularidad. MGLL aprovecha la supervisión estructurada multi-etiqueta, integra descripciones textuales a través de granularidades e introduce supervisión de etiquetas suaves con restricciones punto a punto para mejorar la alineación. MGLL emplea la divergencia suavizada de Kullback-Leibler (KL) para garantizar la consistencia cross-granularidad manteniendo la eficiencia computacional como un módulo plug-and-play para modelos de visión y lenguaje. Preentrenado en nuestros conjuntos de datos multi-granulares a gran escala construidos y evaluado en múltiples conjuntos de datos, MGLL supera a otros métodos state-of-the-art en tareas posteriores. El código está disponible en https://github.com/HUANGLIZI/MGLL.