Artículos de investigación en IA seleccionados diariamente con traducciones
La creciente adopción de dispositivos de realidad extendida (XR) ha impulsado una fuerte demanda de video estéreo de alta calidad, aunque su producción sigue siendo costosa y propensa a artefactos. Para abordar este desafío, presentamos StereoWorld, un marco integral que readapta un generador de video preentrenado para la generación de video monoculares a estéreo de alta fidelidad. Nuestro marco condiciona conjuntamente al modelo con la entrada de video monocular mientras supervisa explícitamente la generación con una regularización consciente de la geometría para garantizar la fidelidad estructural 3D. Se integra además un esquema de mosaico espaciotemporal para permitir una síntesis eficiente de alta resolución. Para posibilitar el entrenamiento y evaluación a gran escala, hemos creado un conjunto de datos de video estéreo en alta definición que contiene más de 11 millones de fotogramas alineados con la distancia interpupilar (IPD) humana natural. Experimentos exhaustivos demuestran que StereoWorld supera sustancialmente a métodos anteriores, generando videos estéreo con una fidelidad visual y consistencia geométrica superiores. La página web del proyecto está disponible en https://ke-xing.github.io/StereoWorld/.
Los recientes avances en los modelos de difusión han mejorado enormemente la generación y edición de imágenes, pero la generación o reconstrucción de archivos PSD en capas con canales alfa transparentes sigue siendo un gran desafío. Proponemos OmniPSD, un marco de difusión unificado construido sobre el ecosistema Flux que permite tanto la generación de texto a PSD como la descomposición de imagen a PSD mediante el aprendizaje en contexto. Para la generación de texto a PSD, OmniPSD organiza espacialmente múltiples capas objetivo en un solo lienzo y aprende sus relaciones compositivas mediante atención espacial, produciendo capas semánticamente coherentes y jerárquicamente estructuradas. Para la descomposición de imagen a PSD, realiza una edición iterativa en contexto, extrayendo y eliminando progresivamente componentes textuales y en primer plano para reconstruir capas PSD editables a partir de una única imagen aplanada. Se emplea un RGBA-VAE como módulo de representación auxiliar para preservar la transparencia sin afectar el aprendizaje estructural. Experimentos exhaustivos en nuestro nuevo conjunto de datos de capas RGBA demuestran que OmniPSD logra una generación de alta fidelidad, coherencia estructural y conciencia de la transparencia, ofreciendo un nuevo paradigma para la generación y descomposición de diseños en capas con transformadores de difusión.
Comprender cómo el cerebro humano representa conceptos visuales y en qué regiones cerebrales se codifican estas representaciones sigue siendo un desafío de larga data. Décadas de trabajo han avanzado nuestra comprensión de las representaciones visuales, pero las señales cerebrales siguen siendo grandes y complejas, y el espacio de posibles conceptos visuales es vasto. Como resultado, la mayoría de los estudios siguen siendo a pequeña escala, se basan en la inspección manual, se centran en regiones y propiedades específicas y rara vez incluyen una validación sistemática. Presentamos un marco de trabajo a gran escala y automatizado para descubrir y explicar las representaciones visuales en la corteza humana. Nuestro método comprende dos etapas principales. Primero, descubrimos patrones candidatos interpretables en la actividad de la resonancia magnética funcional (fMRI) mediante métodos de descomposición no supervisados y basados en datos. A continuación, explicamos cada patrón identificando el conjunto de imágenes naturales que lo elicitan con mayor fuerza y generando una descripción en lenguaje natural de su significado visual compartido. Para escalar este proceso, introducimos una canalización automatizada que prueba múltiples explicaciones candidatas, asigna puntuaciones de fiabilidad cuantitativas y selecciona la descripción más consistente para cada patrón de vóxeles. Nuestro marco revela miles de patrones interpretables que abarcan muchos conceptos visuales distintos, incluyendo representaciones detalladas que no se habían reportado previamente.
La composición de conceptos visuales, que busca integrar diferentes elementos de imágenes y vídeos en una única salida visual coherente, aún no logra extraer con precisión conceptos complejos de entradas visuales ni combinar flexiblemente conceptos de imágenes y vídeos. Presentamos Bind & Compose, un método de un solo disparo que permite la composición flexible de conceptos visuales mediante la vinculación de conceptos visuales con tokens de prompt correspondientes y la composición del prompt objetivo con tokens vinculados de diversas fuentes. Adopta una estructura de vinculador jerárquica para el acondicionamiento de atención cruzada en Transformadores de Difusión, codificando conceptos visuales en tokens de prompt correspondientes para una descomposición precisa de conceptos visuales complejos. Para mejorar la precisión de la vinculación concepto-token, diseñamos un Mecanismo de Diversificar y Absorber que utiliza un token absorbente adicional para eliminar el impacto de detalles irrelevantes al concepto durante el entrenamiento con prompts diversificados. Para mejorar la compatibilidad entre conceptos de imagen y vídeo, presentamos una Estrategia de Desenredado Temporal que desacopla el proceso de entrenamiento de conceptos de vídeo en dos etapas con una estructura de vinculador de doble rama para el modelado temporal. Las evaluaciones demuestran que nuestro método logra una consistencia conceptual, fidelidad al prompt y calidad de movimiento superiores a los enfoques existentes, abriendo nuevas posibilidades para la creatividad visual.
Presentamos MotionEdit, un novedoso conjunto de datos para la edición de imágenes centrada en el movimiento: la tarea de modificar acciones e interacciones del sujeto preservando la identidad, la estructura y la plausibilidad física. A diferencia de los conjuntos de datos de edición de imágenes existentes, que se centran en cambios de apariencia estática o contienen únicamente ediciones de movimiento escasas y de baja calidad, MotionEdit proporciona pares de imágenes de alta fidelidad que representan transformaciones de movimiento realistas, extraídas y verificadas a partir de vídeos continuos. Esta nueva tarea no solo es científicamente desafiante, sino también de gran importancia práctica, impulsando aplicaciones derivadas como la síntesis de vídeo controlada por fotogramas y la animación. Para evaluar el rendimiento de los modelos en esta novedosa tarea, presentamos MotionEdit-Bench, un benchmark que desafía a los modelos con ediciones centradas en el movimiento y mide su rendimiento mediante métricas generativas, discriminativas y basadas en preferencias. Los resultados del benchmark revelan que la edición de movimiento sigue siendo altamente compleja para los modelos de edición basados en difusión más avanzados existentes. Para abordar esta brecha, proponemos MotionNFT (Fine Tuning Negativo Guiado por Movimiento), un marco de trabajo de post-entrenamiento que calcula recompensas de alineación de movimiento basadas en qué tan bien coincide el flujo de movimiento entre las imágenes de entrada y las editadas por el modelo con el movimiento de referencia, guiando a los modelos hacia transformaciones de movimiento precisas. Experimentos exhaustivos en FLUX.1 Kontext y Qwen-Image-Edit demuestran que MotionNFT mejora consistentemente la calidad de edición y la fidelidad del movimiento de ambos modelos base en la tarea de edición de movimiento sin sacrificar su capacidad de edición general, lo que evidencia su eficacia.
El razonamiento de cadena de pensamiento (CoT) ha tenido gran éxito en la resolución de tareas complejas en el procesamiento del lenguaje natural, y los modelos de lenguaje grandes multimodales (MLLM) recientes han extendido este paradigma al razonamiento en video. Sin embargo, estos modelos generalmente se basan en cadenas de razonamiento extensas y un gran número de tokens visuales de entrada. Motivados por observaciones empíricas de nuestro estudio de referencia, planteamos la hipótesis de que un razonamiento conciso combinado con un conjunto reducido de tokens visuales puede ser suficiente para un razonamiento en video efectivo. Para evaluar esta hipótesis, diseñamos y validamos un marco eficiente de post-entrenamiento e inferencia que mejora la capacidad de razonamiento de un MLLM de video. Nuestro marco permite a los modelos operar con tokens visuales comprimidos y generar trazas de razonamiento breves antes de responder. Los modelos resultantes logran una eficiencia de inferencia sustancialmente mejorada, ofrecen un rendimiento competitivo en diversos benchmarks y evitan la dependencia de anotaciones CoT manuales o ajuste supervisado. Colectivamente, nuestros resultados sugieren que el razonamiento CoT extenso, similar al humano, puede no ser necesario para el razonamiento general en video, y que el razonamiento conciso puede ser tanto efectivo como eficiente. Nuestro código se publicará en https://github.com/LaVi-Lab/Rethink_CoT_Video.
La atención por ventanas y la atención lineal representan dos estrategias principales para mitigar la complejidad cuadrática y la creciente caché KV en los Modelos de Visión y Lenguaje (VLMs). Sin embargo, observamos que los VLMs basados en ventanas sufren degradación de rendimiento cuando la longitud de la secuencia excede el tamaño de la ventana, mientras que la atención lineal tiene un rendimiento inferior en tareas intensivas en información, como OCR y comprensión de documentos. Para superar estas limitaciones, proponemos InfiniteVL, una arquitectura VLM de complejidad lineal que sinergiza la atención por ventana deslizante (SWA) con Gated DeltaNet. Para lograr un rendimiento multimodal competitivo con recursos limitados, diseñamos una estrategia de entrenamiento en tres etapas que comprende preentrenamiento por destilación, ajuste por instrucciones y SFT de secuencias largas. Notablemente, utilizando menos del 2% de los datos de entrenamiento requeridos por los principales VLMs, InfiniteVL no solo supera sustancialmente a los VLMs anteriores de complejidad lineal, sino que iguala el rendimiento de los principales VLMs basados en Transformer, al tiempo que demuestra una retención efectiva de memoria a largo plazo. En comparación con VLMs basados en Transformer de tamaño similar acelerados por FlashAttention-2, InfiniteVL logra una aceleración de inferencia superior a 3.6× mientras mantiene una latencia y huella de memoria constantes. En escenarios de comprensión de video en streaming, mantiene una velocidad de prellenado estable en tiempo real de 24 FPS mientras preserva la caché de memoria a largo plazo. El código y los modelos están disponibles en https://github.com/hustvl/InfiniteVL.
Los sistemas de conducción autónoma (CA) presentan dificultades en escenarios de larga cola debido a su conocimiento limitado del mundo y a su débil modelado dinámico visual. Los métodos existentes basados en visión-lenguaje-acción (VLA) no pueden aprovechar los vídeos no etiquetados para el aprendizaje causal visual, mientras que los métodos basados en modelos del mundo carecen de capacidades de razonamiento propias de los modelos de lenguaje grande. En este artículo, construimos múltiples conjuntos de datos especializados que proporcionan anotaciones de razonamiento y planificación para escenarios complejos. Posteriormente, proponemos un marco unificado de Comprensión-Generación-Planificación, denominado UniUGP, para sincronizar el razonamiento escénico, la generación de vídeos futuros y la planificación de trayectorias mediante una arquitectura híbrida de expertos. Al integrar modelos VLM y modelos de generación de vídeo preentrenados, UniUGP aprovecha la dinámica visual y el razonamiento semántico para mejorar el rendimiento de la planificación. Tomando como entrada observaciones multifotograma e instrucciones lingüísticas, produce cadenas de razonamiento interpretables, trayectorias físicamente consistentes y vídeos futuros coherentes. Introducimos una estrategia de entrenamiento en cuatro etapas que desarrolla progresivamente estas capacidades en múltiples conjuntos de datos existentes de CA, junto con los conjuntos de datos especializados propuestos. Los experimentos demuestran un rendimiento de vanguardia en percepción, razonamiento y toma de decisiones, con una generalización superior en situaciones desafiantes de larga cola.
Los modelos Visión-Lenguaje-Acción (VLA) han permitido recientemente la manipulación robótica mediante la fundamentación de señales visuales y lingüísticas en acciones. Sin embargo, la mayoría de los VLA asumen la propiedad de Markov, dependiendo únicamente de la observación actual y, por lo tanto, adolecen de miopía temporal que degrada la coherencia a largo plazo. En este trabajo, consideramos el movimiento como una representación más compacta e informativa del contexto temporal y la dinámica del mundo, que captura los cambios entre estados mientras filtra el ruido estático a nivel de píxeles. Basándonos en esta idea, proponemos HiF-VLA (Retrospección, Perspicacia y Prospectiva para VLA), un marco unificado que aprovecha el movimiento para el razonamiento temporal bidireccional. HiF-VLA codifica la dinámica pasada a través de distribuciones previas de retrospección, anticipa el movimiento futuro mediante razonamiento prospectivo, e integra ambos a través de un experto conjunto modulado por retrospección para permitir un paradigma de "pensar-mientras-se-actúa" para la manipulación de larga duración. Como resultado, HiF-VLA supera a sólidas líneas de base en los benchmarks LIBERO-Long y CALVIN ABC-D, mientras incurre en una latencia de inferencia adicional insignificante. Además, HiF-VLA logra mejoras sustanciales en tareas de manipulación de larga duración en el mundo real, demostrando su amplia efectividad en entornos robóticos prácticos.
Presentamos WonderZoom, un enfoque novedoso para generar escenas 3D con contenido a múltiples escalas espaciales a partir de una sola imagen. Los modelos existentes de generación de mundos 3D siguen limitados a la síntesis a escala única y no pueden producir contenidos coherentes en la escena con distintos niveles de granularidad. El desafío fundamental es la falta de una representación 3D consciente de la escala capaz de generar y renderizar contenido con tamaños espaciales muy diferentes. WonderZoom aborda este problema mediante dos innovaciones clave: (1) *surfels* Gaussianos adaptativos a la escala para la generación y renderizado en tiempo real de escenas 3D multi-escala, y (2) un sintetizador de detalles progresivo que genera iterativamente contenidos 3D a escalas más finas. Nuestro enfoque permite a los usuarios "acercarse" a una región 3D y sintetizar de forma auto-regresiva detalles finos previamente inexistentes, desde paisajes hasta características microscópicas. Los experimentos demuestran que WonderZoom supera significativamente a los modelos de vanguardia de video y 3D tanto en calidad como en alineación, permitiendo la creación de mundos 3D multi-escala a partir de una sola imagen. Mostramos resultados en video y un visor interactivo de los mundos 3D multi-escala generados en https://wonderzoom.github.io/
Los modelos de lenguaje grandes de difusión (dLLMs) ofrecen una alternativa prometedora a los modelos autorregresivos, pero su utilidad práctica se ve severamente limitada por un muestreo lento e iterativo. Presentamos SchED, un algoritmo de salida temprana agnóstico al modelo y que no requiere entrenamiento, que agrega los márgenes de logits de span completo y detiene la decodificación una vez que se alcanza un umbral de confianza suave y dependiente del progreso. Evaluamos SchED en dos familias de dLLMs (Dream y LLaDA), en variantes base y ajustadas por instrucciones, a través de diez benchmarks que abarcan tareas posteriores como respuesta a preguntas de opción múltiple (MCQ), matemáticas, QA/resumen de texto largo y traducción. SchED proporciona aceleraciones grandes y estables: en modelos ajustados por instrucciones, logra aceleraciones de 3.8 a 4.0 veces manteniendo en promedio un 99.8-100% de la puntuación de referencia. En modelos base, SchED produce ganancias de aceleración consistentes con una retención del rendimiento del 99.1-100%, llegando hasta 2.34 veces bajo configuraciones más agresivas. Utilizando una métrica de velocidad conservadora que penaliza fuertemente la pérdida de calidad (QPS, γ=4), demostramos que SchED es robusto y supera claramente a métodos previos de salida temprana basados en confianza, que fallan en la generación de texto largo. Un análisis de la entropía de las predicciones de tokens del modelo revela que el ajuste por instrucciones acelera la disminución de la entropía predictiva. Al convertir la estabilización de la confianza genuina en ahorros computacionales, SchED hace que la decodificación de dLLMs sea sustancialmente más eficiente.
La edición de conocimientos tiene como objetivo actualizar hechos específicos en los grandes modelos de lenguaje (LLM) sin necesidad de un reentrenamiento completo. Esfuerzos previos buscaron ajustar las capas de conocimiento de los LLM, demostrando ser efectivos para realizar ediciones selectivas. Sin embargo, existe una brecha significativa entre su rendimiento en evaluaciones controladas con forzamiento del profesor y su efectividad en escenarios reales de aprendizaje continuo, lo que limita enormemente su aplicabilidad práctica. El análisis empírico de este trabajo revela dos problemas recurrentes asociados con esta brecha: (1) La mayoría de los métodos tradicionales llevan al modelo editado a un sobreajuste del nuevo hecho, degradando así las capacidades preentrenadas; (2) Existe una ausencia crítica de una etapa de consolidación del conocimiento, lo que deja los nuevos hechos insuficientemente integrados en el comportamiento del LLM durante la inferencia bajo generación autoregresiva, conduciendo así a una desconexión entre el conocimiento paramétrico y el comportamiento de generación real. Para ello, proponemos Editar-y-Consolidar, un nuevo paradigma de edición de conocimientos que busca cerrar la brecha entre los métodos teóricos de edición y su aplicabilidad en el mundo real. Específicamente, (1) nuestro marco mitiga el sobreajuste mediante el Ajuste Fino Supervisado Proximal Dirigido (TPSFT), que localiza la edición mediante un objetivo de región de confianza para limitar la deriva de la política; (2) Luego, una etapa de consolidación que utiliza la Optimización de Política Relativa Grupal (GRPO) alinea el conocimiento editado con la política de inferencia basada en CoT, optimizando el comportamiento a nivel de trayectoria bajo señales de recompensa integrales. Experimentos exhaustivos demuestran que nuestro marco mejora consistentemente la fiabilidad y generalización de la edición en evaluaciones del mundo real, preservando mejor la localidad y las capacidades preentrenadas.
Los agentes, sistemas basados en modelos de lenguaje (LM) capaces de razonar, planificar y actuar, se están convirtiendo en el paradigma dominante para las aplicaciones de IA del mundo real. A pesar de esta adopción generalizada, los principios que determinan su rendimiento siguen sin explorarse suficientemente, lo que lleva a los profesionales a depender de heurísticas en lugar de decisiones de diseño fundamentadas. Abordamos esta brecha derivando principios de escalado cuantitativos para sistemas de agentes. Evaluamos esto en cuatro benchmarks diversos: Finance-Agent, BrowseComp-Plus, PlanCraft y Workbench. Utilizando cinco arquitecturas canónicas (Única, Independiente, Centralizada, Descentralizada, Híbrida) instanciadas en tres familias de LLM, realizamos una evaluación controlada que abarca 180 configuraciones con herramientas y presupuestos de tokens estandarizados. Derivamos un modelo predictivo utilizando métricas empíricas de coordinación, incluyendo eficiencia, sobrecarga, amplificación de errores y redundancia, que alcanza un R² validado cruzadamente de 0.513. Identificamos tres efectos dominantes: (1) una compensación herramienta-coordinación: bajo presupuestos computacionales fijos, las tareas que requieren muchas herramientas sufren desproporcionadamente por la sobrecarga multiagente. (2) una saturación de capacidad: la coordinación produce rendimientos decrecientes o negativos (beta=-0.408, p<0.001) una vez que los baselines de agente único superan ~45%. (3) una amplificación de errores dependiente de la topología: los agentes independientes amplifican los errores 17.2 veces mediante propagación no verificada, mientras que la coordinación centralizada lo contiene a 4.4 veces. La coordinación centralizada mejora el rendimiento en un 80.9% en tareas paralelizables como el razonamiento financiero, mientras que la coordinación descentralizada sobresale en la navegación web dinámica (+9.2% vs. +0.2%). Sin embargo, para tareas de razonamiento secuencial, todas las variantes multiagente degradaron el rendimiento entre un 39% y un 70%. El marco predice la estrategia de coordinación óptima para el 87% de las configuraciones retenidas, proporcionando un principio predictivo de escalado agentivo basado en propiedades medibles de la tarea.
Basándose en el éxito de la representación de escenas 3D estáticas mediante Gaussian Splatting 3D (3DGS), su extensión a escenas dinámicas, comúnmente denominada 4DGS o 3DGS dinámico, ha atraído una atención creciente. Sin embargo, el diseño de esquemas de deformación más compactos y eficientes, junto con estrategias de compresión optimizadas por tasa-distorsión para representaciones dinámicas de 3DGS, sigue siendo un área poco explorada. Los métodos anteriores se basan en 4DGS espacio-temporales con primitivas gaussianas sobrespecificadas y de corta duración, o en 3DGS canónicos con deformación que carece de control temporal explícito. Para abordar esto, presentamos TED-4DGS, un esquema de deformación basado en incrustaciones y activación temporal para la compresión de 4DGS optimizada por tasa-distorsión que unifica las fortalezas de ambas familias. TED-4DGS se construye sobre una representación 3DGS canónica basada en anclajes dispersos. A cada anclaje canónico se le asignan parámetros de activación temporal entrenables para especificar sus transiciones de aparición y desaparición a lo largo del tiempo, mientras que una ligera incrustación temporal por anclaje consulta un banco de deformación compartido para producir una deformación específica del anclaje. Para la compresión tasa-distorsión, incorporamos un hiperprior basado en representación neuronal implícita (INR) para modelar las distribuciones de atributos de los anclajes, junto con un modelo autorregresivo por canales para capturar las correlaciones intra-anclaje. Con estos elementos novedosos, nuestro esquema logra un rendimiento estado del arte en tasa-distorsión en varios conjuntos de datos del mundo real. Hasta donde sabemos, este trabajo representa uno de los primeros intentos de desarrollar un marco de compresión optimizado por tasa-distorsión para representaciones dinámicas de 3DGS.
Los Modelos de Lenguaje de Difusión (a Gran Escala) (dLLMs) ahora igualan el rendimiento en tareas posteriores de sus contrapartes autorregresivas en muchas tareas, al mismo tiempo que prometen ser más eficientes durante la inferencia. Una variante particularmente exitosa es la difusión discreta enmascarada, en la que un búfer lleno de tokens de enmascaramiento especiales es reemplazado progresivamente por tokens muestreados del vocabulario del modelo. Se puede ganar eficiencia desenmascarando varios tokens en paralelo, pero hacer demasiados a la vez corre el riesgo de degradar la calidad de la generación. Por lo tanto, un aspecto de diseño crítico de los dLLMs es el procedimiento de muestreo que selecciona, en cada paso del proceso de difusión, qué tokens reemplazar. De hecho, trabajos recientes han encontrado que las estrategias heurísticas, como el umbral de confianza, conducen a una mayor calidad y rendimiento de tokens en comparación con el desenmascaramiento aleatorio. Sin embargo, tales heurísticas tienen desventajas: requieren ajuste manual, y observamos que su rendimiento se degrada con tamaños de búfer más grandes. En este trabajo, proponemos en cambio entrenar procedimientos de muestreo utilizando aprendizaje por refuerzo. Específicamente, formalizamos el muestreo de difusión enmascarada como un proceso de decisión de Markov en el que el dLLM sirve como entorno, y proponemos una arquitectura de política ligera basada en un transformador de una sola capa que mapea las confianzas de los tokens del dLLM a decisiones de desenmascaramiento. Nuestros experimentos muestran que estas políticas entrenadas igualan el rendimiento de las heurísticas más avanzadas cuando se combinan con generación semi-autorregresiva, al mismo tiempo que las superan en el escenario de difusión completo. También examinamos la transferibilidad de estas políticas, encontrando que pueden generalizarse a nuevos dLLMs subyacentes y longitudes de secuencia más largas. Sin embargo, también observamos que su rendimiento se degrada cuando se aplican a datos fuera de dominio, y que el ajuste fino del equilibrio entre precisión y eficiencia puede ser un desafío con nuestro enfoque.
Los recientes avances en modelos de lenguaje multimodal (MLLMs) han logrado progresos impresionantes en diversos benchmarks. Sin embargo, su capacidad para comprender imágenes infrarrojas permanece inexplorada. Para abordar esta brecha, presentamos IF-Bench, el primer benchmark de alta calidad diseñado para evaluar la comprensión multimodal de imágenes infrarrojas. IF-Bench consta de 499 imágenes obtenidas de 23 conjuntos de datos infrarrojos y 680 pares pregunta-respuesta visual cuidadosamente seleccionados, cubriendo 10 dimensiones esenciales de la comprensión de imágenes. Basándonos en este benchmark, evaluamos sistemáticamente más de 40 MLLMs de código abierto y cerrado, empleando estrategias de evaluación cíclica, evaluación bilingüe y juicio híbrido para mejorar la confiabilidad de los resultados. Nuestro análisis revela cómo la escala del modelo, la arquitectura y los paradigmas de inferencia afectan la comprensión de imágenes infrarrojas, proporcionando información valiosa para esta área. Además, proponemos un método de prompting visual generativo sin entrenamiento (GenViP), que aprovecha modelos avanzados de edición de imágenes para traducir imágenes infrarrojas en contrapartes RGB alineadas semántica y espacialmente, mitigando así los cambios de distribución de dominio. Experimentos extensos demuestran que nuestro método genera consistentemente mejoras significativas de rendimiento en una amplia gama de MLLMs. El benchmark y el código están disponibles en https://github.com/casiatao/IF-Bench.
La difusión autoregresiva (AR) permite la generación interactiva de vídeos largos en streaming mediante la producción causal de fotogramas; sin embargo, mantener la coherencia en escalas de minutos sigue siendo un desafío debido a los errores acumulados, la deriva del movimiento y la repetición de contenido. Abordamos este problema desde una perspectiva de memoria, tratando la síntesis de vídeo como un proceso dinámico recurrente que requiere contexto coordinado a corto y largo plazo. Proponemos VideoSSM, un Modelo de Vídeo Largo que unifica la difusión AR con una memoria híbrida de espacio de estados. El modelo de espacio de estados (SSM) actúa como una memoria global en evolución de la dinámica de la escena a lo largo de toda la secuencia, mientras que una ventana de contexto proporciona memoria local para indicaciones de movimiento y detalles finos. Este diseño híbrido preserva la coherencia global sin patrones congelados o repetitivos, admite interacción adaptable a prompts y escala en tiempo lineal con la longitud de la secuencia. Los experimentos en benchmarks de corto y largo alcance demuestran una coherencia temporal y estabilidad de movimiento de vanguardia entre los generadores de vídeo autoregresivos, especialmente en horizontes de escala de minutos, permitiendo diversidad de contenido y control interactivo basado en prompts, estableciendo así un marco escalable y consciente de la memoria para la generación de vídeos largos.
Los sistemas de texto a voz ligeros y en tiempo real son cruciales para la accesibilidad. Sin embargo, los modelos de TTS más eficientes suelen depender de fonetizadores ligeros que tienen dificultades con los desafíos dependientes del contexto. Por el contrario, los fonetizadores más avanzados, con una comprensión lingüística más profunda, normalmente conllevan altos costes computacionales, lo que impide el rendimiento en tiempo real. Este artículo examina la compensación entre la calidad de la fonetización y la velocidad de inferencia en sistemas de TTS asistidos por G2P, introduciendo un marco práctico para salvar esta brecha. Proponemos estrategias ligeras para la fonetización consciente del contexto y una arquitectura de TTS orientada a servicios que ejecuta estos módulos como servicios independientes. Este diseño desacopla los componentes pesados conscientes del contexto del motor central de TTS, rompiendo efectivamente la barrera de latencia y permitiendo el uso en tiempo real de modelos de fonetización de alta calidad. Los resultados experimentales confirman que el sistema propuesto mejora la solidez de la pronunciación y la precisión lingüística, manteniendo al mismo tiempo la capacidad de respuesta en tiempo real, lo que lo hace idóneo para aplicaciones de TTS fuera de línea y en dispositivos finales.
Para abordar la compensación entre robustez y rendimiento en los VLM robustos, observamos que las palabras funcionales pueden generar vulnerabilidad en los VLM frente a ataques adversarios cross-modales, y proponemos en consecuencia la Función de Desatención de Palabras Funcionales (FDA, por sus siglas en inglés) para mitigar el impacto de dichas palabras. De manera similar a los amplificadores diferenciales, nuestra FDA calcula la atención cruzada original y la de palabras funcionales dentro de las cabezas de atención, y resta diferencialmente la segunda de la primera para obtener VLM más alineados y robustos. Los experimentos exhaustivos incluyen 2 líneas base de última generación (SOTA) bajo 6 ataques diferentes en 2 tareas posteriores, 3 conjuntos de datos y 3 modelos. En general, nuestra FDA produce una reducción promedio del 18/13/53% en la Tasa de Éxito de Ataque (ASR) con caídas de rendimiento de solo 0,2/0,3/0,6% en los 3 modelos evaluados en recuperación, y una reducción del 90% en ASR con una ganancia de rendimiento del 0,3% en la tarea de anclaje visual. Demostramos experimentalmente la escalabilidad, generalización y rendimiento *zero-shot* de la FDA, así como estudios y análisis de ablación en profundidad. El código estará disponible públicamente en https://github.com/michaeltian108/FDA.
El diálogo clínico representa una dualidad compleja que requiere tanto la fluidez empática de la conversación natural como el rigor preciso de la medicina basada en la evidencia. Si bien los Modelos de Lenguaje a Gran Escala poseen capacidades lingüísticas sin precedentes, su dependencia arquitectónica en el procesamiento reactivo y sin estado a menudo favorece la plausibilidad probabilística sobre la veracidad fáctica. Esta limitación estructural ha catalizado un cambio de paradigma en la IA médica, pasando de la predicción generativa de texto a la autonomía agéntica, donde el modelo funciona como un motor de razonamiento central capaz de realizar planificación deliberada y mantener memoria persistente. Yendo más allá de las revisiones existentes que principalmente catalogan aplicaciones derivadas, este estudio proporciona un análisis de primeros principios de la arquitectura cognitiva que sustenta este cambio. Introducimos una taxonomía novedosa estructurada a lo largo de los ejes ortogonales de fuente de conocimiento y objetivo de agencia para delinear la procedencia del conocimiento clínico frente al alcance operativo del sistema. Este marco facilita un análisis sistemático de las compensaciones intrínsecas entre creatividad y fiabilidad al categorizar los métodos en cuatro arquetipos: Clínicos del Espacio Latente, Planificadores Emergentes, Sintetizadores Fundamentados y Automatizadores de Flujos de Trabajo Verificables. Para cada paradigma, deconstruimos la realización técnica a lo largo de toda la canalización cognitiva, abarcando la planificación estratégica, la gestión de la memoria, la ejecución de acciones, la colaboración y la evolución, para revelar cómo distintas elecciones arquitectónicas equilibran la tensión entre autonomía y seguridad.
Los recientes avances en generación de texto a vídeo han logrado un realismo notable, aunque el control detallado sobre el movimiento y orientación de la cámara sigue siendo esquivo. Los enfoques existentes suelen codificar trayectorias de cámara mediante representaciones relativas o ambiguas, lo que limita el control geométrico explícito. Presentamos GimbalDiffusion, un marco que permite el control de cámara basado en coordenadas del mundo físico, utilizando la gravedad como referencia global. En lugar de describir el movimiento relativo a fotogramas anteriores, nuestro método define trayectorias de cámara en un sistema de coordenadas absoluto, permitiendo un control preciso e interpretable de los parámetros de cámara sin requerir un fotograma de referencia inicial. Utilizamos vídeos panorámicos de 360 grados para construir una amplia variedad de trayectorias de cámara, que van mucho más allá de las trayectorias predominantemente rectas y frontales observadas en datos de vídeo convencionales. Para mejorar aún más la guía de cámara, introducimos el condicionamiento de inclinación nula, una estrategia de anotación que reduce la dependencia del modelo en el contenido textual cuando entra en conflicto con las especificaciones de cámara (por ejemplo, generar césped mientras la cámara apunta hacia el cielo). Finalmente, establecemos un punto de referencia para la generación de vídeo consciente de la cámara reequilibrando SpatialVID-HQ para una evaluación integral bajo amplia variación de inclinación de cámara. En conjunto, estas contribuciones avanzan la controlabilidad y robustez de los modelos de texto a vídeo, permitiendo una manipulación de cámara precisa y alineada con la gravedad dentro de marcos generativos.
La adquisición de hardware para la minería de Bitcoin requiere una sincronización estratégica debido a la volatilidad de los mercados, la rápida obsolescencia tecnológica y los ciclos de ingresos determinados por el protocolo. A pesar de que la minería ha evolucionado hacia una industria intensiva en capital, existe poca orientación sobre cuándo comprar nuevo hardware de Circuito Integrado de Aplicación Específica (ASIC), y ningún marco computacional previo aborda este problema de decisión. Abordamos esta brecha formulando la adquisición de hardware como una tarea de clasificación de series temporales, prediciendo si la compra de máquinas ASIC genera retornos rentables (Retorno de la Inversión (ROI) >= 1), marginales (0 < ROI < 1) o no rentables (ROI <= 0) dentro de un año. Proponemos MineROI-Net, una arquitectura de código abierto basada en Transformer diseñada para capturar patrones temporales multi-escala en la rentabilidad minera. Evaluado con datos de 20 mineros ASIC lanzados entre 2015 y 2024 en diversos regímenes de mercado, MineROI-Net supera a los baselines basados en LSTM y TSLANet, logrando un 83.7% de precisión y un 83.1% de puntuación F1 macro. El modelo demuestra una fuerte relevancia económica, alcanzando un 93.6% de precisión en la detección de períodos no rentables y un 98.5% de precisión para los rentables, evitando al mismo tiempo la clasificación errónea de escenarios rentables como no rentables y viceversa. Estos resultados indican que MineROI-Net ofrece una herramienta práctica y basada en datos para sincronizar las adquisiciones de hardware minero, reduciendo potencialmente el riesgo financiero en operaciones mineras intensivas en capital. El modelo está disponible en: https://github.com/AMAAI-Lab/MineROI-Net.