Artículos de investigación en IA seleccionados diariamente con traducciones
La generación molecular con modelos de difusión ha surgido como una dirección prometedora para el descubrimiento de fármacos y la ciencia de materiales impulsada por IA. Si bien los modelos de difusión en grafos han sido ampliamente adoptados debido a la naturaleza discreta de los grafos moleculares 2D, los modelos existentes adolecen de baja validez química y luchan por alcanzar las propiedades deseadas en comparación con el modelado 1D. En este trabajo, presentamos MolHIT, un potente marco de generación de grafos moleculares que supera las limitaciones de rendimiento persistentes en los métodos existentes. MolHIT se basa en el Modelo de Difusión Discreta Jerárquica, que generaliza la difusión discreta a categorías adicionales que codifican previos químicos, y en una codificación atómica desacoplada que separa los tipos de átomos según sus funciones químicas. En conjunto, MolHIT logra un nuevo rendimiento de vanguardia en el conjunto de datos MOSES con una validez casi perfecta por primera vez en la difusión de grafos, superando a sólidos baselines 1D en múltiples métricas. Además, demostramos un fuerte rendimiento en tareas posteriores, incluyendo la generación guiada por múltiples propiedades y la extensión de andamiajes moleculares.
El modelado de secuencias largas de comportamiento de usuarios se ha convertido en una frontera crítica en la recomendación generativa. Sin embargo, las soluciones existentes enfrentan un dilema: los mecanismos de atención lineal logran eficiencia a costa de la precisión de recuperación debido a una capacidad de estado limitada, mientras que la atención softmax sufre de una sobrecarga computacional prohibitiva. Para abordar este desafío, proponemos HyTRec, un modelo que presenta una arquitectura de Atención Híbrida que desacopla explícitamente las preferencias estables a largo plazo de los picos de intención a corto plazo. Al asignar secuencias históricas masivas a una rama de atención lineal y reservar una rama especializada de atención softmax para las interacciones recientes, nuestro enfoque restaura capacidades de recuperación precisas dentro de contextos de escala industrial que involucran decenas de miles de interacciones. Para mitigar el retraso en la captura de cambios rápidos de interés dentro de las capas lineales, además diseñamos la Red Delta con Conciencia Temporal (TADN) para ponderar dinámicamente las señales conductuales frescas mientras suprime efectivamente el ruido histórico. Los resultados empíricos en conjuntos de datos de escala industrial confirman la superioridad de nuestro modelo, que mantiene una velocidad de inferencia lineal y supera a los baselines sólidos, logrando notablemente una mejora de más del 8% en la Tasa de Aciertos para usuarios con secuencias ultra largas, con gran eficiencia.
SkyReels V4 es un modelo de base de video multimodal unificado para la generación, inpaintado y edición conjunta de video y audio. El modelo adopta una arquitectura de Transformador de Difusión Multimodal (MMDiT) de doble flujo, donde una rama sintetiza video y la otra genera audio temporalmente alineado, mientras comparten un potente codificador de texto basado en Modelos de Lenguaje Grandes Multimodales (MMLM). SkyReels V4 acepta instrucciones multimodales ricas, que incluyen texto, imágenes, clips de video, máscaras y referencias de audio. Al combinar la capacidad de seguimiento de instrucciones multimodales de los MMLM con el aprendizaje en contexto en la rama de video MMDiT, el modelo puede inyectar guía visual de grano fino bajo condicionamiento complejo, mientras que la rama de audio MMDiT aprovecha simultáneamente referencias de audio para guiar la generación de sonido. En el lado del video, adoptamos una formulación por concatenación de canales que unifica una amplia gama de tareas de estilo inpaintado, como imagen a video, extensión de video y edición de video bajo una única interfaz, y se extiende naturalmente al inpaintado y edición con referencia visual mediante prompts multimodales. SkyReels V4 soporta hasta resolución 1080p, 32 FPS y una duración de 15 segundos, permitiendo la generación de video de alta fidelidad, con múltiples planos y nivel cinematográfico con audio sincronizado. Para hacer que dicha generación de alta resolución y larga duración sea computacionalmente viable, introducimos una estrategia de eficiencia: generación conjunta de secuencias completas en baja resolución y fotogramas clave en alta resolución, seguida de modelos dedicados de superresolución e interpolación de fotogramas. Hasta donde sabemos, SkyReels V4 es el primer modelo de base de video que soporta simultáneamente entrada multimodal, generación conjunta de video y audio, y un tratamiento unificado de generación, inpaintado y edición, manteniendo una alta eficiencia y calidad en resoluciones y duraciones cinematográficas.
Los recientes avances en modelos fundacionales han revolucionado la generación conjunta de audio y vídeo. Sin embargo, los enfoques existentes suelen tratar las tareas centradas en el ser humano, incluyendo la generación audio-vídeo basada en referencia (R2AV), la edición de vídeo (RV2AV) y la animación de vídeo impulsada por audio (RA2V), como objetivos aislados. Además, lograr un control preciso y desenredado sobre múltiples identidades de personajes y timbres de voz dentro de un único marco de trabajo sigue siendo un desafío pendiente. En este artículo, proponemos DreamID-Omni, un marco unificado para la generación audio-vídeo controlable y centrada en el ser humano. Específicamente, diseñamos un Transformer de Difusión Condicional Simétrico que integra señales de condicionamiento heterogéneas mediante un esquema simétrico de inyección condicional. Para resolver los fallos generalizados de vinculación identidad-timbre y la confusión entre interlocutores en escenarios multipersona, introducimos una estrategia de Desenredado de Doble Nivel: RoPE Sincronizado a nivel de señal para garantizar una vinculación rígida en el espacio de atención, y Subtítulos Estructurados a nivel semántico para establecer mapeos explícitos entre atributos y sujetos. Además, ideamos un esquema de Entrenamiento Progresivo Multi-Tarea que aprovecha priors generativos débilmente restringidos para regularizar tareas fuertemente restringidas, evitando el sobreajuste y armonizando objetivos dispares. Experimentos exhaustivos demuestran que DreamID-Omni logra un rendimiento integral de vanguardia en vídeo, audio y consistencia audiovisual, superando incluso a los principales modelos comerciales propietarios. Liberaremos nuestro código para salvar la brecha entre la investigación académica y las aplicaciones de grado comercial.
El aprendizaje por refuerzo agéntico (ARL) ha ganado rápidamente atención como un paradigma prometedor para entrenar agentes que resuelvan tareas interactivas complejas y multi-etapa. A pesar de los alentadores resultados iniciales, el ARL sigue siendo altamente inestable, lo que a menudo conduce al colapso del entrenamiento. Esta inestabilidad limita la escalabilidad a entornos más grandes y horizontes de interacción más largos, y restringe la exploración sistemática de las opciones de diseño algorítmico. En este artículo, primero proponemos ARLArena, una receta de entrenamiento estable y un marco de análisis sistemático que examina la estabilidad del entrenamiento en un entorno controlado y reproducible. ARLArena construye primero un banco de pruebas limpio y estandarizado. Luego, descomponemos el gradiente de la política en cuatro dimensiones de diseño centrales y evaluamos el rendimiento y la estabilidad de cada dimensión. A través de este análisis de grano fino, destilamos una perspectiva unificada sobre el ARL y proponemos SAMPO, un método de optimización de políticas agénticas estable diseñado para mitigar las fuentes dominantes de inestabilidad en el ARL. Empíricamente, SAMPO logra un entrenamiento consistentemente estable y un fuerte rendimiento en diversas tareas agénticas. En general, este estudio proporciona una perspectiva unificada del gradiente de la política para el ARL y ofrece una guía práctica para construir pipelines de entrenamiento de agentes basados en LLM que sean estables y reproducibles.
Los modelos existentes de generación de video condicionada por acciones (modelos de mundo de video) se limitan a perspectivas de un solo agente, sin capturar las interacciones multiagente de los entornos del mundo real. Presentamos Solaris, un modelo de mundo de video multijugador que simula observaciones consistentes desde múltiples perspectivas. Para lograrlo, desarrollamos un sistema de datos multijugador diseñado para la recolección robusta, continua y automatizada de datos en videojuegos como Minecraft. A diferencia de plataformas anteriores creadas para entornos unijugador, nuestro sistema soporta interacción multiagente coordinada y captura sincronizada de videos y acciones. Utilizando este sistema, recolectamos 12.64 millones de frames multijugador y proponemos un marco de evaluación para consistencia de movimiento, memoria, fundamentación, construcción y perspectiva multijugador. Entrenamos Solaris mediante un pipeline escalonado que transita progresivamente del modelado unijugador al multijugador, combinando entrenamiento bidireccional, causal y de Autoforzado. En la etapa final, introducimos el Autoforzado con Puntos de Control, una variante eficiente en memoria del Autoforzado que permite un profesor de horizonte más largo. Los resultados muestran que nuestra arquitectura y diseño de entrenamiento superan a los baselines existentes. Al liberar nuestro sistema y modelos como código abierto, esperamos sentar las bases para una nueva generación de modelos de mundo multiagente.
El rendimiento de la inferencia de LLM agéntica de múltiples turnos está cada vez más dominado por las operaciones de E/S del almacenamiento de la caché KV, en lugar de por el cómputo. En las arquitecturas desagregadas predominantes, cargar la masiva caché KV desde el almacenamiento externo crea un desequilibrio fundamental: los NIC de almacenamiento en los motores de prellenado se saturan de ancho de banda, mientras que los de los motores de decodificación permanecen inactivos. Esta asimetría restringe severamente el rendimiento general del sistema. Presentamos DualPath, un sistema de inferencia que rompe este cuello de botella mediante la introducción de una carga de caché KV de doble vía. Más allá de la vía tradicional de almacenamiento-a-prellenado, DualPath habilita una nueva vía de almacenamiento-a-decodificación, en la cual la caché KV se carga en los motores de decodificación y luego se transfiere eficientemente a los motores de prellenado mediante RDMA a través de la red de cómputo. DualPath combina esta ruta de datos optimizada —que evita inherentemente la congestión de la red y evita interferencias con las comunicaciones de ejecución del modelo, críticas para la latencia— con un planificador global que equilibra dinámicamente la carga entre los motores de prellenado y decodificación. Nuestra evaluación en tres modelos con cargas de trabajo agénticas de producción demuestra que DualPath mejora el rendimiento de inferencia en modo offline hasta en 1.87 veces en nuestro sistema de inferencia interno. También puede mejorar el rendimiento del servicio online por un factor promedio de 1.96 veces sin violar el SLO.
Los agentes nativos de interfaz gráfica de usuario (GUI) de código abierto aún están por detrás de los sistemas de código cerrado en tareas de navegación de horizonte largo. Esta brecha surge de dos limitaciones: la escasez de datos de razonamiento de alta calidad alineados con acciones, y la adopción directa de pipelines genéricos de post-entrenamiento que pasan por alto los desafíos únicos de los agentes GUI. Identificamos dos problemas fundamentales en estas pipelines: (i) el SFT estándar con razonamiento CoT a menudo perjudica la capacidad de grounding, y (ii) el entrenamiento RLVR paso a paso enfrenta una verificabilidad parcial, donde múltiples acciones pueden ser correctas pero solo se utiliza una única acción demostrada para la verificación. Esto hace que las métricas paso a paso fuera de línea sean predictores débiles del éxito de la tarea en línea. En este trabajo, presentamos GUI-Libra, una receta de entrenamiento personalizada que aborda estos desafíos. Primero, para mitigar la escasez de datos de razonamiento alineados con acciones, introducimos una pipeline de construcción y filtrado de datos y publicamos un conjunto de datos curado de 81K instancias de razonamiento GUI. Segundo, para reconciliar el razonamiento con el grounding, proponemos un SFT consciente de la acción que mezcla datos de razonamiento-luego-acción y de acción directa, y repesca tokens para enfatizar la acción y el grounding. Tercero, para estabilizar el RL bajo verificabilidad parcial, identificamos la importancia pasada por alto de la regularización KL en RLVR y demostramos que una región de confianza KL es crítica para mejorar la predictibilidad fuera de línea a en línea; además, introducimos un escalado adaptativo al éxito para reducir el peso de los gradientes negativos no confiables. En diversos benchmarks web y móviles, GUI-Libra mejora consistentemente tanto la precisión paso a paso como la finalización de tareas de extremo a extremo. Nuestros resultados sugieren que un post-entrenamiento y una curación de datos cuidadosamente diseñados pueden desbloquear capacidades de resolución de tareas significativamente más fuertes sin una costosa recolección de datos en línea. Publicamos nuestro conjunto de datos, código y modelos para facilitar más investigaciones sobre el post-entrenamiento eficiente en datos para agentes GUI con capacidad de razonamiento.
Presentamos el Sphere Encoder, un marco generativo eficiente capaz de producir imágenes en un único pase hacia adelante y que compite con modelos de difusión de múltiples pasos utilizando menos de cinco etapas. Nuestro enfoque funciona aprendiendo un codificador que mapea imágenes naturales de manera uniforme sobre un espacio latente esférico, y un decodificador que mapea vectores latentes aleatorios de vuelta al espacio de imágenes. Entrenado únicamente mediante pérdidas de reconstrucción de imágenes, el modelo genera una imagen simplemente decodificando un punto aleatorio en la esfera. Nuestra arquitectura admite de forma natural la generación condicional, y el hacer un bucle con el codificador/decodificador unas pocas veces puede mejorar aún más la calidad de la imagen. En varios conjuntos de datos, el enfoque del sphere encoder produce un rendimiento competitivo con las difusiones de última generación, pero con una fracción mínima del coste de inferencia. La página del proyecto está disponible en https://sphere-encoder.github.io.
La AIGC se ha expandido rápidamente desde la generación de texto a imagen hacia la síntesis multimodal de alta calidad que abarca video y audio. En este contexto, la generación conjunta de audio y video (JAVG) ha surgido como una tarea fundamental que produce sonido e imagen sincronizados y semánticamente alineados a partir de descripciones textuales. Sin embargo, en comparación con modelos comerciales avanzados como Veo3, los métodos de código abierto existentes aún adolecen de limitaciones en la calidad de generación, la sincronía temporal y la alineación con las preferencias humanas. Para cerrar esta brecha, este artículo presenta JavisDiT++, un marco conciso pero potente para el modelado y optimización unificados de JAVG. En primer lugar, introducimos un diseño de mezcla de expertos por modalidad (MS-MoE) que permite una interacción eficaz entre modalidades mientras mejora la calidad de la generación unimodal. Luego, proponemos una estrategia de RoPE alineado temporalmente (TA-RoPE) para lograr una sincronización explícita a nivel de fotograma entre los tokens de audio y video. Además, desarrollamos un método de optimización directa de preferencias para audio-video (AV-DPO) para alinear las salidas del modelo con la preferencia humana en las dimensiones de calidad, consistencia y sincronía. Construido sobre Wan2.1-1.3B-T2V, nuestro modelo alcanza un rendimiento de vanguardia con apenas alrededor de 1 millón de entradas de entrenamiento público, superando significativamente a enfoques previos en evaluaciones tanto cualitativas como cuantitativas. Se han realizado exhaustivos estudios de ablación para validar la efectividad de nuestros módulos propuestos. Todo el código, modelo y conjunto de datos se publican en https://JavisVerse.github.io/JavisDiT2-page.
Los glifos vectoriales son las unidades atómicas de la tipografía digital, sin embargo, la mayoría de los flujos de trabajo basados en aprendizaje aún dependen de láminas de ejemplos cuidadosamente seleccionadas y de un postprocesado de rasterizado a vector, lo que limita la accesibilidad y la capacidad de edición. Presentamos VecGlypher, un modelo de lenguaje multimodal único que genera glifos vectoriales de alta fidelidad directamente a partir de descripciones textuales o imágenes de ejemplo. Dado un *prompt* de estilo, glifos de referencia opcionales y un carácter objetivo, VecGlypher emite de manera autoregresiva tokens de rutas SVG, evitando intermediarios de rasterizado y produciendo contornos editables y cerrados en un solo paso. Una receta de datos y entrenamiento consciente de la tipografía hace esto posible: (i) una etapa de continuación a gran escala con 39K fuentes Envato ruidosas para dominar la sintaxis SVG y la geometría de largo alcance, seguida de (ii) un post-entrenamiento con 2.5K fuentes Google anotadas por expertos, con etiquetas descriptivas y ejemplos, para alinear el lenguaje y la imaginería con la geometría; el preprocesado normaliza los marcos de coordenadas, canoniza las rutas, elimina duplicados de familias y cuantiza las coordenadas para una decodificación estable de secuencias largas. En una evaluación *out-of-distribution* (OOD) cruzada entre familias, VecGlypher supera sustancialmente tanto a los LLM de propósito general como a los baselines especializados en fuentes vectoriales para la generación basada únicamente en texto, mientras que la generación con referencia de imágenes alcanza un rendimiento state-of-the-art, con ganancias notables sobre DeepVecFont-v2 y DualVector. Las ablaciones muestran que la escala del modelo y la receta de dos etapas son críticas, y que la serialización con coordenadas absolutas produce la mejor geometría. VecGlypher reduce la barrera de entrada a la creación de fuentes al permitir a los usuarios diseñar con palabras o ejemplos, y proporciona una base escalable para futuras herramientas de diseño multimodal.
El aprovechamiento del modelado de observaciones futuras para facilitar la generación de acciones presenta una vía prometedora para mejorar las capacidades de los modelos Visión-Lenguaje-Acción (VLA). Sin embargo, los enfoques existentes tienen dificultades para encontrar un equilibrio entre mantener representaciones futuras eficientes y predecibles, y preservar suficiente información de grano fino para guiar una generación de acciones precisa. Para abordar esta limitación, proponemos WoG (World Guidance), un marco de trabajo que mapea observaciones futuras en condiciones compactas inyectándolas en la canalización de inferencia de acciones. Posteriormente, el modelo VLA se entrena para predecir simultáneamente estas condiciones comprimidas junto con las acciones futuras, logrando así un modelado mundial efectivo dentro del espacio de condiciones para la inferencia de acciones. Demostramos que modelar y predecir este espacio de condiciones no solo facilita la generación de acciones de grano fino, sino que también exhibe capacidades de generalización superiores. Además, aprende eficazmente a partir de una gran cantidad de videos de manipulación humana. Experimentos exhaustivos en entornos tanto de simulación como del mundo real validan que nuestro método supera significativamente a los métodos existentes basados en predicción futura. La página del proyecto está disponible en: https://selen-suyue.github.io/WoGNet/
La edición de imágenes basada en instrucciones ha logrado un éxito notable en la alineación semántica; sin embargo, los modelos más avanzados a menudo fallan al generar resultados físicamente plausibles cuando la edición implica dinámicas causales complejas, como la refracción o la deformación de materiales. Atribuimos esta limitación al paradigma dominante que trata la edición como un mapeo discreto entre pares de imágenes, el cual proporciona solo condiciones de contorno y deja la dinámica de transición subespecificada. Para abordar esto, reformulamos la edición consciente de la física como transiciones predictivas de estado físico e introducimos PhysicTran38K, un conjunto de datos a gran escala basado en vídeo que comprende 38.000 trayectorias de transición en cinco dominios físicos, construido mediante un pipeline de dos etapas de filtrado y anotación con conocimiento de restricciones. Sobre esta base de supervisión, proponemos PhysicEdit, un framework integral equipado con un mecanismo de pensamiento dual texto-visual. Combina un modelo Qwen2.5-VL congelado para el razonamiento físicamente fundamentado con consultas de transición entrenables que proporcionan guía visual adaptable por paso de tiempo a un modelo de difusión subyacente. Los experimentos muestran que PhysicEdit mejora a Qwen-Image-Edit en un 5.9% en realismo físico y un 10.1% en edición basada en conocimiento, estableciendo un nuevo estado del arte para los métodos de código abierto, mientras se mantiene competitivo con los modelos propietarios líderes.
Hepatocellular Carcinoma diagnosis relies heavily on the interpretation of gigapixel Whole Slide Images. However, current computational approaches are constrained by fixed-resolution processing mechanisms and inefficient feature aggregation, which inevitably lead to either severe information loss or high feature redundancy. To address these challenges, we propose Hepato-LLaVA, a specialized Multi-modal Large Language Model designed for fine-grained hepatocellular pathology analysis. We introduce a novel Sparse Topo-Pack Attention mechanism that explicitly models 2D tissue topology. This mechanism effectively aggregates local diagnostic evidence into semantic summary tokens while preserving global context. Furthermore, to overcome the lack of multi-scale data, we present HepatoPathoVQA, a clinically grounded dataset comprising 33K hierarchically structured question-answer pairs validated by expert pathologists. Our experiments demonstrate that Hepato-LLaVA achieves state-of-the-art performance on HCC diagnosis and captioning tasks, significantly outperforming existing methods. Our code and implementation details are available at https://pris-cv.github.io/Hepto-LLaVA/.
¿Cómo saben los grandes modelos de lenguaje (LLMs) lo que saben? Responder a esta pregunta ha sido difícil porque los datos de preentrenamiento suelen ser una "caja negra" —desconocidos o inaccesibles. El reciente lanzamiento de nanochat —una familia de LLMs pequeños con datos de preentrenamiento completamente abiertos— aborda este problema al proporcionar una visión transparente sobre el origen del conocimiento paramétrico de un modelo. Con el objetivo de comprender cómo los LLMs codifican el conocimiento, presentamos NanoKnow, un dataset de referencia que divide preguntas de Natural Questions y SQuAD en segmentos según si sus respuestas están presentes o no en el corpus de preentrenamiento de nanochat. Utilizando estos segmentos, ahora podemos desentrañar adecuadamente las fuentes de conocimiento en las que los LLMs se basan al producir una salida. Para demostrar la utilidad de NanoKnow, realizamos experimentos utilizando ocho puntos de control de nanochat. Nuestros hallazgos muestran que: (1) la precisión en modo de libro cerrado está fuertemente influenciada por la frecuencia de la respuesta en los datos de preentrenamiento, (2) proporcionar evidencia externa puede mitigar esta dependencia de la frecuencia, (3) incluso con evidencia externa, los modelos son más precisos cuando las respuestas se vieron durante el preentrenamiento, lo que demuestra que el conocimiento paramétrico y el externo son complementarios, y (4) la información no relevante es perjudicial, ya que la precisión disminuye según la posición y la cantidad de contextos no relevantes. Publicamos todos los artefactos de NanoKnow en https://github.com/castorini/NanoKnow.
Los modelos de difusión son una base sólida para la generación visual, pero su proceso inherentemente secuencial de eliminación de ruido conduce a una inferencia lenta. Métodos anteriores aceleran el muestreo almacenando en caché y reutilizando salidas intermedias basadas en distancias de características entre intervalos de tiempo adyacentes. Sin embargo, las estrategias de caché existentes generalmente dependen de diferencias brutas de características que entrelazan contenido y ruido. Este diseño pasa por alto la evolución espectral, donde la estructura de baja frecuencia aparece temprano y el detalle de alta frecuencia se refina posteriormente. Introducimos Spectral-Evolution-Aware Cache (SeaCache), un programa de caché libre de entrenamiento que basa las decisiones de reutilización en una representación alineada espectralmente. Mediante análisis teórico y empírico, derivamos un filtro Consciente de la Evolución Espectral (SEA) que preserva los componentes relevantes para el contenido mientras suprime el ruido. Emplear características de entrada filtradas por SEA para estimar la redundancia conduce a programas dinámicos que se adaptan al contenido respetando los principios espectrales subyacentes al modelo de difusión. Experimentos exhaustivos en diversos modelos generativos visuales y líneas base demuestran que SeaCache logra compensaciones estado del arte entre latencia y calidad.
Los métodos recientes de Dropout en 3D Gaussian Splatting (3DGS) abordan el sobreajuste en condiciones de vistas escasas anulando aleatoriamente las opacidades Gaussianas. Sin embargo, identificamos un efecto de compensación vecinal en estos enfoques: las Gaussianas eliminadas a menudo son compensadas por sus vecinas, debilitando la regularización pretendida. Además, estos métodos pasan por alto la contribución de los coeficientes de armónicos esféricos (SH) de alto grado al sobreajuste. Para abordar estos problemas, proponemos DropAnSH-GS, una novedosa estrategia de Dropout basada en anclajes. En lugar de eliminar Gaussianas de forma independiente, nuestro método selecciona aleatoriamente ciertas Gaussianas como anclajes y elimina simultáneamente sus vecinas espaciales. Esto interrumpe efectivamente las redundancias locales cerca de los anclajes y fomenta que el modelo aprenda representaciones más robustas e informadas globalmente. Además, extendemos el Dropout a los atributos de color eliminando aleatoriamente los SH de mayor grado para concentrar la información de apariencia en los SH de menor grado. Esta estrategia mitiga aún más el sobreajuste y permite una compresión flexible del modelo después del entrenamiento mediante truncamiento de SH. Los resultados experimentales demuestran que DropAnSH-GS supera sustancialmente a los métodos de Dropout existentes con un overhead computacional insignificante, y puede integrarse fácilmente en varias variantes de 3DGS para mejorar su rendimiento. Sitio web del proyecto: https://sk-fun.fun/DropAnSH-GS
Los modelos de difusión discretos han surgido como alternativas sólidas a los modelos de lenguaje autorregresivos, con trabajos recientes que inicializan y ajustan un modelo base unimodal para la generación bimodal. A diferencia de enfoques anteriores, presentamos el primer modelo de difusión enmascarado trimodal preentrenado desde cero con datos de texto, imagen-texto y audio-texto. Analizamos sistemáticamente las leyes de escalado multimodal, las proporciones de mezcla de modalidades, los programas de ruido y los efectos del tamaño del lote, y proporcionamos valores predeterminados optimizados para el muestreo en inferencia. Nuestro análisis del tamaño del lote produce una nueva reparametrización basada en ecuaciones diferenciales estocásticas (SDE) que elimina la necesidad de ajustar el tamaño óptimo del lote, como se informa en trabajos recientes. Esta reparametrización desacopla el tamaño físico del lote, a menudo elegido en función de restricciones computacionales (saturación de GPU, eficiencia de FLOPs, tiempo de ejecución), del tamaño lógico del lote, elegido para equilibrar la varianza del gradiente durante la optimización estocástica. Finalmente, preentrenamos un modelo trimodal preliminar de 3B de parámetros con 6.4T de tokens, demostrando las capacidades de un diseño unificado y logrando resultados sólidos en generación de texto, tareas de texto a imagen y tareas de texto a voz. Nuestro trabajo representa el estudio abierto sistemático a mayor escala de modelos de difusión discreta multimodal realizado hasta la fecha, proporcionando información sobre los comportamientos de escalado en múltiples modalidades.
La investigación profunda ha surgido como una tarea importante que busca abordar consultas complejas mediante una exploración extensiva de la web abierta. Para abordarla, la mayoría de los trabajos previos equipan a agentes basados en modelos de lenguaje grande (LLM) con APIs opacas de búsqueda web, permitiendo a los agentes emitir consultas de búsqueda de forma iterativa, recuperar evidencia externa y razonar sobre ella. A pesar del papel esencial de la búsqueda en la investigación profunda, las APIs de búsqueda web de caja negra dificultan el análisis sistemático de los componentes de búsqueda, dejando en gran medida poco claro el comportamiento de los métodos establecidos de clasificación de texto en este contexto. Para llenar este vacío, reproducimos una selección de hallazgos clave y mejores prácticas para los métodos de clasificación de texto de RI en el entorno de investigación profunda. En particular, examinamos su efectividad desde tres perspectivas: (i) unidades de recuperación (documentos vs. pasajes), (ii) configuraciones de pipeline (diferentes recuperadores, re-clasificadores y profundidades de re-clasificación), y (iii) características de las consultas (el desajuste entre las consultas emitidas por el agente y las consultas de entrenamiento de los clasificadores de texto). Realizamos experimentos en BrowseComp-Plus, un conjunto de datos de investigación profunda con un corpus fijo, evaluando 2 agentes de código abierto, 5 recuperadores y 3 re-clasificadores en diversas configuraciones. Encontramos que las consultas emitidas por los agentes generalmente siguen una sintaxis de estilo búsqueda-web (por ejemplo, coincidencias exactas entre comillas), favoreciendo a los recuperadores léxicos, de dispersión aprendida y multivectoriales; las unidades a nivel de pasaje son más eficientes bajo ventanas de contexto limitadas y evitan las dificultades de normalización de longitud de documento en la recuperación léxica; la re-clasificación es altamente efectiva; traducir las consultas emitidas por los agentes a preguntas en lenguaje natural reduce significativamente el desajuste de consultas.
El Model Context Protocol (MCP) introduce una especificación estándar que define cómo los agentes basados en Modelos Fundacionales (FM) deben interactuar con sistemas externos mediante la invocación de herramientas. Sin embargo, para comprender el propósito y las características de una herramienta, los FM dependen de descripciones de herramientas en lenguaje natural, lo que convierte a estas descripciones en un componente crítico para guiar a los FM a seleccionar la herramienta óptima para una (sub)tarea dada y pasar los argumentos correctos a la herramienta. Si bien los defectos o "malos olores" (*smells*) en estas descripciones pueden desorientar a los agentes basados en FM, su prevalencia y consecuencias en el ecosistema MCP siguen sin estar claras. Por lo tanto, examinamos empíricamente 856 herramientas distribuidas en 103 servidores MCP, evaluamos la calidad de sus descripciones y su impacto en el rendimiento del agente. Identificamos seis componentes de las descripciones de herramientas a partir de la literatura, desarrollamos una rúbrica de puntuación utilizando estos componentes y luego formalizamos los "malos olores" en las descripciones de herramientas basándonos en esta rúbrica. Al operacionalizar esta rúbrica mediante un escáner basado en FM, encontramos que el 97.1% de las descripciones de herramientas analizadas contienen al menos un "mal olor", y el 56% no logra enunciar su propósito con claridad. Si bien aumentar (*augmenting*) estas descripciones para todos los componentes mejora las tasas de éxito de las tareas en una mediana de 5.85 puntos porcentuales y mejora la finalización parcial de objetivos en un 15.12%, también aumenta el número de pasos de ejecución en un 67.46% y empeora el rendimiento en el 16.67% de los casos. Estos resultados indican que lograr ganancias de rendimiento no es sencillo; si bien el costo de ejecución puede actuar como una compensación (*trade-off*), el contexto de ejecución también puede influir. Además, las ablaciones de componentes muestran que las variantes compactas de diferentes combinaciones de componentes a menudo preservan la confiabilidad del comportamiento mientras reducen la sobrecarga innecesaria de *tokens*, permitiendo un uso más eficiente de la ventana de contexto del FM y costos de ejecución más bajos.
Los modelos de video de base pretenden integrar la comprensión, generación, edición y seguimiento de instrucciones de video dentro de un único marco, posicionándose como una dirección central para los sistemas multimodales de próxima generación. Sin embargo, los puntos de referencia de evaluación existentes siguen estando fragmentados y son limitados en alcance, ya que cada uno se centra en una única tarea, depende de métricas específicas y generalmente utiliza clips de video cortos o simples. Como resultado, no capturan las capacidades unificadas que estos modelos están diseñados para ofrecer. Para abordar esta brecha, presentamos UniVBench, un punto de referencia creado específicamente para evaluar modelos de video de base en cuatro capacidades centrales: comprensión de video, generación de video, edición de video y una tarea recién propuesta, la reconstrucción de video, que evalúa la fidelidad con la que un modelo puede reproducir contenido de video que ha encontrado. Nuestro benchmark expande sustancialmente la complejidad de la evaluación al incorporar 200 videos de alta calidad, diversos y con múltiples planos, cada uno acompañado de descripciones detalladas, instrucciones de edición en múltiples formatos e imágenes de referencia. Todos los videos son creados por humanos y cuidadosamente validados, ofreciendo información cinematográfica más rica que los puntos de referencia anteriores. Además, desarrollamos un sistema de evaluación agentico unificado (UniV-Eval) que estandariza la creación de prompts, el análisis de instrucciones y la puntuación en todas las tareas, permitiendo comparaciones justas, escalables y reproducibles de modelos de video unificados. Al basar la evaluación en tareas de video con múltiples planos basadas en instrucciones, UniVBench proporciona el primer marco para medir las capacidades integradas que los modelos de video de base pretenden alcanzar. Las extensas anotaciones humanas garantizan que nuestra evaluación se alinee con el criterio humano, permitiendo una evaluación rigurosa y acelerando el progreso hacia una inteligencia de video robusta.
Evaluamos sistemáticamente la calidad de los conjuntos de datos de seguridad de IA ampliamente utilizados desde dos perspectivas: de forma aislada y en la práctica. De forma aislada, examinamos hasta qué punto estos conjuntos de datos reflejan los ataques adversarios del mundo real basándonos en tres propiedades clave: estar impulsados por una intención oculta, estar bien elaborados y ser fuera de distribución. Encontramos que estos conjuntos de datos dependen en exceso de "indicadores desencadenantes": palabras o frases con connotaciones negativas/sensibles explícitas destinadas a activar los mecanismos de seguridad de manera explícita, lo cual no es realista en comparación con los ataques del mundo real. En la práctica, evaluamos si estos conjuntos de datos miden genuinamente los riesgos de seguridad o simplemente provocan rechazos mediante indicadores desencadenantes. Para explorar esto, introducimos el "lavado de intención": un procedimiento que abstrae los indicadores desencadenantes de los ataques adversarios (puntos de datos) preservando estrictamente su intención maliciosa y todos los detalles relevantes. Nuestros resultados indican que los conjuntos de datos actuales de seguridad de IA no representan fielmente el comportamiento adversario del mundo real debido a su excesiva dependencia de los indicadores desencadenantes. Una vez que se eliminan estos indicadores, todos los modelos previamente evaluados como "razonablemente seguros" se vuelven inseguros, incluidos Gemini 3 Pro y Claude Sonnet 3.7. Además, cuando el lavado de intención se adapta como técnica de *jailbreaking*, logra consistentemente altas tasas de éxito de ataque, que oscilan entre el 90% y más del 98%, bajo un acceso completamente de caja negra. En general, nuestros hallazgos exponen una desconexión significativa entre cómo se evalúa la seguridad de los modelos mediante los conjuntos de datos existentes y cómo se comportan los adversarios en el mundo real.
La alucinación de objetos es un problema crítico en los Grandes Modelos de Visión y Lenguaje (LVLM, por sus siglas en inglés), donde las salidas incluyen objetos que no aparecen en la imagen de entrada. De este fenómeno surge una pregunta natural: ¿Qué componente de la pipeline de un LVLM contribuye principalmente a las alucinaciones de objetos? ¿El codificador visual para percibir información visual, o el decodificador de lenguaje para generar respuestas de texto? En este trabajo, nos esforzamos por responder a esta pregunta mediante el diseño de un experimento sistemático para analizar los roles del codificador visual y del decodificador de lenguaje en la generación de alucinaciones. Nuestras observaciones revelan que las alucinaciones de objetos están predominantemente asociadas con los fuertes *priors* del decodificador de lenguaje. Basándonos en este hallazgo, proponemos un marco simple y que no requiere entrenamiento, el Decodificador de No-Alucinación de Lenguaje (NoLan), que refina la distribución de salida mediante la supresión dinámica de los *priors* lingüísticos, modulada en función de la diferencia en la distribución de salida entre las entradas multimodales y las entradas de solo texto. Los resultados experimentales demuestran que NoLan reduce eficazmente las alucinaciones de objetos en varios LVLM en diferentes tareas. Por ejemplo, NoLan logra mejoras sustanciales en POPE, aumentando la precisión de LLaVA-1.5 7B y Qwen-VL 7B hasta en 6.45 y 7.21 puntos, respectivamente. El código está disponible públicamente en: https://github.com/lingfengren/NoLan.
Los actuales modelos de lenguaje de gran tamaño audiovisual (AV-LLM) se limitan predominantemente a la percepción 2D, dependiendo de vídeo RGB y audio monoaural. Esta elección de diseño introduce una discrepancia fundamental de dimensionalidad que impide una localización fiable de fuentes y un razonamiento espacial en entornos 3D complejos. Abordamos esta limitación presentando JAEGER, un marco que extiende los AV-LLM al espacio 3D para permitir una fundamentación y razonamiento espacial conjuntos mediante la integración de observaciones RGB-D y ambisonics multicanal de primer orden. Una contribución central de nuestro trabajo es el vector de intensidad neuronal (Neural IV), una representación de audio espacial aprendida que codifica indicaciones direccionales robustas para mejorar la estimación de la dirección de llegada, incluso en escenarios acústicos adversos con fuentes superpuestas. Para facilitar el entrenamiento a gran escala y la evaluación sistemática, proponemos SpatialSceneQA, un benchmark de 61k muestras de ajuste por instrucciones seleccionadas de entornos físicos simulados. Experimentos exhaustivos demuestran que nuestro enfoque supera consistentemente a los baselines centrados en 2D en diversas tareas de percepción y razonamiento espacial, subrayando la necesidad de un modelado 3D explícito para avanzar en la IA en entornos físicos. Nuestro código fuente, puntos de control de modelos preentrenados y conjuntos de datos se publicarán tras la aceptación.
El análisis de datos de series temporales no estacionarias requiere comprender sus patrones locales y globales con interpretabilidad física. Sin embargo, los algoritmos de suavizado tradicionales, como los B-splines, el filtrado de Savitzky-Golay y la Descomposición Modal Empírica (EMD), carecen de la capacidad de realizar una optimización paramétrica con continuidad garantizada. En este artículo, proponemos la Descomposición Continua Funcional (FCD), un marco acelerado con JAX que realiza una optimización paramétrica y continua sobre una amplia gama de funciones matemáticas. Al utilizar la optimización de Levenberg-Marquardt para lograr un ajuste continuo de hasta C^1, FCD transforma los datos brutos de series temporales en M modos que capturan diferentes patrones temporales, desde tendencias a corto hasta largo plazo. Las aplicaciones de FCD incluyen la física, la medicina, el análisis financiero y el aprendizaje automático, donde se utiliza comúnmente para el análisis de patrones temporales de señales, parámetros optimizados, derivadas e integrales de la descomposición. Además, FCD puede aplicarse para el análisis físico y la extracción de características, con un SRMSE promedio de 0.735 por segmento y una velocidad de 0.47s en la descomposición completa de 1.000 puntos. Finalmente, demostramos que una Red Neuronal Convolucional (CNN) mejorada con características de FCD, como valores de función optimizados, parámetros y derivadas, logró una convergencia un 16.8% más rápida y una precisión un 2.5% mayor en comparación con una CNN estándar.
La extracción de información clínica de transcripciones médicas en lenguajes de bajos recursos sigue siendo un desafío significativo en el procesamiento del lenguaje natural (PLN) para la salud. Este estudio evalúa un pipeline de dos pasos que combina Aya-expanse-8B como modelo de traducción persa-inglés con cinco modelos de lenguaje pequeños (SLM) de código abierto —Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct y Gemma-3-1B-it— para la extracción binaria de 13 características clínicas a partir de 1.221 transcripciones anónimas en persa recopiladas en un centro de llamadas de cuidados paliativos oncológicos. Utilizando una estrategia de *few-shot prompting* sin ajuste fino, los modelos se evaluaron según la puntuación F1 macro-promediada, el coeficiente de correlación de Matthews (MCC), la sensibilidad y la especificidad para tener en cuenta el desequilibrio de clases. Qwen2.5-7B-Instruct logró el mayor rendimiento general (mediana de F1 macro: 0,899; MCC: 0,797), mientras que Gemma-3-1B-it mostró los resultados más débiles. Los modelos más grandes (7B-8B parámetros) superaron consistentemente a sus contrapartes más pequeñas en sensibilidad y MCC. Un análisis bilingüe de Aya-expanse-8B reveló que traducir las transcripciones del persa al inglés mejoró la sensibilidad, redujo las salidas faltantes e incrementó las métricas robustas al desequilibrio de clases, aunque a costa de una especificidad y precisión ligeramente menores. Los resultados a nivel de característica mostraron una extracción confiable de síntomas fisiológicos en la mayoría de los modelos, mientras que las quejas psicológicas, las solicitudes administrativas y las características somáticas complejas siguieron siendo un reto. Estos hallazgos establecen un plan práctico y que preserva la privacidad para implementar SLM de código abierto en entornos clínicos multilingües de PLN con infraestructura y recursos de anotación limitados, y destacan la importancia de optimizar conjuntamente la escala del modelo y la estrategia de lenguaje de entrada para aplicaciones sanitarias sensibles.
Se ha reportado que los modelos de lenguaje grandes (LLM) codifican linealmente la veracidad, sin embargo, trabajos recientes cuestionan la generalidad de este hallazgo. Reconciliamos estas posturas con la hipótesis del espectro de veracidad: el espacio representacional contiene direcciones que van desde lo ampliamente general por dominio hasta lo estrechamente específico por dominio. Para probar esta hipótesis, evaluamos sistemáticamente la generalización de sondas a través de cinco tipos de verdad (definicional, empírica, lógica, ficticia y ética), la mentira sicofántica y por inversión de expectativas, y benchmarks existentes de honestidad. Las sondas lineales generalizan bien en la mayoría de los dominios, pero fallan en la mentira sicofántica y por inversión de expectativas. No obstante, el entrenamiento conjunto en todos los dominios recupera un rendimiento sólido, confirmando que existen direcciones generales por dominio a pesar de una pobre transferencia por pares. La geometría de las direcciones de las sondas explica estos patrones: la similitud del coseno de Mahalanobis entre sondas predice casi a la perfección la generalización cruzada de dominios (R^2=0.98). Los métodos de borrado de conceptos aíslan además direcciones de verdad que son (1) generales por dominio, (2) específicas por dominio, o (3) compartidas solo a través de subconjuntos particulares de dominios. Las intervenciones causales revelan que las direcciones específicas por dominio son más efectivas para guiar el modelo que las generales por dominio. Finalmente, el post-entrenamiento remodela la geometría de la verdad, alejando la mentira sicofántica de otros tipos de verdad, lo que sugiere una base representacional para las tendencias sicofánticas de los modelos de chat. En conjunto, nuestros resultados respaldan la hipótesis del espectro de veracidad: direcciones de verdad de variada generalidad coexisten en el espacio representacional, y el post-entrenamiento remodela su geometría. El código para todos los experimentos se proporciona en https://github.com/zfying/truth_spec.
Presentamos ISO-Bench, un punto de referencia para agentes de programación que evalúa sus capacidades en tareas de optimización de inferencia del mundo real. Estas tareas se han extraído de vLLM y SGLang, dos de los frameworks de servicio de LLM más populares. Cada tarea proporciona al agente una base de código y una descripción del cuello de botella, mediante la cual el agente debe producir un parche de optimización que se evalúa comparándolo con soluciones humanas expertas. Seleccionamos 54 tareas a partir de *pull requests* fusionados que mostraban mejoras de rendimiento medibles. Si bien los puntos de referencia existentes utilizan en gran medida métricas basadas en tiempo de ejecución, dichos enfoques pueden ser manipulados para superar las pruebas sin capturar la intención real de los cambios en el código. Por lo tanto, combinamos métricas duras (basadas en la ejecución) y blandas (basadas en LLM) para demostrar que ambas son necesarias para una evaluación completa. Al evaluar agentes de programación tanto propietarios como de código abierto, encontramos que ningún agente domina en todas las bases de código. Sorprendentemente, los agentes a menudo identifican los cuellos de botella correctos, pero no logran ejecutar soluciones funcionales. También demostramos que los agentes con modelos subyacentes idénticos difieren sustancialmente, lo que sugiere que el *scaffolding* es tan importante como el modelo.
Nuestro objetivo es aprender una representación conjunta entre las señales de unidades de medición inercial (IMU) y las secuencias de poses 2D extraídas de video, permitiendo una recuperación cruzada multimodal precisa, sincronización temporal, localización de sujetos y partes del cuerpo, y reconocimiento de acciones. Para ello, presentamos MoBind, un marco de aprendizaje contrastivo jerárquico diseñado para abordar tres desafíos: (1) filtrar el fondo visual irrelevante, (2) modelar configuraciones estructuradas de IMU multi-sensor, y (3) lograr una alineación temporal fina, a nivel de sub-segundo. Para aislar las claves relevantes para el movimiento, MoBind alinea las señales de IMU con secuencias de movimiento esquelético en lugar de píxeles en bruto. Además, descomponemos el movimiento corporal completo en trayectorias locales de partes del cuerpo, emparejando cada una con su IMU correspondiente para permitir una alineación multi-sensor semánticamente fundamentada. Para capturar la correspondencia temporal detallada, MoBind emplea una estrategia contrastiva jerárquica que primero alinea segmentos temporales a nivel de *token*, luego fusiona la alineación local (partes del cuerpo) con una agregación global de movimiento (de todo el cuerpo). Evaluado en mRi, TotalCapture y EgoHumans, MoBind supera consistentemente a los métodos de referencia sólidos en las cuatro tareas, demostrando una alineación temporal fina robusta mientras preserva la coherencia semántica general entre modalidades. El código está disponible en https://github.com/bbvisual/MoBind.
Los modelos de difusión han surgido recientemente como potentes distribuciones previas para resolver problemas inversos. Si bien la tomografía computarizada (TC) es teóricamente un problema inverso lineal, plantea numerosos desafíos prácticos. Entre ellos se incluyen ruido correlacionado, estructuras de artefactos, dependencia de la geometría del sistema y rangos de valores desalineados, lo que dificulta la aplicación directa de modelos de difusión en comparación con dominios como la generación de imágenes naturales. Para evaluar sistemáticamente el rendimiento de los modelos de difusión en este contexto y compararlos con métodos de reconstrucción establecidos, presentamos DM4CT, un benchmark integral para la reconstrucción de TC. DM4CT incluye conjuntos de datos de los ámbitos médico e industrial con configuraciones de vistas escasas y ruidosas. Para explorar los desafíos de implementar modelos de difusión en la práctica, adquirimos adicionalmente un conjunto de datos de TC de alta resolución en una instalación de sincrotrón de alta energía y evaluamos todos los métodos en condiciones experimentales reales. Evaluamos diez métodos recientes basados en difusión junto con siete líneas de base sólidas, incluyendo enfoques basados en modelos, no supervisados y supervisados. Nuestro análisis proporciona información detallada sobre el comportamiento, fortalezas y limitaciones de los modelos de difusión para la reconstrucción de TC. El conjunto de datos del mundo real está disponible públicamente en zenodo.org/records/15420527, y la base de código es de código abierto en github.com/DM4CT/DM4CT.
La detección de sarcasmo representa un desafío fundamental en la semántica computacional, ya que requiere que los modelos resuelvan las disparidades entre el significado literal y la intención comunicativa. Este desafío se amplifica en lenguas de recursos limitados donde los conjuntos de datos anotados son escasos o inexistentes. Presentamos Yor-Sarc, el primer conjunto de datos de referencia para la detección de sarcasmo en yorùbá, una lengua tonal de la familia Níger-Congo hablada por más de 50 millones de personas. El conjunto de datos comprende 436 instancias anotadas por tres hablantes nativos de diversos antecedentes dialectales, utilizando un protocolo de anotación específicamente diseñado para el sarcasmo en yorùbá que considera aspectos culturales. Este protocolo incorpora una interpretación sensible al contexto y directrices informadas por la comunidad, y está acompañado de un análisis exhaustivo del acuerdo interanotador para apoyar la replicación en otras lenguas africanas. Se logró un acuerdo sustancial a casi perfecto (κ de Fleiss = 0.7660; κ de Cohen por pares = 0.6732–0.8743), con un 83.3% de consenso unánime. Un par de anotadores alcanzó un acuerdo casi perfecto (κ = 0.8743; acuerdo bruto del 93.8%), superando varios referentes reportados en investigaciones sobre sarcasmo en inglés. El 16.7% restante de casos con acuerdo mayoritario se conserva como etiquetas blandas para modelado consciente de la incertidumbre. Se espera que Yor-Sarc https://github.com/toheebadura/yor-sarc facilite la investigación sobre interpretación semántica y PLN culturalmente informado para lenguas africanas de recursos limitados.