Artículos de investigación en IA seleccionados diariamente con traducciones
Los métodos existentes de estimación de profundidad están fundamentalmente limitados a predecir la profundidad en cuadrículas de imagen discretas. Dichas representaciones restringen su escalabilidad a resoluciones de salida arbitrarias y dificultan la recuperación de detalles geométricos. Este artículo presenta InfiniDepth, que representa la profundidad como campos implícitos neuronales. Mediante un decodificador implícito local simple pero efectivo, podemos consultar la profundidad en coordenadas 2D continuas, permitiendo una estimación de profundidad de resolución arbitraria y grano fino. Para evaluar mejor las capacidades de nuestro método, hemos creado un benchmark sintético de alta calidad en 4K a partir de cinco videojuegos diferentes, abarcando escenas diversas con ricos detalles geométricos y de apariencia. Experimentos exhaustivos demuestran que InfiniDepth logra un rendimiento de vanguardia en benchmarks sintéticos y del mundo real en tareas de estimación de profundidad relativa y métrica, destacando especialmente en regiones de detalle fino. También beneficia la tarea de síntesis de nuevas vistas bajo grandes cambios de perspectiva, produciendo resultados de alta calidad con menos huecos y artefactos.
La Transcripción con Atribución de Hablante y Marca Temporal (SATS) tiene como objetivo transcribir lo que se dice y determinar con precisión el momento en que habla cada interlocutor, lo cual es especialmente valioso para la transcripción de reuniones. Los sistemas SATS existentes rara vez adoptan una formulación de extremo a extremo y se ven limitados por ventanas de contexto reducidas, una memoria débil de hablantes a largo plazo y la incapacidad de generar marcas temporales. Para abordar estas limitaciones, presentamos MOSS Transcribe Diarize, un modelo de lenguaje grande multimodal unificado que realiza conjuntamente la Transcripción con Atribución de Hablante y Marca Temporal en un paradigma de extremo a extremo. Entrenado con extensos datos reales no controlados y equipado con una ventana de contexto de 128k para entradas de hasta 90 minutos, MOSS Transcribe Diarize escala eficientemente y generaliza con robustez. En evaluaciones exhaustivas, supera a los sistemas comerciales más avanzados en múltiples benchmarks públicos e internos.
Los modelos de difusión recientes de texto a vídeo pueden generar secuencias de vídeo convincentes, pero permanecen silenciosos, careciendo de las pistas semánticas, emocionales y atmosféricas que proporciona el audio. Presentamos LTX-2, un modelo fundamental de código abierto capaz de generar contenido audiovisual de alta calidad y temporalmente sincronizado de manera unificada. LTX-2 consiste en un transformador de doble flujo asimétrico con un flujo de vídeo de 14B parámetros y un flujo de audio de 5B parámetros, acoplados mediante capas de atención cruzada audio-vídeo bidireccionales con codificaciones posicionales temporales y AdaLN de cross-modalidad para un condicionamiento compartido del paso de tiempo. Esta arquitectura permite un entrenamiento e inferencia eficientes de un modelo audiovisual unificado, asignando más capacidad para la generación de vídeo que para la generación de audio. Empleamos un codificador de texto multilingüe para una comprensión más amplia de los prompts e introducimos un mecanismo de guía libre de clasificadores consciente de la modalidad (modality-CFG) para mejorar la alineación y controlabilidad audiovisual. Más allá de generar voz, LTX-2 produce pistas de audio ricas y coherentes que siguen a los personajes, el entorno, el estilo y la emoción de cada escena, completas con elementos de sonido ambiente y foley naturales. En nuestras evaluaciones, el modelo logra una calidad audiovisual y adherencia al prompt de vanguardia entre los sistemas de código abierto, ofreciendo resultados comparables a los modelos propietarios con una fracción de su coste computacional y tiempo de inferencia. Todos los pesos del modelo y el código se han publicado públicamente.
Presentamos SciEvalKit, un kit de herramientas unificado para evaluación comparativa diseñado para evaluar modelos de IA para la ciencia en una amplia gama de disciplinas científicas y capacidades de tareas. A diferencia de las plataformas de evaluación de propósito general, SciEvalKit se centra en las competencias fundamentales de la inteligencia científica, que incluyen Percepción Multimodal Científica, Razonamiento Multimodal Científico, Comprensión Multimodal Científica, Razonamiento Simbólico Científico, Generación de Código Científico, Generación de Hipótesis Científicas y Comprensión del Conocimiento Científico. Soporta seis dominios científicos principales, que abarcan desde la física y la química hasta la astronomía y la ciencia de materiales. SciEvalKit construye una base de puntos de referencia científicos de nivel experto, seleccionados a partir de conjuntos de datos específicos del mundo real y del dominio, asegurando que las tareas reflejen desafíos científicos auténticos. El kit de herramientas presenta una canalización de evaluación flexible y extensible que permite la evaluación por lotes en modelos y conjuntos de datos, admite la integración personalizada de modelos y conjuntos de datos, y proporciona resultados transparentes, reproducibles y comparables. Al tender un puente entre la evaluación basada en capacidades y la diversidad disciplinaria, SciEvalKit ofrece una infraestructura estandarizada pero personalizable para evaluar comparativamente la próxima generación de modelos fundacionales científicos y agentes inteligentes. El kit de herramientas es de código abierto y se mantiene activamente para fomentar el desarrollo impulsado por la comunidad y el progreso en IA para la Ciencia.
Si bien los Modelos Multimodales Unificados (UMMs) han logrado un éxito notable en la comprensión multimodal, persiste una brecha significativa en su capacidad para aprovechar dicho conocimiento interno para una generación de alta calidad. Formalizamos esta discrepancia como Afasia de Conducción, un fenómeno en el que los modelos interpretan con precisión las entradas multimodales pero luchan por traducir esa comprensión en una síntesis fiel y controlable. Para abordar esto, proponemos UniCorn, un marco de auto-mejora simple pero elegante que elimina la necesidad de datos externos o supervisión de un modelo profesor. Al dividir un único UMM en tres roles colaborativos: Proponente, Resolvedor y Juez, UniCorn genera interacciones de alta calidad mediante autojuego y emplea la reconstrucción de patrones cognitivos para destilar la comprensión latente en señales generativas explícitas. Para validar la restauración de la coherencia multimodal, presentamos UniCycle, un benchmark de consistencia cíclica basado en un bucle de reconstrucción de Texto a Imagen a Texto. Experimentos exhaustivos demuestran que UniCorn logra mejoras integrales y sustanciales sobre el modelo base en seis benchmarks generales de generación de imágenes. Notablemente, alcanza un rendimiento de vanguardia (SOTA) en TIIF (73.8), DPG (86.8), CompBench (88.5) y UniCycle, mientras que además logra ganancias sustanciales de +5.0 en WISE y +6.5 en OneIG. Estos resultados subrayan que nuestro método mejora significativamente la generación de Texto a Imagen (T2I) manteniendo una comprensión robusta, demostrando la escalabilidad del refinamiento completamente auto-supervisado para la inteligencia multimodal unificada.
Presentamos NitroGen, un modelo base de visión-acción para agentes de juego generalistas, entrenado con 40,000 horas de vídeos de juego de más de 1.000 títulos. Incorporamos tres elementos clave: 1) un conjunto de datos de vídeo-acción a escala de internet, construido mediante la extracción automática de las acciones del jugador de vídeos de juego disponibles públicamente, 2) un entorno de evaluación comparativa multijuego que permite medir la generalización entre juegos, y 3) un modelo unificado de visión-acción entrenado mediante clonación de comportamiento a gran escala. NitroGen demuestra una gran competencia en diversos dominios, incluyendo encuentros de combate en juegos de acción 3D, control de alta precisión en plataformas 2D y exploración en mundos generados proceduralmente. El modelo se transfiere eficazmente a juegos no vistos, logrando una mejora relativa de hasta el 52% en las tasas de éxito de las tareas en comparación con modelos entrenados desde cero. Publicamos el conjunto de datos, el entorno de evaluación y los pesos del modelo para impulsar la investigación en agentes corporizados generalistas.
Los modelos visión-lenguaje-acción (VLA) logran una fuerte generalización mediante el pre-entrenamiento a gran escala, pero el despliegue en entornos reales exige un dominio experto de tareas específicas además de una amplia generalidad. Los enfoques de post-entrenamiento existentes para modelos VLA suelen ser offline, de un solo robot o específicos por tarea, lo que limita la adaptación eficaz bajo la política actual y el aprendizaje escalable a partir de la interacción en el mundo real. Presentamos un sistema de Post-entrenamiento Escalable Online (SOP) que permite el post-entrenamiento online, distribuido y multitarea de modelos VLA generalistas directamente en el mundo físico. SOP acopla estrechamente la ejecución y el aprendizaje mediante una arquitectura de ciclo cerrado en la que una flota de robots transmite continuamente experiencias bajo la política actual y señales de intervención humana a un aprendiz centralizado en la nube, y recibe asincrónicamente políticas actualizadas. Este diseño permite una corrección inmediata bajo la política actual, escala la recolección de experiencia mediante el despliegue paralelo y preserva la generalidad durante la adaptación. SOP es agnóstico a la elección del algoritmo de post-entrenamiento; lo instanciamos tanto con aprendizaje por imitación interactiva (HG-DAgger) como con aprendizaje por refuerzo (RECAP). En una variedad de tareas de manipulación del mundo real que incluyen doblar ropa, ensamblar cajas y reabastecer productos de supermercado, demostramos que SOP mejora sustancialmente el rendimiento de grandes modelos VLA preentrenados mientras mantiene una única política compartida entre tareas. Se puede lograr un post-entrenamiento efectivo en cuestión de horas de interacción en el mundo real, y el rendimiento escala de forma casi lineal con el número de robots en la flota. Estos resultados sugieren que el acoplamiento estrecho del aprendizaje online con el despliegue a escala de flota es fundamental para permitir un post-entrenamiento eficiente, fiable y escalable de políticas de robots generalistas en el mundo físico.
La estilización de vídeo, una importante tarea derivada de los modelos de generación de vídeo, aún no ha sido explorada exhaustivamente. Sus condiciones de estilo de entrada suelen incluir texto, imagen de estilo y primer fotograma estilizado. Cada condición tiene una ventaja característica: el texto es más flexible, la imagen de estilo proporciona una referencia visual más precisa, y el primer fotograma estilizado hace viable la estilización de vídeos largos. Sin embargo, los métodos existentes se limitan en gran medida a un único tipo de condición de estilo, lo que restringe su ámbito de aplicación. Adicionalmente, la falta de conjuntos de datos de alta calidad provoca inconsistencias de estilo y parpadeo temporal. Para abordar estas limitaciones, presentamos DreamStyle, un marco unificado para la estilización de vídeo que admite (1) estilización guiada por texto, (2) estilización guiada por imagen de estilo y (3) estilización guiada por el primer fotograma, acompañado de un pipeline de curación de datos bien diseñado para obtener datos de vídeo pareados de alta calidad. DreamStyle se construye sobre un modelo básico de Imagen-a-Vídeo (I2V) y se entrena utilizando una Adaptación de Bajo Rango (LoRA) con matrices de actualización específicas por token que reducen la confusión entre los diferentes tokens de condición. Evaluaciones tanto cualitativas como cuantitativas demuestran que DreamStyle es competente en las tres tareas de estilización de vídeo, y supera a sus competidores en consistencia de estilo y calidad de vídeo.
Presentamos MiMo-V2-Flash, un modelo Mixture-of-Experts (MoE) con 309B de parámetros totales y 15B de parámetros activos, diseñado para ofrecer capacidades de razonamiento y agentivas rápidas y sólidas. MiMo-V2-Flash adopta una arquitectura de atención híbrida que intercala Atención de Ventana Deslizante (SWA) con atención global, utilizando una ventana deslizante de 128 tokens bajo una proporción híbrida de 5:1. El modelo fue pre-entrenado en 27 billones de tokens con Predicción Multi-Token (MTP), empleando una longitud de contexto nativa de 32k y posteriormente extendida a 256k. Para escalar eficientemente el cómputo post-entrenamiento, MiMo-V2-Flash introduce un nuevo paradigma de Destilación On-Policy Multi-Maestro (MOPD). En este marco, maestros especializados en dominios (por ejemplo, entrenados mediante aprendizaje por refuerzo a gran escala) proporcionan una recompensa densa y a nivel de token, permitiendo que el modelo estudiante domine a la perfección la experiencia del maestro. MiMo-V2-Flash rivaliza con modelos de código abierto de primer nivel como DeepSeek-V3.2 y Kimi-K2, a pesar de utilizar solo 1/2 y 1/3 de sus parámetros totales, respectivamente. Durante la inferencia, al reutilizar MTP como un modelo de borrador para decodificación especulativa, MiMo-V2-Flash logra una longitud de aceptación de hasta 3.6 y una aceleración de decodificación de 2.6x con tres capas MTP. Liberamos tanto los pesos del modelo como los pesos de las tres capas MTP para fomentar la investigación abierta y la colaboración comunitaria.
A pesar de los avances significativos, los modelos de lenguaje multimodal continúan teniendo dificultades con la resolución de problemas matemáticos visuales. Algunos trabajos recientes reconocen que la percepción visual es un cuello de botella en el razonamiento matemático visual, pero sus soluciones se limitan a mejorar la extracción e interpretación de las entradas visuales. Cabe destacar que todos ignoran el problema clave de si las pistas visuales extraídas se integran fielmente y se utilizan adecuadamente en el razonamiento posterior. Motivados por esto, presentamos CogFlow, un novedoso marco de tres etapas inspirado en la cognición que incorpora una etapa de internalización del conocimiento, simulando explícitamente el flujo jerárquico del razonamiento humano: percepción ⇒ internalización ⇒ razonamiento. En línea con este flujo jerárquico, mejoramos holísticamente todas sus etapas. Diseñamos Recompensas Visuales Sinérgicas para potenciar las capacidades de percepción en espacios paramétricos y semánticos, mejorando conjuntamente la extracción de información visual de símbolos y diagramas. Para garantizar una integración fiel de las pistas visuales extraídas en el razonamiento posterior, introducimos un modelo de Recompensa de Internalización del Conocimiento en la etapa de internalización, que sirve de puente entre la percepción y el razonamiento. Además, diseñamos un algoritmo de Optimización de Políticas con Compuerta Visual para hacer cumplir que el razonamiento se base en el conocimiento visual, impidiendo que los modelos busquen atajos que resulten en cadenas de razonamiento aparentemente coherentes pero visualmente infundadas. Asimismo, contribuimos con un nuevo conjunto de datos, MathCog, para el entrenamiento de modelos, que contiene muestras con más de 120K anotaciones de alta calidad alineadas entre percepción y razonamiento. Experimentos exhaustivos y análisis en benchmarks de razonamiento matemático visual de uso común validan la superioridad del CogFlow propuesto.
Los gemelos digitales, como representaciones digitales precisas de sistemas físicos, han evolucionado desde herramientas de simulación pasiva hasta convertirse en entidades inteligentes y autónomas mediante la integración de tecnologías de inteligencia artificial. Este artículo presenta un marco unificado de cuatro etapas que caracteriza sistemáticamente la integración de la IA a lo largo del ciclo de vida del gemelo digital, abarcando el modelado, la réplica, la intervención y la gestión autónoma. Mediante la síntesis de tecnologías y prácticas existentes, destilamos un marco unificado de cuatro etapas que caracteriza sistemáticamente cómo se integran las metodologías de IA en el ciclo de vida del gemelo digital: (1) modelado del gemelo físico mediante enfoques de IA basados en física e informados por la física, (2) replicación del sistema físico en un gemelo digital con sincronización en tiempo real, (3) intervención sobre el gemelo físico mediante modelado predictivo, detección de anomalías y estrategias de optimización, y (4) consecución de una gestión autónoma mediante modelos de lenguaje grande, modelos fundacionales y agentes inteligentes. Analizamos la sinergia entre el modelado basado en física y el aprendizaje basado en datos, destacando la transición desde los solucionadores numéricos tradicionales hacia modelos informados por la física y modelos fundacionales para sistemas físicos. Además, examinamos cómo las tecnologías de IA generativa, incluidos los modelos de lenguaje grande y los modelos generativos del mundo, transforman los gemelos digitales en sistemas cognitivos proactivos y auto-mejorables, capaces de razonamiento, comunicación y generación creativa de escenarios. A través de una revisión transversal que abarca once dominios de aplicación, incluyendo atención sanitaria, aeroespacial, fabricación inteligente, robótica y ciudades inteligentes, identificamos desafíos comunes relacionados con la escalabilidad, la explicabilidad y la confiabilidad, y esbozamos direcciones para sistemas de gemelos digitales impulsados por IA de manera responsable.
Los modelos de lenguaje grandes (LLM), a pesar de su sólido rendimiento en problemas matemáticos complejos, exhiben limitaciones sistemáticas en tareas de conteo. Este problema surge de las limitaciones arquitectónicas de los transformadores, donde el conteo se realiza a través de las capas, lo que conduce a una precisión degradada para problemas de conteo más grandes debido a las restricciones de profundidad. Para abordar esta limitación, proponemos una estrategia simple en tiempo de prueba, inspirada en los procesos cognitivos del Sistema-2, que descompone las tareas de conteo grandes en subproblemas más pequeños e independientes que el modelo puede resolver de manera confiable. Evaluamos este enfoque utilizando análisis de mediación observacional y causal para comprender el mecanismo subyacente de esta estrategia similar al Sistema-2. Nuestro análisis mecanicista identifica componentes clave: los conteos latentes se calculan y almacenan en las representaciones finales de cada elemento, se transfieren a pasos intermedios a través de cabezas de atención dedicadas y se agregan en la etapa final para producir el conteo total. Los resultados experimentales demuestran que esta estrategia permite a los LLM superar las limitaciones arquitectónicas y lograr una alta precisión en tareas de conteo a gran escala. Este trabajo proporciona una perspectiva mecanicista sobre el conteo del Sistema-2 en los LLM y presenta un enfoque generalizable para mejorar y comprender su comportamiento de razonamiento.
Presentamos WebGym, el entorno de código abierto más grande hasta la fecha para entrenar agentes web visuales realistas. Los sitios web reales son no estacionarios y diversos, lo que hace que los conjuntos de tareas artificiales o a pequeña escala sean insuficientes para un aprendizaje robusto de políticas. WebGym contiene cerca de 300.000 tareas con evaluaciones basadas en rúbricas que abarcan diversos sitios web del mundo real y niveles de dificultad. Entrenamos agentes con una receta simple de aprendizaje por refuerzo (RL), que se entrena con las trazas de interacción propias del agente (rollouts), utilizando las recompensas de las tareas como retroalimentación para guiar el aprendizaje. Para permitir la escalabilidad del RL, aceleramos el muestreo de trayectorias en WebGym mediante el desarrollo de un sistema asíncrono de rollouts de alto rendimiento, diseñado específicamente para agentes web. Nuestro sistema logra una aceleración de 4-5x en la velocidad de los rollouts en comparación con las implementaciones simples. En segundo lugar, escalamos la amplitud, profundidad y tamaño del conjunto de tareas, lo que resulta en una mejora continua del rendimiento. El ajuste fino de un modelo base sólido de visión y lenguaje, Qwen-3-VL-8B-Instruct, en WebGym da como resultado una mejora en la tasa de éxito en un conjunto de pruebas fuera de distribución del 26.2% al 42.9%, superando significativamente a los agentes basados en modelos propietarios como GPT-4o y GPT-5-Thinking, que logran un 27.1% y 29.8%, respectivamente. Esta mejora es sustancial porque nuestro conjunto de pruebas consiste únicamente en tareas en sitios web nunca vistos durante el entrenamiento, a diferencia de muchos otros trabajos previos sobre el entrenamiento de agentes web visuales.
Presentamos Muses, el primer método libre de entrenamiento para la generación de criaturas 3D fantásticas en un paradigma de avance directo. Los métodos anteriores, que dependen de optimización con conciencia de partes, ensamblaje manual o generación de imágenes 2D, a menudo producen activos 3D poco realistas o incoherentes debido a los desafíos de la intrincada manipulación a nivel de partes y la limitada generación fuera de dominio. En contraste, Muses aprovecha el esqueleto 3D, una representación fundamental de las formas biológicas, para componer explícita y racionalmente diversos elementos. Esta base esquelética formaliza la creación de contenido 3D como una canalización de diseño, composición y generación con conciencia estructural. Muses comienza construyendo un esqueleto 3D creativamente compuesto con diseño y escala coherentes mediante razonamiento con restricciones gráficas. Este esqueleto luego guía un proceso de ensamblaje basado en vóxeles dentro de un espacio latente estructurado, integrando regiones de diferentes objetos. Finalmente, se aplica un modelado de apariencia guiado por imágenes bajo condiciones esqueléticas para generar una textura armónica y consistente en estilo para la forma ensamblada. Experimentos exhaustivos establecen el rendimiento de vanguardia de Muses en términos de fidelidad visual y alineación con descripciones textuales, y su potencial para la edición flexible de objetos 3D. Página del proyecto: https://luhexiao.github.io/Muses.github.io/.
La rápida integración de los Modelos de Lenguaje Multimodales (MLLM) en aplicaciones críticas se ve cada vez más obstaculizada por vulnerabilidades de seguridad persistentes. Sin embargo, los puntos de referencia existentes para pruebas de intrusión (red-teaming) suelen estar fragmentados, limitados a interacciones de texto de un solo turno y carecen de la escalabilidad necesaria para una evaluación sistemática. Para abordar este problema, presentamos OpenRT, un marco de pruebas de intrusión unificado, modular y de alto rendimiento diseñado para la evaluación integral de la seguridad de los MLLM. En esencia, OpenRT establece un cambio de paradigma en las pruebas de intrusión automatizadas al introducir un núcleo adversario que permite una separación modular en cinco dimensiones críticas: integración de modelos, gestión de conjuntos de datos, estrategias de ataque, métodos de evaluación y métricas. Al estandarizar las interfaces de ataque, desacopla la lógica adversaria de un entorno de ejecución asíncrono de alto rendimiento, permitiendo una escalabilidad sistemática en diversos modelos. Nuestro marco integra 37 metodologías de ataque diversas, que abarcan gradientes de caja blanca, perturbaciones multimodales y sofisticadas estrategias evolutivas multiagente. Mediante un extenso estudio empírico en 20 modelos avanzados (incluyendo GPT-5.2, Claude 4.5 y Gemini 3 Pro), exponemos deficiencias críticas de seguridad: incluso los modelos más avanzados no logran generalizar entre paradigmas de ataque, con los modelos líderes exhibiendo Tasas Promedio de Ataque Exitoso de hasta el 49.14%. Notablemente, nuestros hallazgos revelan que los modelos de razonamiento no poseen inherentemente una robustez superior contra jailbreaks complejos y multiturno. Al hacer OpenRT de código abierto, proporcionamos una infraestructura sostenible, extensible y en mantenimiento continuo que acelera el desarrollo y la estandarización de la seguridad de la IA.
La Propagación del Primer Fotograma (FFP) representa un paradigma prometedor para la edición de video controlable, pero los métodos existentes se ven limitados por su dependencia de guías en tiempo de ejecución que resultan engorrosas. Identificamos como causa principal de esta limitación la insuficiencia de los conjuntos de datos de entrenamiento actuales, que suelen ser demasiado cortos, de baja resolución y carecen de la diversidad de tareas necesaria para enseñar *priors* temporales robustos. Para abordar esta brecha de datos fundamental, primero presentamos FFP-300K, un nuevo conjunto de datos a gran escala que comprende 300.000 pares de video de alta fidelidad con resolución 720p y 81 fotogramas de longitud, construido mediante un *pipeline* fundamentado de dos vías para realizar ediciones locales y globales diversas. Sobre la base de este conjunto de datos, proponemos un nuevo marco diseñado para un FFP verdaderamente libre de guías, que resuelve la tensión crítica entre mantener la apariencia del primer fotograma y preservar el movimiento del video fuente. A nivel arquitectónico, introducimos el RoPE Espacio-Temporal Adaptativo (AST-RoPE), que reasigna dinámicamente las codificaciones posicionales para desentrañar las referencias de apariencia y movimiento. A nivel del objetivo, empleamos una estrategia de auto-distilación en la que una tarea de propagación de identidad actúa como un potente regularizador, garantizando la estabilidad temporal a largo plazo y previniendo la deriva semántica. Experimentos exhaustivos en el benchmark EditVerseBench demuestran que nuestro método supera significativamente a los modelos académicos y comerciales existentes, al obtener una mejora de aproximadamente 0.2 puntos en PickScore y 0.3 puntos en VLM Score frente a estos competidores.
La geo-localización tiene como objetivo inferir el origen geográfico de una señal dada. En visión por computadora, la geo-localización ha servido como un exigente punto de referencia para el razonamiento composicional y es relevante para la seguridad pública. Por el contrario, el progreso en la geo-localización de audio se ha visto limitado por la falta de pares audio-ubicación de alta calidad. Para abordar esta brecha, presentamos AGL1K, el primer benchmark de geo-localización de audio para modelos de lenguaje de audio (ALMs), que abarca 72 países y territorios. Para extraer muestras confiablemente localizables de una plataforma de origen comunitario, proponemos la métrica de Localizabilidad de Audio que cuantifica el contenido informativo de cada grabación, dando como resultado 1.444 clips de audio curados. Las evaluaciones en 16 ALMs muestran que estos modelos han desarrollado capacidad de geo-localización de audio. Encontramos que los modelos de código cerrado superan sustancialmente a los modelos de código abierto, y que las pistas lingüísticas a menudo dominan como andamiaje para la predicción. Analizamos además las trazas de razonamiento de los ALMs, el sesgo regional, las causas de error y la interpretabilidad de la métrica de localizabilidad. En general, AGL1K establece un benchmark para la geo-localización de audio y puede impulsar el desarrollo de ALMs con mejor capacidad de razonamiento geoespacial.
Capturar preferencias de usuario complejas a partir de secuencias de comportamiento dispersas sigue siendo un desafío fundamental en la recomendación secuencial. Los métodos recientes de razonamiento latente han mostrado potencial al extender el cómputo en tiempo de prueba mediante razonamiento multi-etapa, aunque dependen exclusivamente de escalado en profundidad a lo largo de una única trayectoria, sufriendo rendimientos decrecientes a medida que aumenta la profundidad del razonamiento. Para abordar esta limitación, proponemos Razonamiento Latente Paralelo (PLR), un marco novedoso que pionerea el escalado computacional en amplitud explorando múltiples trayectorias de razonamiento diversas simultáneamente. PLR construye flujos de razonamiento paralelos mediante tokens desencadenantes aprendibles en espacio latente continuo, preserva la diversidad entre flujos mediante regularización global de razonamiento, y sintetiza adaptativamente las salidas multi-flujo mediante agregación de mezcla de flujos de razonamiento. Experimentos exhaustivos en tres conjuntos de datos del mundo real demuestran que PLR supera sustancialmente los métodos de referencia más avanzados mientras mantiene una eficiencia de inferencia en tiempo real. El análisis teórico valida además la efectividad del razonamiento paralelo para mejorar la capacidad de generalización. Nuestro trabajo abre nuevas vías para mejorar la capacidad de razonamiento en recomendación secuencial más allá del escalado en profundidad existente.
A pesar de los notables avances en la síntesis de imágenes de alta fidelidad, los modelos generativos aún presentan dificultades para seguir instrucciones que requieren una lógica intensiva, lo que expone una brecha persistente entre el razonamiento y la ejecución. Mientras tanto, sistemas de código cerrado (por ejemplo, Nano Banana) han demostrado una gran capacidad para la generación de imágenes impulsada por el razonamiento, lo que subraya una brecha sustancial con los modelos actuales de código abierto. Sostenemos que cerrar esta brecha no requiere únicamente mejores generadores visuales, sino un razonamiento ejecutable: descomponer intenciones de alto nivel en planes fundamentados y verificables que dirijan directamente el proceso generativo. Con este fin, proponemos Unified Thinker, una arquitectura de razonamiento independiente de la tarea para la generación general de imágenes, diseñada como un núcleo de planificación unificado que puede integrarse en diversos generadores y flujos de trabajo. Unified Thinker desacopla un módulo de Razonamiento (Thinker) dedicado del Generador de imágenes, permitiendo mejoras modulares en el razonamiento sin necesidad de reentrenar el modelo generativo completo. Además, introducimos un paradigma de entrenamiento en dos etapas: primero construimos una interfaz de planificación estructurada para el Thinker, y luego aplicamos aprendizaje por refuerzo para fundamentar su política en la retroalimentación a nivel de píxeles, fomentando planes que optimicen la corrección visual por encima de la plausibilidad textual. Experimentos exhaustivos en generación de imágenes a partir de texto y edición de imágenes muestran que Unified Thinker mejora sustancialmente el razonamiento sobre la imagen y la calidad de la generación.
Los grandes modelos de razonamiento (LRM) logran un alto rendimiento en tareas de razonamiento matemático, lo que a menudo se atribuye a su capacidad para generar explicaciones explícitas de cadena de pensamiento (CoT). Sin embargo, trabajos recientes muestran que los LRM frecuentemente llegan a la respuesta correcta antes de completar estos pasos de razonamiento textual, lo que indica la presencia de razonamiento latente: un cómputo interno y no verbal codificado en los estados ocultos. Si bien este fenómeno se ha explorado en inglés, su comportamiento multilingüe sigue siendo en gran medida desconocido. En este artículo, realizamos una investigación sistemática del razonamiento latente multilingüe en LRM a través de 11 idiomas. Utilizando una estrategia basada en truncamiento, examinamos cómo emerge la respuesta correcta cuando al modelo solo se le proporcionan trazas de razonamiento parciales, lo que nos permite medir la formación de predicciones latentes paso a paso. Nuestros resultados revelan evidencia clara de razonamiento latente multilingüe, aunque de forma desigual: fuerte en idiomas con muchos recursos, más débil en idiomas de bajos recursos y, en general, menos observable en benchmarks más difíciles. Para comprender si estas diferencias reflejan mecanismos internos distintos, realizamos además análisis de representación. A pesar de las disparidades superficiales, encontramos que la evolución interna de las predicciones es altamente consistente entre idiomas y se alinea ampliamente con el inglés, un patrón que sugiere una vía de razonamiento latente centrada en el inglés.
La detección de manipulaciones deepfake desconocidas sigue siendo uno de los problemas más desafiantes en la detección de falsificaciones faciales. Los enfoques actuales más avanzados no logran generalizar a manipulaciones no vistas, ya que dependen principalmente del entrenamiento supervisado con deepfakes existentes o pseudo-fakes, lo que conduce a un sobreajuste a patrones de falsificación específicos. Por el contrario, los métodos auto-supervisados ofrecen un mayor potencial de generalización, pero el trabajo existente lucha por aprender representaciones discriminativas únicamente a partir de la auto-supervisión. En este artículo, proponemos ExposeAnyone, un enfoque completamente auto-supervisado basado en un modelo de difusión que genera secuencias de expresiones a partir de audio. La idea clave es que, una vez que el modelo se personaliza para sujetos específicos utilizando conjuntos de referencia, puede calcular las distancias de identidad entre videos sospechosos y los sujetos personalizados mediante errores de reconstrucción por difusión, permitiendo la detección de falsificaciones faciales de personas de interés. Experimentos exhaustivos demuestran que 1) nuestro método supera al método anterior más avanzado en 4.22 puntos porcentuales en el AUC promedio en los conjuntos de datos DF-TIMIT, DFDCP, KoDF e IDForge, 2) nuestro modelo también es capaz de detectar videos generados por Sora2, donde los enfoques anteriores tienen un rendimiento deficiente, y 3) nuestro método es altamente robusto a corrupciones como el desenfoque y la compresión, destacando la aplicabilidad en la detección de falsificaciones faciales en el mundo real.
Presentamos AceFF, un potencial interatómico de aprendizaje automático (MLIP) preentrenado y optimizado para el descubrimiento de fármacos de pequeñas moléculas. Si bien los MLIP han surgido como alternativas eficientes a la Teoría del Funcional de la Densidad (DFT), la generalización a través de diversos espacios químicos sigue siendo un desafío. AceFF aborda este problema mediante una arquitectura TensorNet2 refinada, entrenada en un conjunto de datos exhaustivo de compuestos similares a fármacos. Este enfoque produce un campo de fuerzas que equilibra la velocidad de inferencia de alto rendimiento con una precisión a nivel DFT. AceFF admite todos los elementos esenciales de la química medicinal (H, B, C, N, O, F, Si, P, S, Cl, Br, I) y está explícitamente entrenado para manejar estados cargados. La validación frente a benchmarks rigurosos, que incluyen escaneos de energía torsional complejos, trayectorias de dinámica molecular, minimizaciones por lotes, y la precisión de fuerzas y energía, demuestra que AceFF establece un nuevo estado del arte para moléculas orgánicas. Los pesos del modelo AceFF-2 y el código de inferencia están disponibles en https://huggingface.co/Acellera/AceFF-2.0.
La eliminación de niebla en imágenes es un desafío crítico en visión por computadora, esencial para mejorar la claridad de las imágenes en condiciones de neblina. Los métodos tradicionales a menudo se basan en modelos de dispersión atmosférica, mientras que las técnicas recientes de aprendizaje profundo, específicamente las Redes Neuronales Convolucionales (CNN) y los Transformers, han mejorado el rendimiento al analizar eficazmente las características de la imagen. Sin embargo, las CNN presentan dificultades con las dependencias de largo alcance, y los Transformers requieren recursos computacionales significativos. Para abordar estas limitaciones, proponemos DehazeSNN, una arquitectura innovadora que integra un diseño tipo U-Net con Redes Neuronales Pulsantes (SNN). DehazeSNN captura características de imagen multi-escala mientras gestiona eficientemente las dependencias locales y de largo alcance. La introducción del Bloque Ortogonal de Fuga-Integración-y-Disparo (OLIFBlock) mejora la comunicación entre canales, resultando en un rendimiento de eliminación de niebla superior con una carga computacional reducida. Nuestros extensos experimentos demuestran que DehazeSNN es altamente competitivo frente a los métodos de vanguardia en conjuntos de datos de referencia, produciendo imágenes libres de niebla de alta calidad con un tamaño de modelo más pequeño y menos operaciones de multiplicación-acumulación. El método de eliminación de niebla propuesto está disponible públicamente en https://github.com/HaoranLiu507/DehazeSNN.
La detección de discurso de odio en redes sociales enfrenta desafíos tanto en precisión como en explicabilidad, especialmente para lenguas índicas poco exploradas. Proponemos un novedoso marco de entrenamiento guiado por explicabilidad, X-MuTeST (eXplainable Multilingual haTe Speech deTection), para la detección de discurso de odio que combina el razonamiento semántico de alto nivel de los modelos de lenguaje grandes (LLMs) con técnicas tradicionales de mejora de la atención. Extendemos esta investigación al hindi y al telugu junto con el inglés, proporcionando racionales anotados por humanos como referencia para justificar la etiqueta de clase asignada a cada palabra. El método de explicabilidad X-MuTeST calcula la diferencia entre las probabilidades de predicción del texto original y las de unigramas, bigramas y trigramas. Las explicaciones finales se calculan como la unión entre las explicaciones de los LLMs y las explicaciones de X-MuTeST. Demostramos que aprovechar los racionales humanos durante el entrenamiento mejora tanto el rendimiento de la clasificación como la explicabilidad. Además, combinar los racionales humanos con nuestro método de explicabilidad para refinar la atención del modelo produce mejoras adicionales. Evaluamos la explicabilidad utilizando métricas de Plausibilidad como Token-F1 e IOU-F1, y métricas de Fidelidad como Comprehensiveness y Sufficiency. Al centrarnos en lenguas con menos recursos, nuestro trabajo avanza la detección de discurso de odio en diversos contextos lingüísticos. Nuestro conjunto de datos incluye anotaciones de racionales a nivel de token para 6.004 muestras en hindi, 4.492 en telugu y 6.334 en inglés. Los datos y el código están disponibles en https://github.com/ziarehman30/X-MuTeST.
Examinamos dos propiedades de los sistemas de IA: la capacidad (lo que un sistema puede hacer) y la direccionabilidad (la fiabilidad con la que se puede modificar el comportamiento hacia resultados deseados). Una cuestión central es si el crecimiento de la capacidad reduce la direccionabilidad y conlleva riesgos de colapso del control. También distinguimos entre direccionabilidad autorizada (los desarrolladores alcanzan de forma fiable los comportamientos previstos) y direccionabilidad no autorizada (los atacantes provocan comportamientos no permitidos). Esta distinción subraya un dilema fundamental de seguridad-protección en los modelos de IA: la seguridad requiere una alta direccionabilidad para imponer control (por ejemplo, parar/rechazar), mientras que la protección requiere una baja direccionabilidad para que actores maliciosos no puedan elicitar comportamientos dañinos. Esta tensión presenta un desafío significativo para los modelos de pesos abiertos, que actualmente exhiben una alta direccionabilidad mediante técnicas comunes como el ajuste fino o los ataques adversarios. Utilizando Qwen3 e InstrumentalEval, encontramos que un sufijo de instrucción anti-instrumental breve reduce drásticamente la tasa de convergencia medida (por ejemplo, evitación de apagado, autorreplicación). Para Qwen3-30B Instruct, la tasa de convergencia desciende del 81,69% bajo un sufijo pro-instrumental al 2,82% bajo un sufijo anti-instrumental. Bajo instrucciones anti-instrumentales, los modelos alineados más grandes muestran tasas de convergencia más bajas que los más pequeños (Instruct: 2,82% vs. 4,23%; Thinking: 4,23% vs. 9,86%). El código está disponible en github.com/j-hoscilowicz/instrumental_steering.