Artículos de investigación en IA seleccionados diariamente con traducciones
Los grandes modelos de lenguaje (LLM) generan resultados fluidos y complejos, pero a menudo no logran reconocer sus propios errores y alucinaciones. Los enfoques existentes generalmente dependen de evaluadores externos, consistencia multi-muestra o autocrítica basada en texto, lo que incurre en costos computacionales adicionales o se correlaciona débilmente con la corrección real. Nos preguntamos: ¿pueden los LLM predecir sus propios fallos inspeccionando sus estados internos durante la inferencia? Presentamos Gnosis, un mecanismo ligero de autoconciencia que permite a los LLM congelados realizar una autoverificación intrínseca decodificando señales de sus estados ocultos y patrones de atención. Gnosis observa pasivamente las trazas internas, las comprime en descriptores de presupuesto fijo y predice la corrección con un coste de inferencia negligible, añadiendo solo ~5M de parámetros y operando independientemente de la longitud de la secuencia. En benchmarks de razonamiento matemático, preguntas de dominio abierto y conocimiento académico, y sobre arquitecturas congeladas que van desde 1.7B hasta 20B de parámetros, Gnosis supera consistentemente a sólidos baselines internos y a grandes evaluadores externos tanto en precisión como en calibración. Además, generaliza zero-shot a generaciones parciales, permitiendo la detección temprana de trayectorias fallidas y un control consciente del coste computacional. Estos resultados demuestran que las señales fiables de corrección son intrínsecas al proceso de generación y pueden extraerse eficientemente sin supervisión externa.
Presentamos NextFlow, un transformer autoregresivo unificado de solo decodificador entrenado con 6 billones de tokens discretos intercalados de texto e imagen. Al aprovechar una representación visual unificada dentro de una arquitectura autoregresiva unificada, NextFlow activa de forma nativa capacidades de comprensión y generación multimodal, desbloqueando habilidades de edición de imágenes, generación de contenido intercalado y vídeo. Motivados por la naturaleza distinta de las modalidades —donde el texto es estrictamente secuencial y las imágenes son inherentemente jerárquicas—, conservamos la predicción del siguiente token para el texto pero adoptamos la predicción de la siguiente escala para la generación visual. Esto se aparta de los métodos tradicionales de escaneo en raster, permitiendo generar imágenes de 1024x1024 en solo 5 segundos —órdenes de magnitud más rápido que modelos AR comparables. Abordamos las inestabilidades de la generación multiescala mediante una receta de entrenamiento robusta. Además, introducimos una estrategia de *prefix-tuning* para el aprendizaje por refuerzo. Los experimentos demuestran que NextFlow logra un rendimiento de vanguardia entre los modelos unificados y rivaliza con líneas base de difusión especializadas en calidad visual.
Este informe técnico presenta K-EXAONE, un modelo lingüístico multilingüe a gran escala desarrollado por LG AI Research. K-EXAONE está construido sobre una arquitectura de Mixture-of-Experts con un total de 236.000 millones de parámetros, activando 23.000 millones de parámetros durante la inferencia. Soporta una ventana de contexto de 256.000 tokens y cubre seis idiomas: coreano, inglés, español, alemán, japonés y vietnamita. Evaluamos K-EXAONE en un conjunto exhaustivo de benchmarks que abarcan capacidades de razonamiento, agentivas, generales, coreanas y multilingües. A lo largo de estas evaluaciones, K-EXAONE demuestra un rendimiento comparable al de modelos de código abierto de tamaño similar. K-EXAONE, diseñado para avanzar en la inteligencia artificial para una vida mejor, se posiciona como un potente modelo base de IA propietario para una amplia gama de aplicaciones industriales y de investigación.
El Intercambio de Caras en Video (VFS) requiere inyectar de forma imperceptible una identidad fuente en un video objetivo, preservando meticulosamente la pose, expresión, iluminación, fondo e información dinámica originales. Los métodos existentes tienen dificultades para mantener la similitud de identidad y la preservación de atributos, a la vez que conservan la coherencia temporal. Para abordar este desafío, proponemos un marco integral para transferir de forma fluida la superioridad del Intercambio de Caras en Imágenes (IFS) al dominio del video. Primero introducimos una novedosa canalización de datos, SyncID-Pipe, que pre-entrena un Sintetizador de Video Anclado por Identidad y lo combina con modelos IFS para construir cuadrupletos de ID bidireccionales que permitan una supervisión explícita. Sobre la base de datos emparejados, proponemos el primer marco basado en Transformadores de Difusión, DreamID-V, que emplea un módulo central de Condicionamiento Consciente de la Modalidad para inyectar de forma discriminatoria condiciones multi-modelo. Paralelamente, proponemos un mecanismo de Currículum de Sintético-a-Real y una estrategia de Aprendizaje por Refuerzo de Coherencia de Identidad para mejorar el realismo visual y la consistencia de la identidad en escenarios complejos. Para abordar el problema de la limitación de puntos de referencia, presentamos IDBench-V, un benchmark integral que abarca escenas diversas. Experimentos exhaustivos demuestran que DreamID-V supera a los métodos state-of-the-art y exhibe además una versatilidad excepcional, pudiendo adaptarse sin problemas a diversas tareas relacionadas con el intercambio.
La generación visual está dominada por tres paradigmas: modelos Autoregresivos (AR), de difusión y Autoregresivos Visuales (VAR). A diferencia de los modelos AR y de difusión, los VAR operan sobre estructuras de entrada heterogéneas a lo largo de sus pasos de generación, lo que crea graves conflictos de políticas asíncronos. Este problema se vuelve particularmente agudo en escenarios de aprendizaje por refuerzo (RL), conduciendo a un entrenamiento inestable y a una alineación subóptima. Para resolverlo, proponemos un marco novedoso para mejorar la Optimización de Políticas Relativas de Grupo (GRPO) mediante la gestión explícita de estos conflictos. Nuestro método integra tres componentes sinérgicos: 1) una recompensa intermedia estabilizadora para guiar la generación en etapas tempranas; 2) un esquema de reponderación dinámica de pasos temporales para una asignación de crédito precisa; y 3) un novedoso algoritmo de propagación de máscaras, derivado de los principios del Aprendizaje por Retroalimentación de Recompensas (ReFL), diseñado para aislar los efectos de la optimización tanto espacial como temporalmente. Nuestro enfoque demuestra mejoras significativas en la calidad de las muestras y la alineación con los objetivos respecto a la línea base GRPO original, permitiendo una optimización robusta y efectiva para modelos VAR.
El ajuste fino de modelos de difusión mediante aprendizaje por refuerzo (RL) en línea ha demostrado un gran potencial para mejorar la alineación texto-imagen. Sin embargo, dado que especificar con precisión un objetivo de verdad fundamental para tareas visuales sigue siendo un desafío, los modelos a menudo se optimizan utilizando una recompensa proxy que solo captura parcialmente el objetivo real. Esta discrepancia a menudo conduce a la explotación de la recompensa (reward hacking), donde las puntuaciones proxy aumentan mientras la calidad real de la imagen se deteriora y la diversidad de la generación colapsa. Si bien las soluciones comunes añaden una regularización contra la política de referencia para prevenir la explotación de la recompensa, éstas comprometen la eficiencia muestral e impiden la exploración de regiones novedosas y de alta recompensa, ya que la política de referencia suele ser subóptima. Para abordar las demandas en competencia de eficiencia muestral, exploración efectiva y mitigación de la explotación de la recompensa, proponemos GARDO (Optimización con Regularización Ponderada y Adaptativa y Conciencia de la Diversidad), un marco versátil compatible con varios algoritmos de RL. Nuestra idea clave es que la regularización no necesita aplicarse universalmente; en cambio, es altamente efectivo penalizar selectivamente un subconjunto de muestras que exhiben alta incertidumbre. Para abordar el desafío de la exploración, GARDO introduce un mecanismo de regularización adaptativa en el cual el modelo de referencia se actualiza periódicamente para igualar las capacidades de la política en línea, asegurando un objetivo de regularización relevante. Para abordar el problema del colapso modal en RL, GARDO amplifica las recompensas para muestras de alta calidad que también exhiben alta diversidad, fomentando la cobertura de modos sin desestabilizar el proceso de optimización. Experimentos exhaustivos con diversas recompensas proxy y métricas de evaluación no vistas (hold-out) muestran consistentemente que GARDO mitiga la explotación de la recompensa y mejora la diversidad de la generación sin sacrificar la eficiencia muestral o la exploración, destacando su efectividad y robustez.
Presentamos VINO, un generador visual unificado que realiza generación y edición de imágenes y vídeos dentro de un único marco de trabajo. En lugar de depender de modelos específicos por tarea o módulos independientes para cada modalidad, VINO utiliza un backbone de difusión compartido que se condiciona con texto, imágenes y vídeos, permitiendo una amplia gama de tareas de creación y edición visual bajo un mismo modelo. Específicamente, VINO acopla un modelo de visión y lenguaje (VLM) con un Transformador de Difusión Multimodal (MMDiT), donde las entradas multimodales se codifican como tokens de condicionamiento entrelazados, que luego se utilizan para guiar el proceso de difusión. Este diseño admite la anclaje multirreferencia, el seguimiento de instrucciones de larga duración y la preservación coherente de la identidad a través de contenido estático y dinámico, al tiempo que evita componentes arquitectónicos específicos de modalidad. Para entrenar dicho sistema unificado, introducimos una pipeline de entrenamiento multi-etapa que expande progresivamente un modelo base de generación de vídeo en un generador unificado y multitarea capaz de manejar tanto entrada como salida de imagen y vídeo. En diversos benchmarks de generación y edición, VINO demuestra una fuerte calidad visual, un seguimiento fiel de las instrucciones, una mejora en la preservación de referencias y atributos, y ediciones multi-identidad más controlables. Nuestros resultados destacan un camino práctico hacia la generación visual unificada escalable, y la promesa del cómputo en contexto y entrelazado como base para la creación visual de propósito general.
La gran visión de permitir una comprensión persistente y a gran escala de la geometría visual 3D se ve obstaculizada por las demandas irreconciliables de escalabilidad y estabilidad a largo plazo. Si bien modelos por lotes como VGGT logran una capacidad geométrica inspiradora, su naturaleza basada en procesamiento por lotes los hace irrelevantes para sistemas en tiempo real. Las arquitecturas de flujo continuo, aunque concebidas como la solución para operación en vivo, han demostrado ser insuficientes. Los métodos existentes o bien no logran soportar entradas de horizonte temporal verdaderamente infinito, o sufren de una deriva catastrófica en secuencias largas. Nosotros resolvemos este dilema de larga data con InfiniteVGGT, un transformador de geometría visual causal que operacionaliza el concepto de una memoria rodante mediante una caché KV acotada pero adaptativa y perpetuamente expresiva. Aprovechando esto, diseñamos una estrategia de poda, agnóstica a la atención y que no requiere entrenamiento adicional, que descarta inteligentemente la información obsoleta, "haciendo rodar" la memoria hacia adelante con cada nuevo fotograma. Totalmente compatible con FlashAttention, InfiniteVGGT finalmente alivia el compromiso, permitiendo el flujo continuo de horizonte infinito y superando a los métodos de flujo existentes en estabilidad a largo plazo. La prueba definitiva para un sistema así es su rendimiento sobre un horizonte verdaderamente infinito, una capacidad que ha sido imposible de validar rigurosamente debido a la falta de benchmarks extremadamente largos y continuos. Para abordar esta brecha crítica, presentamos el benchmark Long3D, que, por primera vez, permite una evaluación rigurosa de la estimación continua de geometría 3D en secuencias de aproximadamente 10,000 fotogramas. Esto proporciona la plataforma de evaluación definitiva para la investigación futura en comprensión de geometría 3D a largo plazo. El código está disponible en: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
Estudiamos la posibilidad de permitir que los modelos de lenguaje grandes (LLM) procesen prompts de longitud arbitraria mediante el enfoque de escalado en tiempo de inferencia. Proponemos los Modelos de Lenguaje Recursivos (RLM), una estrategia de inferencia general que trata los prompts largos como parte de un entorno externo y permite al LLM examinar, descomponer y llamarse recursivamente a sí mismo de manera programática sobre fragmentos del prompt. Encontramos que los RLM manejan exitosamente entradas hasta dos órdenes de magnitud más largas que las ventanas de contexto del modelo y, incluso para prompts más cortos, superan drásticamente la calidad de los LLM base y los andamiajes comunes de contexto largo en cuatro tareas diversas de contexto largo, manteniendo un costo por consulta comparable (o menor).
Este trabajo presenta Falcon-H1R, un modelo optimizado para el razonamiento de 7 mil millones de parámetros que establece la viabilidad de alcanzar un rendimiento competitivo en razonamiento con modelos de lenguaje pequeños (SLM, por sus siglas en inglés). Falcon-H1R destaca por su eficiencia de parámetros, igualando o superando consistentemente a los modelos de razonamiento de última generación (SOTA) que son de 2 a 7 veces más grandes en diversos benchmarks intensivos en razonamiento. Estos resultados subrayan la importancia de una cuidadosa curación de datos y estrategias de entrenamiento específicas (mediante SFT eficiente y escalado con RL) para lograr mejoras significativas de rendimiento sin aumentar el tamaño del modelo. Además, Falcon-H1R avanza los límites 3D de la eficiencia en razonamiento al combinar una inferencia más rápida (gracias a su diseño de arquitectura híbrida-paralela), eficiencia de tokens y mayor precisión. Esta combinación única convierte a Falcon-H1R-7B en una base práctica para escalar sistemas de razonamiento avanzados, particularmente en escenarios que requieren una generación extensa de cadenas de pensamiento (chain-of-thought) y escalado paralelo en tiempo de prueba. Aprovechando el enfoque DeepConf introducido recientemente, Falcon-H1R logra una eficiencia de escalado en tiempo de prueba de última generación, ofreciendo mejoras sustanciales tanto en precisión como en coste computacional. Como resultado, Falcon-H1R demuestra que los modelos compactos, mediante entrenamientos específicos y elecciones arquitectónicas adecuadas, pueden ofrecer un rendimiento de razonamiento robusto y escalable.
Presentamos Talk2Move, un marco de difusión basado en aprendizaje por refuerzo (RL) para la transformación espacial de objetos en escenas mediante instrucciones de texto. La manipulación espacial de objetos en una escena mediante lenguaje natural representa un desafío para los sistemas de generación multimodal. Si bien los métodos de manipulación existentes basados en texto pueden ajustar la apariencia o el estilo, tienen dificultades para realizar transformaciones geométricas a nivel de objeto—como trasladar, rotar o cambiar el tamaño de los objetos—debido a la escasez de supervisión apareada y a las limitaciones de la optimización a nivel de píxel. Talk2Move emplea la Optimización de Políticas Relativas de Grupo (GRPO) para explorar acciones geométricas a través de diversas simulaciones generadas a partir de imágenes de entrada y variaciones textuales ligeras, eliminando la necesidad de datos apareados costosos. Un modelo guiado por recompensas espaciales alinea las transformaciones geométricas con la descripción lingüística, mientras que la evaluación de pasos fuera de la política y el muestreo activo de pasos mejoran la eficiencia del aprendizaje al centrarse en las etapas informativas de la transformación. Además, diseñamos recompensas espaciales centradas en el objeto que evalúan directamente los comportamientos de desplazamiento, rotación y escalado, permitiendo transformaciones interpretables y coherentes. Los experimentos en benchmarks curados demuestran que Talk2Move logra transformaciones de objetos precisas, consistentes y semánticamente fieles, superando a los enfoques de edición guiada por texto existentes tanto en precisión espacial como en coherencia de la escena.
Si bien la estimación de confianza es una dirección prometedora para mitigar las alucinaciones en los Modelos de Lenguaje a Gran Escala (LLMs), la investigación actual se centra predominantemente en entornos de un solo turno. La dinámica de la confianza del modelo en conversaciones multiturno, donde el contexto se acumula y la ambigüedad se resuelve progresivamente, permanece en gran medida inexplorada. Una estimación de confianza fiable en entornos multiturno es crítica para muchas aplicaciones posteriores, como agentes autónomos y sistemas con intervención humana. Este trabajo presenta el primer estudio sistemático de la estimación de confianza en interacciones multiturno, estableciendo un marco formal de evaluación basado en dos desiderata clave: la calibración por turno y la monotonicidad de la confianza a medida que se dispone de más información. Para facilitar esto, introducimos nuevas métricas, incluyendo un Error de Calibración Esperado normalizado por longitud (InfoECE), y un nuevo paradigma de "Adivinador-Indiciador" para generar conjuntos de datos de evaluación controlados. Nuestros experimentos revelan que las técnicas de confianza ampliamente utilizadas tienen dificultades con la calibración y la monotonicidad en diálogos multiturno. Proponemos P(Suficiente), una sonda basada en logits que logra un rendimiento comparativamente mejor, aunque la tarea dista mucho de estar resuelta. Nuestro trabajo proporciona una metodología fundamental para desarrollar agentes conversacionales más fiables y dignos de confianza.
Si bien los LLM son poderosos modelos base para embeddings, su aplicación en entornos sin entrenamiento enfrenta dos desafíos estructurales: la atención causal impide que los tokens iniciales accedan al contexto posterior, y el objetivo de predicción del siguiente token sesga las representaciones hacia la generación en lugar de la compresión semántica. Para abordar estas limitaciones, proponemos KV-Embedding, un marco que activa el poder de representación latente de los LLM congelados. Nuestro método aprovecha la observación de que los estados clave-valor (KV) del token final en cada capa codifican una vista comprimida de la secuencia. Al redirigir estos estados como un prefijo antepuesto, permitimos que todos los tokens accedan al contexto a nivel de secuencia en una sola pasada hacia adelante. Para garantizar aplicabilidad independiente del modelo, introducimos una estrategia automatizada de selección de capas basada en dimensionalidad intrínseca. Las evaluaciones en MTEB con modelos base Qwen, Mistral y Llama muestran que KV-Embedding supera a los baselines existentes sin entrenamiento hasta en un 10%, manteniendo un rendimiento robusto en secuencias de hasta 4.096 tokens. Estos resultados demuestran que la manipulación de estados internos ofrece una alternativa eficiente a la modificación de entrada, y esperamos que este trabajo incentive una mayor exploración de los componentes internos de los LLM para el aprendizaje de representaciones.
Presentamos CPPO, un método de Optimización de Políticas de Percepción Contrastiva para el ajuste fino de modelos de visión y lenguaje (VLMs). Si bien el aprendizaje por refuerzo (RL) ha avanzado el razonamiento en modelos de lenguaje, extenderlo al razonamiento multimodal requiere mejorar tanto los aspectos de percepción como de razonamiento. Trabajos previos abordan este desafío principalmente con recompensas de percepción explícitas, pero separar los tokens de percepción de los tokens de razonamiento es difícil, lo que requiere LLMs adicionales, datos de verdad fundamental, una separación forzada de la percepción y el razonamiento por parte del modelo de políticas, o la aplicación indiscriminada de recompensas a todos los tokens de salida. CPPO aborda este problema detectando tokens de percepción mediante cambios de entropía en las salidas del modelo bajo imágenes de entrada perturbadas. CPPO luego extiende la función objetivo de RL con una Pérdida de Percepción Contrastiva (CPL) que impone consistencia bajo perturbaciones que preservan información y sensibilidad bajo aquellas que la eliminan. Los experimentos muestran que CPPO supera a métodos previos basados en recompensas de percepción, evitando al mismo tiempo modelos extra, haciendo el entrenamiento más eficiente y escalable.
La recuperación de mallas humanas a partir de imágenes multivista enfrenta un desafío fundamental: los conjuntos de datos del mundo real contienen anotaciones de ground-truth imperfectas que sesgan el entrenamiento de los modelos, mientras que los datos sintéticos con supervisión precisa sufren de una brecha de dominio. En este artículo, proponemos DiffProxy, un marco novedoso que genera proxies humanos consistentes en multivista para la recuperación de mallas. El elemento central de DiffProxy es aprovechar los priores generativos basados en difusión para tender un puente entre el entrenamiento sintético y la generalización en el mundo real. Sus innovaciones clave incluyen: (1) un mecanismo multi-condicional para generar proxies humanos consistentes en multivista y alineados a píxel; (2) un módulo de refinamiento de manos que incorpora prompts visuales flexibles para mejorar los detalles locales; y (3) un método de escalado en tiempo de prueba consciente de la incertidumbre que aumenta la robustez ante casos desafiantes durante la optimización. Estos diseños garantizan que el proceso de recuperación de mallas se beneficie efectivamente de la verdad de base sintética precisa y las ventajas generativas de la pipeline basada en difusión. Entrenado completamente con datos sintéticos, DiffProxy logra un rendimiento de vanguardia en cinco benchmarks del mundo real, demostrando una fuerte generalización zero-shot, particularmente en escenarios desafiantes con oclusiones y vistas parciales. Página del proyecto: https://wrk226.github.io/DiffProxy.html
A medida que los modelos de lenguaje a gran escala se despliegan en aplicaciones empresariales de alto riesgo, desde la salud hasta las finanzas, garantizar el cumplimiento de políticas específicas de cada organización se ha vuelto esencial. Sin embargo, las evaluaciones de seguridad existentes se centran exclusivamente en daños universales. Presentamos COMPASS (Evaluación de Alineación con Políticas de Empresa/Organización), el primer marco sistemático para evaluar si los LLM cumplen con las políticas de listas de permisos y listas de prohibiciones organizacionales. Aplicamos COMPASS a ocho escenarios industriales diversos, generando y validando 5.920 consultas que prueban tanto el cumplimiento rutinario como la robustez adversarial mediante casos límite diseñados estratégicamente. Al evaluar siete modelos de última generación, descubrimos una asimetría fundamental: los modelos manejan de manera confiable las solicitudes legítimas (>95% de precisión) pero fallan catastróficamente al hacer cumplir las prohibiciones, rechazando solo entre el 13% y el 40% de las violaciones adversariales de las listas de prohibiciones. Estos resultados demuestran que los LLM actuales carecen de la robustez requerida para implementaciones críticas de políticas, estableciendo a COMPASS como un marco de evaluación esencial para la seguridad de la IA organizacional.
La segmentación semántica de imágenes de teledetección (RS) semi-supervisada ofrece una solución prometedora para aliviar la carga de la anotación exhaustiva, pero se enfrenta fundamentalmente a la deriva de las pseudoetiquetas, un fenómeno en el que el sesgo de confirmación conduce a la acumulación de errores durante el entrenamiento. En este trabajo, proponemos Co2S, un marco de segmentación RS semi-supervisado estable que fusiona de forma sinérgica conocimientos previos de modelos de visión y lenguaje (VLM) y modelos auto-supervisados. Específicamente, construimos una arquitectura dual heterogénea que comprende dos modelos de visión base distintos basados en ViT, inicializados con CLIP y DINOv3 preentrenados, para mitigar la acumulación de errores y la deriva de pseudoetiquetas. Para incorporar efectivamente estos conocimientos previos distintos, se introduce un mecanismo de co-guiado semántico explícito-implícito que utiliza embeddings de texto y consultas aprendibles para proporcionar una guía a nivel de clase explícita e implícita, respectivamente, mejorando así conjuntamente la consistencia semántica. Además, se desarrolla una estrategia de fusión colaborativa de características globales-locales para fusionar efectivamente la información contextual global capturada por CLIP con los detalles locales producidos por DINOv3, permitiendo que el modelo genere resultados de segmentación altamente precisos. Experimentos exhaustivos en seis conjuntos de datos populares demuestran la superioridad del método propuesto, que logra consistentemente un rendimiento líder en diversos protocolos de división y escenarios diversos. La página del proyecto está disponible en https://xavierjiezou.github.io/Co2S/.
Presentamos SWE-Lego, una receta de ajuste fino supervisado (SFT) diseñada para alcanzar un rendimiento de vanguardia en la resolución de incidencias de ingeniería de software (SWE). A diferencia de los métodos predominantes que dependen de paradigmas de entrenamiento complejos (por ejemplo, entrenamiento intermedio, SFT, aprendizaje por refuerzo y sus combinaciones), exploramos cómo llevar al límite un enfoque ligero basado únicamente en SFT para tareas de SWE. SWE-Lego comprende tres bloques de construcción fundamentales, cuyos hallazgos clave se resumen a continuación: 1) el conjunto de datos SWE-Lego, una colección de 32k instancias de tareas de alta calidad y 18k trayectorias validadas, que combina datos reales y sintéticos para complementarse mutuamente en calidad y cantidad; 2) un procedimiento de SFT refinado con enmascaramiento de errores y un currículum basado en la dificultad, que mejora demostrablemente la calidad de las acciones y el rendimiento general. Los resultados empíricos muestran que solo con estos dos bloques de construcción, el SFT puede llevar a los modelos SWE-Lego a un rendimiento de vanguardia entre los modelos de código abierto de tamaño comparable en SWE-bench Verified: SWE-Lego-Qwen3-8B alcanza un 42.2%, y SWE-Lego-Qwen3-32B logra un 52.6%. 3) Evaluamos y mejoramos adicionalmente el escalado en tiempo de prueba (TTS) construido sobre la base del SFT. Basándose en un verificador bien entrenado, los modelos SWE-Lego pueden potenciarse significativamente--por ejemplo, de 42.2% a 49.6% y de 52.6% a 58.8% bajo TTS@16 para los modelos de 8B y 32B, respectivamente.
La evaluación de la novedad es crucial pero desafiante en la revisión por pares, ya que los revisores deben evaluar los envíos frente a una literatura vasta y en rápida evolución. Este informe presenta OpenNovelty, un sistema agéntico basado en LLM para un análisis de novedad transparente y basado en evidencia. El sistema opera a través de cuatro fases: (1) extraer la tarea central y las afirmaciones de contribución para generar consultas de recuperación; (2) recuperar trabajos previos relevantes basándose en las consultas extraídas mediante un motor de búsqueda semántica; (3) construir una taxonomía jerárquica del trabajo relacionado con la tarea central y realizar comparaciones de texto completo a nivel de contribución contra cada contribución; y (4) sintetizar todos los análisis en un informe de novedad estructurado con citas explícitas y fragmentos de evidencia. A diferencia de los enfoques ingenuos basados en LLM, OpenNovelty fundamenta todas las evaluaciones en artículos reales recuperados, garantizando juicios verificables. Desplegamos nuestro sistema en más de 500 envíos a ICLR 2026, con todos los informes disponibles públicamente en nuestro sitio web, y el análisis preliminar sugiere que puede identificar trabajos previos relevantes, incluyendo artículos estrechamente relacionados que los autores podrían pasar por alto. OpenNovelty tiene como objetivo empoderar a la comunidad investigadora con una herramienta escalable que promueva una revisión por pares justa, consistente y respaldada por evidencia.
Introducimos la materiomúsica como un marco generativo que vincula las estructuras jerárquicas de la materia con la lógica compositiva de la música. A través de proteínas, telarañas y dinámicas de llama, los principios vibracionales y arquitectónicos reaparecen como jerarquías tonales, progresiones armónicas y formas musicales de largo alcance. Mediante mapeos reversibles, desde espectros moleculares a tonos musicales y desde redes tridimensionales a instrumentos ejecutables, mostramos cómo el sonido funciona como una sonda científica, una inversión epistémica donde el escuchar se convierte en un modo de ver y la composición musical se transforma en un plano para la materia. Estos mapeos excavan el tiempo profundo: patrones originados en vibraciones moleculares de femtosegundos o en historias evolutivas de mil millones de años se vuelven audibles. Postulamos que la novedad en la ciencia y el arte emerge cuando las restricciones no pueden satisfacerse dentro de los grados de libertad existentes, forzando la expansión del espacio de configuraciones viables. La imperfección selectiva proporciona el mecanismo que restablece el equilibrio entre coherencia y adaptabilidad. El apoyo cuantitativo proviene de la enumeración exhaustiva de las 2^12 escalas musicales, revelando que los sistemas culturalmente significativos se agrupan en un corredor de entropía media y defecto medio, paralelo directo del óptimo de Hall-Petch donde densidades de defectos intermedias maximizan la resistencia material. La iteración de estos mapeos crea colisiones productivas entre la creatividad humana y la física, generando nueva información a medida que las estructuras musicales encuentran restricciones evolutivas. Mostramos cómo los modelos de IA basados en enjambres componen música que exhibe firmas estructurales humanas, como conectividad de mundo pequeño, integración modular y coherencia de largo alcance, sugiriendo una ruta más allá de la interpolación hacia la invención. Demostramos que la ciencia y el arte son actos generativos de construcción de mundos bajo restricción, con la vibración como una gramática compartida que organiza la estructura a través de las escalas.
La segmentación de imágenes médicas con múltiples anotadores es un problema de investigación importante, pero requiere conjuntos de datos anotados que son costosos de recopilar. La imagen dermatoscópica de lesiones cutáneas permite a expertos humanos y sistemas de IA observar estructuras morfológicas que de otro modo no serían discernibles en fotografías clínicas regulares. Sin embargo, actualmente no existen conjuntos de datos de segmentación de lesiones cutáneas (SLC) con múltiples anotadores, a gran escala y de acceso público, que incluyan las anotaciones individuales para imágenes dermatoscópicas de lesiones cutáneas. Presentamos ISIC MultiAnnot++, un conjunto de datos público y extenso de segmentación de lesiones cutáneas con múltiples anotadores para imágenes del Archivo ISIC. El conjunto de datos final contiene 17.684 máscaras de segmentación que abarcan 14.967 imágenes dermatoscópicas, donde 2.394 imágenes dermatoscópicas tienen entre 2 y 5 segmentaciones por imagen, lo que lo convierte en el conjunto de datos de SLC público más grande disponible. Además, se incluyen metadatos sobre la segmentación, como el nivel de habilidad de los anotadores y la herramienta de segmentación utilizada, lo que permite investigar temas como el modelado de preferencias específicas del anotador para la segmentación y el análisis de metadatos del anotador. Proporcionamos un análisis de las características de este conjunto de datos, particiones de datos curadas y máscaras de segmentación por consenso.
Los Modelos de Fundación Geoespacial (GFM) han demostrado ser eficaces en diversas aplicaciones posteriores, incluyendo tareas de segmentación semántica, clasificación y regresión. Sin embargo, en el caso de la cartografía de inundaciones utilizando el conjunto de datos Sen1Flood11 como tarea posterior, los GFM tienen dificultades para superar a la U-Net de referencia, lo que pone de manifiesto la limitación del modelo para capturar matices locales críticos. Para abordar esto, presentamos Prithvi-Complementary Adaptive Fusion Encoder (CAFE), que integra el codificador preentrenado del GFM Prithvi con una rama residual de CNN paralela mejorada por Módulos de Atención Convolucional (CAM). Prithvi-CAFE permite un ajuste fino rápido y eficiente mediante adaptadores en Prithvi y realiza una fusión multiescala y multinivel con las características de la CNN, capturando detalles locales críticos mientras preserva las dependencias de largo alcance. Logramos resultados de vanguardia en dos conjuntos de datos exhaustivos de cartografía de inundaciones: Sen1Flood11 y FloodPlanet. En los datos de prueba de Sen1Flood11, Prithvi-CAFE (IoU 83.41) supera al Prithvi original (IoU 82.50) y a otros GFM principales (TerraMind 82.90, DOFA 81.54, spectralGPT: 81.02). La mejora es aún más pronunciada en el sitio de prueba retenido, donde Prithvi-CAFE alcanza un IoU de 81.37 en comparación con la U-Net de referencia (70.57) y el Prithvi original (72.42). En FloodPlanet, Prithvi-CAFE también supera a la U-Net de referencia y a otros GFM, logrando un IoU de 64.70 frente a U-Net (60.14), Terramind (62.33), DOFA (59.15) y Prithvi 2.0 (61.91). Nuestro Prithvi-CAFE, propuesto como una solución simple pero efectiva, demuestra un gran potencial para mejorar las tareas de segmentación donde los datos multicanal y multimodales proporcionan información complementaria y los detalles locales son críticos. El código se ha publicado en https://github.com/Sk-2103/Prithvi-CAFE.
A medida que los agentes de modelos de lenguaje grande (LLM) asumen cada vez más la toma de decisiones autónomas de alto riesgo, la transparencia de sus procesos de razonamiento se ha convertido en una preocupación crítica de seguridad. Si bien el prompting de Cadena de Pensamiento (CoT) permite a los agentes generar trazas de razonamiento legibles para humanos, no está claro si estas trazas son impulsores generativos fieles de la salida del modelo o simplemente racionalizaciones *post-hoc*. Presentamos el Proyecto Ariadna, un novedoso marco de XAI que utiliza Modelos Causales Estructurales (SCM) y lógica contrafáctica para auditar la integridad causal del razonamiento agéntico. A diferencia de los métodos de interpretabilidad existentes que se basan en la similitud textual superficial, el Proyecto Ariadna realiza intervenciones duras (*do-calculus*) en los nodos intermedios de razonamiento —invirtiendo sistemáticamente la lógica, negando premisas y revirtiendo afirmaciones factuales— para medir la Sensibilidad Causal (φ) de la respuesta final. Nuestra evaluación empírica de modelos de última generación revela una Brecha de Fidelidad persistente. Definimos y detectamos un modo de fallo generalizado denominado Desacoplamiento Causal, donde los agentes exhiben una densidad de violación (ρ) de hasta 0.77 en dominios factuales y científicos. En estos casos, los agentes llegan a conclusiones idénticas a pesar de una lógica interna contradictoria, lo que demuestra que sus trazas de razonamiento funcionan como un "Teatro del Razonamiento" mientras que la toma de decisiones está gobernada por *priors* paramétricos latentes. Nuestros hallazgos sugieren que las arquitecturas agénticas actuales son inherentemente propensas a explicaciones infieles, y proponemos la Puntuación Ariadna como un nuevo punto de referencia para alinear la lógica declarada con la acción del modelo.
Los modelos de difusión de texto a imagen pueden generar contenido dañino o protegido por derechos de autor, lo que motiva la investigación sobre el borrado de conceptos. Sin embargo, los enfoques existentes se centran principalmente en borrar conceptos de los textos de entrada, pasando por alto otras modalidades de entrada que son cada vez más críticas en aplicaciones del mundo real, como la edición de imágenes y la generación personalizada. Estas modalidades pueden convertirse en superficies de ataque, donde los conceptos borrados resurgen a pesar de las defensas. Para cerrar esta brecha, presentamos M-ErasureBench, un novedoso marco de evaluación multimodal que evalúa sistemáticamente los métodos de borrado de conceptos en tres modalidades de entrada: textos de entrada, *embeddings* aprendidos y latentes invertidos. Para los dos últimos, evaluamos tanto el acceso de caja blanca como de caja negra, dando lugar a cinco escenarios de evaluación. Nuestro análisis muestra que los métodos existentes logran un fuerte rendimiento de borrado contra textos de entrada, pero fracasan en gran medida con *embeddings* aprendidos y latentes invertidos, con una Tasa de Reproducción de Conceptos (CRR) superior al 90% en el entorno de caja blanca. Para abordar estas vulnerabilidades, proponemos IRECE (Mejora de Robustez en Tiempo de Inferencia para el Borrado de Conceptos), un módulo *plug-and-play* que localiza conceptos objetivo mediante atención cruzada y perturba los latentes asociados durante la eliminación de ruido. Los experimentos demuestran que IRECE restaura consistentemente la robustez, reduciendo la CRR hasta en un 40% en el escenario más desafiante de inversión latente de caja blanca, preservando la calidad visual. Hasta donde sabemos, M-ErasureBench proporciona el primer punto de referencia integral para el borrado de conceptos más allá de los textos de entrada. Junto con IRECE, nuestro benchmark ofrece salvaguardas prácticas para construir modelos generativos de protección más confiables.