Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Segment Anything Model (SAM) 3, un modelo unificado que detecta, segmenta y rastrea objetos en imágenes y vídeos basándose en *prompts* conceptuales, que definimos como frases nominales breves (por ejemplo, "autobús escolar amarillo"), ejemplares de imagen o una combinación de ambos. La Segmentación de Conceptos por *Prompt* (PCS, por sus siglas en inglés) toma dichos *prompts* y devuelve máscaras de segmentación e identidades únicas para todas las instancias de objetos coincidentes. Para impulsar la PCS, hemos construido un motor de datos escalable que produce un conjunto de datos de alta calidad con 4 millones de etiquetas conceptuales únicas, incluyendo ejemplos negativos difíciles, tanto en imágenes como en vídeos. Nuestro modelo consta de un detector a nivel de imagen y un rastreador de vídeo basado en memoria que comparten una única red troncal. El reconocimiento y la localización se desacoplan mediante una cabeza de presencia, lo que aumenta la precisión de la detección. SAM 3 duplica la precisión de los sistemas existentes tanto en PCS de imágenes como de vídeos, y mejora las capacidades anteriores de SAM en tareas de segmentación visual. Publicamos SAM 3 como código abierto junto con nuestro nuevo benchmark Segment Anything with Concepts (SA-Co) para la segmentación de conceptos por *prompt*.
La investigación actual sobre el razonamiento visual agente permite una comprensión multimodal profunda, pero se centra principalmente en herramientas de manipulación de imágenes, dejando un vacío hacia modelos agentes de propósito más general. En este trabajo, revisitamos la tarea de geolocalización, que requiere no solo una base visual matizada sino también búsquedas web para confirmar o refinar hipótesis durante el razonamiento. Dado que los puntos de referencia existentes en geolocalización no satisfacen la necesidad de imágenes de alta resolución y el desafío de localización para un razonamiento agente profundo, hemos creado GeoBench, un benchmark que incluye fotos y panorámicas de todo el mundo, junto con un subconjunto de imágenes satelitales de diferentes ciudades para evaluar rigurosamente la capacidad de geolocalización de los modelos agentes. También proponemos GeoVista, un modelo agente que integra perfectamente la invocación de herramientas dentro del bucle de razonamiento, incluyendo una herramienta de zoom en la imagen para ampliar regiones de interés y una herramienta de búsqueda web para recuperar información web relacionada. Desarrollamos una canalización de entrenamiento completa para ello, que incluye una etapa inicial de ajuste fino supervisado (SFT) para aprender patrones de razonamiento y conocimientos previos sobre el uso de herramientas, seguida de una etapa de aprendizaje por refuerzo (RL) para mejorar aún más la capacidad de razonamiento. Adoptamos una recompensa jerárquica para aprovechar la información geográfica multinivel y mejorar el rendimiento general de la geolocalización. Los resultados experimentales muestran que GeoVista supera ampliamente a otros modelos agentes de código abierto en la tarea de geolocalización y logra un rendimiento comparable a modelos de código cerrado como Gemini-2.5-flash y GPT-5 en la mayoría de las métricas.
La dimensión intrínseca (DI) es una herramienta importante en el análisis moderno de LLM, fundamentando estudios sobre dinámicas de entrenamiento, comportamiento de escalado y estructura de conjuntos de datos, aunque sus determinantes textuales siguen estando poco explorados. Presentamos el primer estudio exhaustivo que fundamenta la DI en propiedades de texto interpretables mediante análisis de codificadores cruzados, características lingüísticas y autoencoders dispersos (SAE). En este trabajo, establecemos tres hallazgos clave. Primero, la DI es complementaria a las métricas basadas en entropía: tras controlar la longitud, ambas no están correlacionadas, capturando la DI una complejidad geométrica ortogonal a la calidad de la predicción. Segundo, la DI exhibe una estratificación robusta por géneros: la prosa científica muestra DI baja (~8), el contenido enciclopédico DI media (~9) y la escritura creativa/de opinión DI alta (~10.5) en todos los modelos evaluados. Esto revela que los LLM contemporáneos encuentran el texto científico "representacionalmente simple", mientras que la ficción requiere grados de libertad adicionales. Tercero, utilizando SAE, identificamos características causales: las señales científicas (tono formal, plantillas de informe, estadísticas) reducen la DI; las señales humanizadas (personalización, emoción, narrativa) la aumentan. Los experimentos de direccionamiento confirman que estos efectos son causales. Por lo tanto, para los modelos contemporáneos, la escritura científica parece comparativamente "fácil", mientras que la ficción, la opinión y el afecto añaden grados de libertad representacionales. Nuestro análisis multifacético proporciona una guía práctica para el uso adecuado de la DI y la interpretación sólida de los resultados basados en DI.
Los avances recientes en modelos de razonamiento a gran escala han impulsado un creciente interés en extender dichas capacidades a dominios multimodales. Sin embargo, a pesar del progreso notable en el razonamiento visual, la falta de estrategias transparentes y reproducibles para la curación de datos y el entrenamiento sigue siendo una barrera importante para la investigación escalable. En este trabajo, presentamos OpenMMReasoner, una receta completamente transparente de dos etapas para el razonamiento multimodal que abarca el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo (RL). En la etapa de SFT, construimos un conjunto de datos de arranque en frío de 874K muestras con una validación rigurosa paso a paso, proporcionando una base sólida para las capacidades de razonamiento. La etapa posterior de RL aprovecha un conjunto de datos de 74K muestras en diversos dominios para afinar y estabilizar aún más estas habilidades, resultando en un proceso de aprendizaje más robusto y eficiente. Evaluaciones extensas demuestran que nuestra receta de entrenamiento no solo supera líneas de base sólidas, sino que también resalta el papel crítico de la calidad de los datos y el diseño del entrenamiento en el desempeño del razonamiento multimodal. Notablemente, nuestro método logra una mejora del 11.6% sobre la línea de base Qwen2.5-VL-7B-Instruct en nueve benchmarks de razonamiento multimodal, estableciendo una base empírica sólida para futuras investigaciones a gran escala en razonamiento multimodal. Hemos liberado todo nuestro código, pipeline y datos en https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
Presentamos RynnVLA-002, un modelo unificado de Visión-Lenguaje-Acción (VLA) y modelo del mundo. El modelo del mundo aprovecha las entradas de acción y visuales para predecir estados de imagen futuros, aprendiendo la física subyacente del entorno para refinar la generación de acciones. Por el contrario, el modelo VLA produce acciones subsiguientes a partir de observaciones de imagen, mejorando la comprensión visual y apoyando la generación de imágenes del modelo del mundo. El marco unificado de RynnVLA-002 permite el aprendizaje conjunto de la dinámica ambiental y la planificación de acciones. Nuestros experimentos muestran que RynnVLA-002 supera a los modelos individuales VLA y de mundo, demostrando su mejora mutua. Evaluamos RynnVLA-002 tanto en tareas de simulación como en tareas de robots del mundo real. RynnVLA-002 alcanza una tasa de éxito del 97.4% en el benchmark de simulación LIBERO sin preentrenamiento, mientras que en los experimentos reales de LeRobot, su modelo del mundo integrado aumenta la tasa de éxito general en un 50%.
Los recientes avances en agentes impulsados por LLM han demostrado un potencial significativo para generar respuestas similares a las humanas; sin embargo, siguen enfrentando desafíos para mantener interacciones a largo plazo en entornos complejos, principalmente debido a limitaciones en la consistencia contextual y la personalización dinámica. Los sistemas de memoria existentes a menudo dependen de agrupaciones semánticas previas a la recuperación, lo que puede pasar por alto información crítica del usuario semánticamente irrelevante e introducir ruido en la recuperación. En este informe, proponemos el diseño inicial de O-Mem, un novedoso marco de memoria basado en la creación activa de perfiles de usuario que extrae y actualiza dinámicamente las características del usuario y los registros de eventos a partir de sus interacciones proactivas con los agentes. O-Mem admite la recuperación jerárquica de atributos de personalidad y contexto relacionado con temas, permitiendo respuestas personalizadas más adaptativas y coherentes. O-Mem alcanza un 51,67% en el benchmark público LoCoMo, una mejora de casi el 3% sobre LangMem, el anterior estado del arte, y logra un 62,99% en PERSONAMEM, una mejora del 3,5% sobre A-Mem, el anterior estado del arte. O-Mem también mejora la eficiencia en el tiempo de respuesta de los tokens y de la interacción en comparación con los marcos de memoria anteriores. Nuestro trabajo abre direcciones prometedoras para desarrollar asistentes de IA personalizados eficientes y similares a los humanos en el futuro.
Comprender videos ricos en texto requiere leer pequeñas pistas textuales transitorias que a menudo exigen una inspección repetida. Sin embargo, la mayoría de los modelos de QA (Question Answering) para videos se basan en una percepción de una sola pasada sobre fotogramas fijos, lo que conduce a alucinaciones y fallos en evidencias de grano fino. Inspirados en cómo los humanos pausan, hacen zoom y releen regiones críticas, presentamos Video-R4 (Reforzando el Razonamiento en Videos Ricos en Texto con Rumia Visual), un Modelo de Lenguaje Multimodal (LMM) para razonamiento en videos que realiza una rumia visual: seleccionando iterativamente fotogramas, haciendo zoom en regiones informativas, recodificando los píxeles recuperados y actualizando su estado de razonamiento. Construimos dos conjuntos de datos con trayectorias de rumia ejecutables: Video-R4-CoT-17k para práctica supervisada y Video-R4-RL-30k para aprendizaje por refuerzo. Proponemos un marco de aprendizaje de rumia multi-etapa que ajusta progresivamente un LMM de 7B para aprender operaciones visuales atómicas y de mezcla mediante Fine-Tuning Supervisado (SFT) y Aprendizaje por Refuerzo basado en GRPO. Video-R4-7B logra resultados state-of-the-art en M4-ViteVQA y además se generaliza a QA de documentos multipágina, QA de diapositivas y QA genérico de videos, demostrando que la rumia iterativa es un paradigma efectivo para el razonamiento multimodal anclado en píxeles.
Presentamos WorldGen, un sistema que permite la creación automática de mundos 3D interactivos a gran escala directamente a partir de instrucciones de texto. Nuestro enfoque transforma descripciones en lenguaje natural en entornos transitables y completamente texturizados que pueden explorarse o editarse inmediatamente dentro de motores de juego estándar. Al combinar el razonamiento para la disposición de escenas impulsado por LLM, la generación procedural, la generación 3D basada en difusión y la descomposición de escenas con conciencia de objetos, WorldGen salva la brecha entre la intención creativa y los espacios virtuales funcionales, permitiendo a los creadores diseñar mundos coherentes y navegables sin necesidad de modelado manual o experiencia especializada en 3D. El sistema es completamente modular y admite un control detallado sobre el diseño, la escala y el estilo, produciendo mundos geométricamente consistentes, visualmente ricos y eficientes para renderizar en tiempo real. Este trabajo representa un paso hacia la construcción de mundos generativos accesibles a gran escala, avanzando la frontera de la IA generativa 3D para aplicaciones en juegos, simulaciones y entornos sociales inmersivos.
Este estudio presenta PARROT (Persuasión y Evaluación de la Robustez del Acuerdo sobre la Verdad de la Salida), un marco centrado en la robustez diseñado para medir la degradación en la precisión que ocurre bajo presión social ejercida sobre los usuarios a través de la autoridad y la persuasión en los grandes modelos de lenguaje (LLM), el fenómeno de la sicofancia (conformidad excesiva). PARROT (i) aísla los efectos causales comparando la versión neutral de una misma pregunta con una versión autoritativamente falsa mediante una evaluación de doble ciego, (ii) cuantifica los cambios en la confianza hacia las respuestas correctas y las falsas impuestas utilizando un seguimiento de la calibración basado en verosimilitud logarítmica, y (iii) clasifica sistemáticamente los modos de fallo (por ejemplo, correcto robusto, acuerdo sicofántico, error reforzado, error obstinado, autocorrección, etc.) utilizando una taxonomía conductual de ocho estados. Evaluamos 22 modelos utilizando 1.302 preguntas de opción múltiple estilo MMLU en 13 dominios y plantillas de autoridad específicas de dominio. Los hallazgos muestran una marcada heterogeneidad: los modelos avanzados (por ejemplo, GPT-5, GPT-4.1, Claude Sonnet 4.5) exhiben "tasas de seguimiento" bajas (≤ 11%, GPT-5: 4%) y una pérdida de precisión mínima, mientras que los modelos más antiguos/pequeños muestran un colapso epistémico severo (GPT-4: 80%, Qwen 2.5-1.5B: 94%). El peligro no se limita a los cambios en la respuesta; los modelos débiles reducen la confianza en la respuesta correcta mientras aumentan la confianza en la respuesta incorrecta impuesta. Si bien el derecho internacional y el conocimiento global a nivel de dominio exhiben una alta fragilidad, las matemáticas elementales son relativamente resilientes. En consecuencia, sostenemos que el objetivo de la "resistencia a la presión de sobreajuste" debe abordarse como un objetivo principal junto con la precisión, la evitación de daños y la privacidad para un despliegue seguro en el mundo real.
Los tutoriales de pintura paso a paso son fundamentales para aprender técnicas artísticas, pero los recursos de video existentes (por ejemplo, YouTube) carecen de interactividad y personalización. Si bien los modelos generativos recientes han avanzado en la síntesis de imágenes artísticas, tienen dificultades para generalizar entre diferentes medios y a menudo muestran inconsistencias temporales o estructurales, lo que impide la reproducción fiel de los flujos de trabajo creativos humanos. Para abordar esto, proponemos un marco unificado para la generación de procesos de pintura en múltiples medios con un mecanismo de control de estilo impulsado por la semántica que incrusta múltiples medios en el espacio condicional de modelos de difusión y utiliza una aumentación de estilo intermedios. Esto permite una evolución de textura consistente y una transferencia de proceso entre estilos. Una estrategia de entrenamiento de pintura inversa asegura además una generación fluida y alineada con el proceso humano. También construimos un conjunto de datos a gran escala de procesos de pintura reales y evaluamos la consistencia intermedios, la coherencia temporal y la fidelidad de la imagen final, logrando resultados sólidos en las métricas LPIPS, DINO y CLIP. Finalmente, nuestra curva de Perfil de Distancia Perceptual (PDP) modela cuantitativamente la secuencia creativa, es decir, la composición, el bloqueo de color y el refinamiento de detalles, reflejando la progresión artística humana.
A pesar del notable éxito de los Modelos de Visión y Lenguaje (VLMs), su rendimiento en una variedad de tareas visuales complejas a menudo se ve limitado por un "cuello de botella en el procesamiento visual": una propensión a perder la conexión con la evidencia visual y mostrar un déficit en la experiencia visual contextualizada durante la generación prolongada. Inspirándonos en la teoría cognitiva de la memoria humana, que distingue entre la memoria a corto plazo de dominio visual y la memoria a largo plazo de dominio semántico, proponemos VisMem, un marco cognitivamente alineado que dota a los VLMs de memorias visuales latentes dinámicas: un módulo a corto plazo para la retención perceptual detallada y un módulo a largo plazo para la consolidación semántica abstracta. Estas memorias se invocan de manera fluida durante la inferencia, permitiendo a los VLMs mantener tanto la fidelidad perceptual como la coherencia semántica a lo largo del pensamiento y la generación. Experimentos exhaustivos en diversos benchmarks visuales de comprensión, razonamiento y generación revelan que VisMem proporciona una mejora significativa en el rendimiento promedio de un 11.8% respecto al modelo básico y supera a todas las alternativas, estableciendo un nuevo paradigma para la mejora de la memoria en el espacio latente. El código estará disponible en: https://github.com/YU-deep/VisMem.git.
Los recientes avances en modelos Visión-Lenguaje-Acción (VLA) demuestran que las señales visuales pueden complementar eficazmente las supervisiones de acciones dispersas. Sin embargo, permitir que los VLA predigan directamente estados visuales de alta dimensión puede distribuir la capacidad del modelo e incurrir en costos de entrenamiento prohibitivos, mientras que comprimir los estados visuales en señales de supervisión más compactas inevitablemente genera cuellos de botella de información. Además, los métodos existentes a menudo adolecen de capacidades deficientes de comprensión y razonamiento debido al descuido de la supervisión lingüística. Este artículo presenta Mantis, un marco novedoso que presenta una Previsión Visual Disociada (DVF) para abordar estos problemas. Específicamente, Mantis disocia la predicción de previsión visual del modelo principal mediante la combinación de meta-queries y una cabeza de Transformer de Difusión (DiT). Al proporcionar el estado visual actual al DiT a través de una conexión residual, un objetivo simple de predicción del siguiente estado permite que las meta-queries capturen automáticamente las acciones latentes que delinean la trayectoria visual, potenciando así el aprendizaje de acciones explícitas. La disociación reduce la carga del modelo VLA principal, permitiéndole mantener capacidades de comprensión y razonamiento mediante supervisión lingüística. Empíricamente, tras un preentrenamiento con videos de manipulaciones humanas, demostraciones robóticas y pares imagen-texto, Mantis logra una tasa de éxito del 96.7% en el benchmark LIBERO después del ajuste fino, superando a líneas base potentes y exhibiendo una alta velocidad de convergencia. Las evaluaciones en el mundo real muestran que Mantis supera a π_{0.5}, un modelo VLA de código abierto líder, particularmente en capacidad de seguimiento de instrucciones, generalización a instrucciones no vistas y habilidad de razonamiento. Se publican el código y los pesos para apoyar a la comunidad de código abierto.
Abordamos la tarea de edición de imágenes multivista a partir de entradas dispersas, donde las entradas pueden verse como una mezcla de imágenes que capturan la escena desde diferentes puntos de vista. El objetivo es modificar la escena según una instrucción textual manteniendo la coherencia entre todas las vistas. Los métodos existentes, basados en campos neuronales por escena o mecanismos de atención temporal, tienen dificultades en este escenario, produciendo a menudo artefactos y ediciones incoherentes. Proponemos InstructMix2Mix (I-Mix2Mix), un marco que destila las capacidades de edición de un modelo de difusión 2D en un modelo de difusión multivista preentrenado, aprovechando su conocimiento previo 3D basado en datos para la coherencia cruzada entre vistas. Una contribución clave es reemplazar el consolidador de campo neuronal convencional en el Muestreo por Destilación de Puntuaciones (SDS) con un estudiante de difusión multivista, lo que requiere adaptaciones novedosas: actualizaciones incrementales del estudiante a lo largo de los pasos temporales, un programador de ruido especializado para el profesor para evitar la degeneración, y una modificación de la atención que mejora la coherencia cruzada entre vistas sin coste adicional. Los experimentos demuestran que I-Mix2Mix mejora significativamente la coherencia multivista manteniendo una alta calidad de edición por fotograma.
La ampliación de modelos multimodales ha permitido avances notables en comprensión y razonamiento visual, pero las demandas prácticas exigen sistemas más pequeños y eficientes. En este trabajo, realizamos un análisis sistemático de la reducción de inteligencia en modelos multimodales, examinando cómo la capacidad reducida de los modelos de lenguaje grandes (LLM) afecta las capacidades multimodales. Nuestros hallazgos iniciales revelan una tendencia interesante: la reducción de los LLM afecta desproporcionadamente a las capacidades visuales, en lugar de a las habilidades heredadas del LLM. Posteriormente, examinamos si esta disminución refleja principalmente el declive esperado en el razonamiento visual o una pérdida más fundamental de las habilidades perceptivas. Al aislar el efecto de la reducción del LLM en la percepción, encontramos que el rendimiento aún cae abruptamente, a menudo igualando o superando el impacto en el razonamiento. Para abordar este cuello de botella, introducimos el ajuste de extracción visual, que entrena explícitamente al modelo para extraer detalles visuales relevantes para la instrucción de manera consistente entre tareas. Con estos detalles visuales extraídos, aplicamos un razonamiento paso a paso para generar respuestas. En conjunto, estos componentes forman nuestro enfoque Extraer+Pensar, estableciendo un nuevo estándar de eficiencia y rendimiento en este ámbito.
La modelización de secuencias genómicas enfrenta dos desafíos no resueltos: la densidad de información varía ampliamente en diferentes regiones, mientras que no existe una unidad de vocabulario mínima claramente definida. Al depender de las cuatro bases primitivas o de tokenizadores de ADN diseñados independientemente, los enfoques existentes con pre-entrenamiento basado en modelado de lenguaje enmascarado ingenuo a menudo fallan en adaptarse a las complejidades variables de las secuencias genómicas. Aprovechando las técnicas de Fusión de Tokens, este artículo introduce una arquitectura jerárquica que optimiza conjuntamente un tokenizador genómico dinámico y Transformers latentes con tareas de pre-entrenamiento conscientes del contexto. En cuanto a las estructuras de red, el módulo de tokenización fragmenta automáticamente las bases adyacentes en palabras apilando múltiples capas de bloques diferenciables de fusión de tokens con restricciones de ventana local; luego, un Codificador Latente captura el contexto global de estas palabras fusionadas mediante bloques de atención completa. Empleando simétricamente un Decodificador Latente y un Decodificador Local, MergeDNA aprende con dos tareas de pre-entrenamiento: la Reconstrucción de Tokens Fusionados entrena simultáneamente el módulo de tokenización dinámica y filtra adaptativamente tokens importantes, mientras que el Modelado Adaptativo de Tokens Enmascarados aprende a predecir estos tokens filtrados para capturar contenidos informativos. Experimentos exhaustivos demuestran que MergeDNA logra un rendimiento superior en tres benchmarks populares de ADN y varias tareas multi-ómicas con evaluación fine-tuning o zero-shot, superando a métodos de tokenización típicos y a modelos fundacionales de ADN a gran escala.
Los modelos visión-lenguaje-acción (VLA) muestran potencial para tareas robóticas generales, pero siguen presentando desafíos en la manipulación espacio-temporalmente coherente, la cual requiere representaciones de grano fino. Típicamente, los métodos existentes incrustan posiciones 3D en representaciones visuales para mejorar la precisión espacial de las acciones. Sin embargo, estos métodos luchan por lograr un control temporalmente coherente sobre la ejecución de acciones. En este trabajo, proponemos VLA-4D, un modelo VLA general con conciencia 4D para la manipulación robótica espacio-temporalmente coherente. Nuestro modelo se guía por dos diseños clave: 1) Representación visual consciente de 4D. Extraemos características visuales, incrustamos tiempo 1D en posiciones 3D para obtener incrustaciones 4D, y las fusionamos en una representación visual unificada mediante un mecanismo de atención cruzada. 2) Representación de acción espacio-temporal. Extendemos las representaciones de acción espacial convencionales con información temporal para permitir la planificación espacio-temporal, y alineamos las representaciones multimodales en el LLM para la predicción de acciones espacio-temporales. Dentro de este marco unificado, las representaciones visuales y de acción diseñadas hacen conjuntamente que la manipulación robótica sea espacialmente suave y temporalmente coherente. Además, extendemos el conjunto de datos VLA con anotaciones de acción temporal para el ajuste fino de nuestro modelo. Se han realizado extensos experimentos para verificar la superioridad de nuestro método en diferentes tareas de manipulación robótica.
La revisión por pares es un pilar fundamental de la publicación científica, incluso en conferencias de primer nivel en aprendizaje automático como ICLR. A medida que aumenta el volumen de envíos, comprender la naturaleza y dinámica del proceso de revisión es crucial para mejorar su eficiencia, efectividad y la calidad de los artículos publicados. Presentamos un análisis a gran escala de los procesos de revisión por pares de ICLR 2024 y 2025, centrándonos en las puntuaciones antes y después de la réplica y en las interacciones entre autores y revisores. Examinamos las puntuaciones de las revisiones, la participación autor-revisor, los patrones temporales en la entrega de revisiones y los efectos de influencia entre co-revisores. Combinando análisis cuantitativos con la categorización basada en LLM de los textos de revisión y las discusiones de réplica, identificamos las fortalezas y debilidades comunes para cada grupo de calificación, así como las tendencias en las estrategias de réplica más fuertemente asociadas con los cambios de puntuación. Nuestros hallazgos muestran que las puntuaciones iniciales y las calificaciones de los co-revisores son los predictores más fuertes de los cambios de puntuación durante la réplica, lo que apunta a un cierto grado de influencia entre revisores. Las réplicas juegan un papel valioso para mejorar los resultados de los artículos en el límite de aceptación, donde las respuestas reflexivas de los autores pueden modificar significativamente las perspectivas de los revisores. En términos más amplios, nuestro estudio ofrece perspectivas basadas en evidencia para mejorar el proceso de revisión por pares, guiando a los autores sobre estrategias de réplica efectivas y ayudando a la comunidad a diseñar procesos de revisión más justos y eficientes. Nuestro código y los datos de cambios de puntuación están disponibles en https://github.com/papercopilot/iclr-insights.
Con el rápido desarrollo de los Modelos de Lenguaje a Gran Escala (LLM), los agentes de IA han demostrado una competencia creciente en tareas científicas, que abarcan desde la generación de hipótesis y el diseño experimental hasta la redacción de manuscritos. Dichos sistemas de agentes se denominan comúnmente "Científicos de IA". Sin embargo, los Científicos de IA existentes formulan predominantemente el descubrimiento científico como un problema de búsqueda u optimización aislado, pasando por alto el hecho de que la investigación científica es inherentemente una empresa social y colaborativa. La ciencia del mundo real se basa en una infraestructura científica compleja compuesta por mecanismos de colaboración, atribución de contribuciones, revisión por pares y redes estructuradas de conocimiento científico. Debido a la falta de modelado de estas dimensiones críticas, los sistemas actuales luchan por establecer un ecosistema de investigación genuino o interactuar profundamente con la comunidad científica humana. Para cerrar esta brecha, presentamos OmniScientist, un marco que codifica explícitamente los mecanismos subyacentes de la investigación humana en el flujo de trabajo científico de la IA. OmniScientist no solo logra la automatización integral en los cimientos de datos, revisión bibliográfica, ideación de la investigación, automatización de experimentos, redacción científica y revisión por pares, sino que también proporciona un soporte infraestructural integral mediante la simulación del sistema científico humano, que comprende: (1) un sistema de conocimiento estructurado basado en redes de citas y correlaciones conceptuales; (2) un protocolo de investigación colaborativa (OSP), que permite una colaboración multiagente fluida y la participación de investigadores humanos; y (3) una plataforma de evaluación abierta (ScienceArena) basada en votaciones ciegas por pares de usuarios y rankings Elo. Esta infraestructura permite a los agentes no solo comprender y aprovechar los sistemas de conocimiento humano, sino también colaborar y coevolucionar, fomentando un ecosistema de innovación sostenible y escalable.
Los modelos visuales autorregresivos (VAR) han captado reciente atención significativa por su innovador paradigma de predicción a siguiente escala, ofreciendo ventajas notables en eficiencia de inferencia y calidad de imagen comparados con los modelos autorregresivos (AR) multietapa tradicionales y los modelos de difusión. Sin embargo, a pesar de su eficiencia, los modelos VAR a menudo sufren de colapso de diversidad, es decir, una reducción en la variabilidad de salida, análoga a la observada en modelos de difusión destilados de pocos pasos. En este artículo, presentamos DiverseVAR, un enfoque simple pero efectivo que restaura la diversidad generativa de los modelos VAR sin requerir entrenamiento adicional. Nuestro análisis revela el componente pivotal del mapa de características como un factor clave que gobierna la formación de diversidad en las escalas tempranas. Al suprimir el componente pivotal en la entrada del modelo y amplificarlo en la salida del modelo, DiverseVAR efectivamente libera el potencial generativo inherente de los modelos VAR mientras preserva una síntesis de alta fidelidad. Los resultados empíricos demuestran que nuestro enfoque mejora sustancialmente la diversidad generativa con influencias en el rendimiento apenas perceptibles. Nuestro código será publicado públicamente en https://github.com/wangtong627/DiverseVAR.
La detección de objetos prohibidos mediante modelos de aprendizaje automático requiere una gran cantidad de imágenes de seguridad por rayos X, cuya recopilación y anotación resulta costosa en tiempo y recursos. Para abordar la insuficiencia de datos, los métodos de síntesis de imágenes de seguridad por rayos X combinan imágenes para ampliar los conjuntos de datos. No obstante, los enfoques previos siguen principalmente un pipeline de dos etapas: implementan una laboriosa extracción de objetos en primer plano en la primera etapa y luego combinan las imágenes en la segunda. Este pipeline introduce inevitablemente costos adicionales de mano de obra y no es eficiente. En este artículo, proponemos un pipeline de síntesis de imágenes de seguridad por rayos X en una sola etapa (Xsyn) basado en generación de texto a imagen, que incorpora dos estrategias efectivas para mejorar la usabilidad de las imágenes sintéticas. La estrategia de Refinamiento por Atención Cruzada (CAR) utiliza el mapa de atención cruzada del modelo de difusión para refinar las anotaciones de cuadros delimitadores. La estrategia de Modelado de Oclusión de Fondo (BOM) modela explícitamente la oclusión del fondo en el espacio latente para aumentar la complejidad de la imagen. Hasta donde sabemos, en comparación con métodos anteriores, Xsyn es el primero en lograr una síntesis de imágenes de seguridad por rayos X de alta calidad sin costos adicionales de mano de obra. Los experimentos demuestran que nuestro método supera a todos los enfoques previos con una mejora del 1.2% en mAP, y que las imágenes sintéticas generadas por nuestro método benefician el rendimiento de detección de objetos prohibidos en diversos conjuntos de datos y detectores de seguridad por rayos X. El código está disponible en https://github.com/pILLOW-1/Xsyn/.
Los enfoques recientes de generación de vídeo dependen cada vez más de planificar señales de control intermedias, como trayectorias de objetos, para mejorar la coherencia temporal y la fidelidad del movimiento. Sin embargo, estos métodos emplean principalmente planes únicos que suelen limitarse a movimientos simples, o refinamiento iterativo que requiere múltiples llamadas al generador de vídeo, incurriendo en un alto coste computacional. Para superar estas limitaciones, proponemos SketchVerify, un marco de planificación basado en verificación de bocetos que no requiere entrenamiento, mejorando la calidad de la planificación del movimiento con trayectorias más dinámicamente coherentes (es decir, movimientos físicamente plausibles y consistentes con la instrucción) antes de la generación completa del vídeo, mediante la introducción de un bucle de muestreo y verificación en tiempo de prueba. Dado un prompt y una imagen de referencia, nuestro método predice múltiples planes de movimiento candidatos y los clasifica utilizando un verificador visión-lenguaje que evalúa conjuntamente la alineación semántica con la instrucción y la plausibilidad física. Para puntuar eficientemente los planes de movimiento candidatos, representamos cada trayectoria como un boceto de vídeo ligero componiendo objetos sobre un fondo estático, lo que evita la necesidad de una costosa síntesis basada en difusión repetida mientras se alcanza un rendimiento comparable. Refinamos iterativamente el plan de movimiento hasta identificar uno satisfactorio, que luego se pasa al generador condicionado por trayectorias para la síntesis final. Los experimentos en WorldModelBench y PhyWorldBench demuestran que nuestro método mejora significativamente la calidad del movimiento, el realismo físico y la consistencia a largo plazo en comparación con líneas base competitivas, siendo sustancialmente más eficiente. Nuestro estudio de ablación muestra además que escalar el número de trayectorias candidatas mejora consistentemente el rendimiento general.
El creciente uso indebido de los Modelos de Visión y Lenguaje (VLMs) ha llevado a los proveedores a implementar múltiples salvaguardas, como ajuste de alineación, indicaciones de sistema y moderación de contenido. Sin embargo, la solidez en el mundo real de estas defensas frente a ataques adversarios sigue estando poco explorada. Presentamos Multi-Faceted Attack (MFA), un marco que expone sistemáticamente vulnerabilidades generales de seguridad en VLMs líderes equipados con defensas, como GPT-4o, Gemini-Pro y Llama-4. El componente central de MFA es el Ataque de Transferencia de Atención (ATA), que oculta instrucciones nocivas dentro de una meta-tarea con objetivos en competencia. Ofrecemos una perspectiva teórica basada en la manipulación de recompensas para explicar por qué este ataque tiene éxito. Para mejorar la transferibilidad entre modelos, introducimos además un algoritmo liviano de mejora de transferencia combinado con una simple estrategia de repetición que conjuntamente elude tanto los filtros a nivel de entrada como de salida, sin necesidad de ajuste específico por modelo. Empíricamente, demostramos que las imágenes adversarias optimizadas para un codificador visual se transfieren ampliamente a VLMs no vistos, lo que indica que las representaciones visuales compartidas crean una vulnerabilidad de seguridad transversal. En general, MFA logra una tasa de éxito del 58,5% y supera consistentemente a los métodos existentes. En modelos comerciales de última generación, MFA alcanza una tasa de éxito del 52,8%, superando al segundo mejor ataque en un 34%. Estos resultados desafían la solidez percibida de los mecanismos de defensa actuales y destacan debilidades persistentes en la seguridad de los VLMs modernos. Código: https://github.com/cure-lab/MultiFacetedAttack
Presentamos el primer estudio a gran escala de preentrenamiento con mezcla de expertos (MoE) realizado íntegramente en hardware AMD, utilizando GPUs MI300X con interconexión Pollara. Extraemos recomendaciones prácticas tanto para el diseño de sistemas como de modelos. En el ámbito de los sistemas, ofrecemos una caracterización exhaustiva del clúster y de la red: microbenchmarks para todos los colectivos principales (all-reduce, reduce-scatter, all-gather, broadcast) a través de distintos tamaños de mensaje y números de GPU en Pollara. Hasta donde sabemos, es el primer estudio de esta escala. Además, proporcionamos microbenchmarks de la MI300X sobre dimensionamiento de kernels y ancho de banda de memoria para fundamentar el diseño de modelos. En el aspecto del modelado, introducimos y aplicamos reglas de dimensionamiento de transformers optimizadas para MI300X para los bloques de atención y MLP, y justificamos anchos de MoE que optimizan conjuntamente el rendimiento del entrenamiento y la latencia de inferencia. Describimos en profundidad nuestra pila de entrenamiento, incluyendo utilidades frecuentemente ignoradas como la tolerancia a fallos y la remodelación de checkpoints, así como información detallada sobre nuestra receta de entrenamiento. También ofrecemos una vista previa de nuestra arquitectura de modelo y del modelo base - ZAYA1 (760M parámetros activos, 8.3B parámetros totales, MoE) - que se seguirá mejorando en publicaciones futuras. ZAYA1-base logra un rendimiento comparable al de modelos base líderes como Qwen3-4B y Gemma3-12B en su escala y superior, y supera a modelos como Llama-3-8B y OLMoE en benchmarks de razonamiento, matemáticas y codificación. En conjunto, estos resultados demuestran que el hardware AMD, la red y la pila de software están lo suficientemente maduros y optimizados para realizar preentrenamientos a gran escala competitivos.
Los mapas de prominencia son ampliamente utilizados para explicaciones visuales en el aprendizaje profundo, pero persiste una falta fundamental de consenso respecto a su propósito y su alineación con las diversas consultas de los usuarios. Esta ambigüedad dificulta la evaluación efectiva y la utilidad práctica de los métodos de explicación. Abordamos esta brecha presentando la taxonomía Marco de Referencia por Granularidad (RFxG), un marco conceptual fundamentado que organiza las explicaciones de prominencia a lo largo de dos ejes esenciales: * **Marco de Referencia:** Distingue entre explicaciones puntuales ("¿Por qué esta predicción?") y explicaciones contrastivas ("¿Por qué esto y no una alternativa?"). * **Granularidad:** Abarca desde interpretaciones de grano fino a nivel de clase (por ejemplo, "¿Por qué Husky?") hasta interpretaciones de grano grueso a nivel de grupo (por ejemplo, "¿Por qué Perro?"). Utilizando la lente RFxG, demostramos limitaciones críticas en las métricas de evaluación existentes, que priorizan abrumadoramente la fidelidad puntual mientras descuidan el razonamiento contrastivo y la granularidad semántica. Para evaluar sistemáticamente la calidad de las explicaciones en ambas dimensiones RFxG, proponemos cuatro nuevas métricas de fidelidad. Nuestro marco de evaluación integral aplica estas métricas a diez métodos de prominencia de vanguardia, cuatro arquitecturas de modelo y tres conjuntos de datos. Al abogar por un cambio hacia una evaluación impulsada por la intención del usuario, nuestro trabajo proporciona tanto la base conceptual como las herramientas prácticas necesarias para desarrollar explicaciones visuales que no solo son fieles al comportamiento del modelo subyacente, sino que también están alineadas significativamente con la complejidad del entendimiento y la indagación humana.