Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Ovis2.5, un sucesor de Ovis2 diseñado para percepción visual en resolución nativa y razonamiento multimodal robusto. Ovis2.5 integra un vision transformer de resolución nativa que procesa imágenes en sus resoluciones variables originales, evitando la degradación causada por el mosaico de resolución fija y preservando tanto los detalles finos como la disposición global, aspectos cruciales para contenido visualmente denso como gráficos complejos. Para fortalecer el razonamiento, entrenamos al modelo para ir más allá del pensamiento lineal en cadena y realizar reflexión, incluyendo autoverificación y revisión. Esta capacidad avanzada se expone como un "modo de pensamiento" opcional durante la inferencia, permitiendo a los usuarios intercambiar latencia por mayor precisión en entradas difíciles. El modelo se entrena mediante un currículo integral de cinco fases que construye progresivamente sus habilidades. El proceso comienza con un preentrenamiento visual y multimodal básico, avanza a través de ajuste de instrucciones a gran escala, y culmina en alineación y mejora del razonamiento utilizando DPO y GRPO. Para escalar estas mejoras de manera eficiente, empleamos empaquetado de datos multimodal y paralelismo híbrido, logrando una aceleración significativa de extremo a extremo. Lanzamos dos modelos de código abierto: Ovis2.5-9B y Ovis2.5-2B. Este último continúa la filosofía de "modelo pequeño, gran rendimiento" de Ovis2, haciéndolo ideal para escenarios con recursos limitados y en dispositivos. En el ranking multimodal OpenCompass, Ovis2.5-9B promedia 78.3, marcando una mejora sustancial sobre su predecesor, Ovis2-8B, y alcanzando resultados de vanguardia entre los MLLMs de código abierto en el rango de menos de 40B parámetros; Ovis2.5-2B obtiene 73.9, estableciendo un estado del arte (SOTA) para su tamaño. Más allá de las puntuaciones agregadas, Ovis2.5 logra resultados líderes en benchmarks STEM, exhibe capacidades sólidas en tareas de anclaje y video, y alcanza el SOTA de código abierto a su escala para el análisis de gráficos complejos.
La comprensión narrativa de historias largas y novelas ha sido un dominio desafiante debido a sus tramas intrincadas y a las relaciones entrelazadas y en evolución entre personajes y entidades. Dada la capacidad reducida de los modelos de lenguaje grandes (LLM) para razonar sobre contextos extensos y su alto costo computacional, los enfoques basados en recuperación siguen desempeñando un papel fundamental en la práctica. Sin embargo, los métodos tradicionales de RAG (Retrieval-Augmented Generation) pueden quedarse cortos debido a su proceso de recuperación estático y de un solo paso, que a menudo pasa por alto la naturaleza dinámica de capturar relaciones interconectadas dentro de contextos de largo alcance. En este trabajo, proponemos ComoRAG, basado en el principio de que el razonamiento narrativo no es un proceso de una sola vez, sino una interacción dinámica y en evolución entre la adquisición de nueva evidencia y la consolidación de conocimientos previos, análoga a la cognición humana cuando se razona con señales relacionadas con la memoria en el cerebro. Específicamente, al encontrar un punto de bloqueo en el razonamiento, ComoRAG realiza ciclos iterativos de razonamiento mientras interactúa con un espacio de memoria dinámico. En cada ciclo, genera consultas de sondeo para trazar nuevos caminos exploratorios, luego integra la evidencia recuperada de nuevos aspectos en un pool de memoria global, apoyando así la emergencia de un contexto coherente para la resolución de la consulta. En cuatro benchmarks desafiantes de narrativa de contexto largo (más de 200K tokens), ComoRAG supera a los baselines fuertes de RAG con ganancias relativas consistentes de hasta un 11% en comparación con el baseline más robusto. Un análisis adicional revela que ComoRAG es particularmente ventajoso para consultas complejas que requieren comprensión global, ofreciendo un paradigma fundamentado y cognitivamente motivado para la comprensión de contextos largos basada en recuperación hacia un razonamiento con estado. Nuestro código está disponible públicamente en https://github.com/EternityJune25/ComoRAG.
Presentamos 4DNeX, el primer marco de trabajo de propagación directa para generar representaciones de escenas 4D (es decir, 3D dinámicas) a partir de una sola imagen. A diferencia de los métodos existentes que dependen de optimizaciones computacionalmente intensivas o requieren entradas de video de múltiples fotogramas, 4DNeX permite una generación eficiente de imagen a 4D de extremo a extremo mediante el ajuste fino de un modelo de difusión de video preentrenado. Específicamente, 1) para mitigar la escasez de datos 4D, construimos 4DNeX-10M, un conjunto de datos a gran escala con anotaciones 4D de alta calidad generadas utilizando enfoques avanzados de reconstrucción. 2) Introducimos una representación de video unificada en 6D que modela conjuntamente secuencias RGB y XYZ, facilitando el aprendizaje estructurado tanto de la apariencia como de la geometría. 3) Proponemos un conjunto de estrategias de adaptación simples pero efectivas para reutilizar modelos de difusión de video preentrenados en el modelado 4D. 4DNeX produce nubes de puntos dinámicas de alta calidad que permiten la síntesis de video desde nuevas perspectivas. Experimentos exhaustivos demuestran que 4DNeX supera a los métodos existentes de generación 4D en eficiencia y generalización, ofreciendo una solución escalable para el modelado de imagen a 4D y sentando las bases para modelos generativos 4D del mundo que simulan la evolución dinámica de escenas.
Proponemos un enfoque novedoso para la generación de imágenes al descomponer una imagen en una secuencia estructurada, donde cada elemento de la secuencia comparte la misma resolución espacial pero difiere en el número de tokens únicos utilizados, capturando diferentes niveles de granularidad visual. La generación de imágenes se lleva a cabo a través de nuestro recién introducido marco de Generación de Granularidad Visual Siguiente (NVG, por sus siglas en inglés), el cual genera una secuencia de granularidad visual comenzando desde una imagen vacía y la refina progresivamente, desde el diseño global hasta los detalles finos, de manera estructurada. Este proceso iterativo codifica una representación jerárquica y en capas que ofrece un control detallado sobre el proceso de generación en múltiples niveles de granularidad. Entrenamos una serie de modelos NVG para la generación de imágenes condicionadas por clase en el conjunto de datos ImageNet y observamos un comportamiento de escalabilidad claro. En comparación con la serie VAR, NVG supera consistentemente en términos de puntuaciones FID (3.30 -> 3.03, 2.57 -> 2.44, 2.09 -> 2.06). También realizamos un análisis extenso para mostrar la capacidad y el potencial del marco NVG. Nuestro código y modelos serán publicados.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado resultados impresionantes en comprensión, generación y razonamiento del lenguaje, y han ampliado los límites de las capacidades de los modelos multimodales. Los modelos Transformer, como base de los LLMs modernos, ofrecen una línea de base sólida con excelentes propiedades de escalabilidad. Sin embargo, la arquitectura tradicional de los transformers requiere cálculos sustanciales y presenta obstáculos significativos para el entrenamiento a gran escala y su implementación práctica. En este estudio, ofrecemos un examen sistemático de arquitecturas innovadoras de LLMs que abordan las limitaciones inherentes de los transformers y mejoran la eficiencia. Partiendo del modelado del lenguaje, este estudio cubre los antecedentes y detalles técnicos de los métodos de modelado de secuencias lineales y dispersas, variantes eficientes de atención completa, mezcla dispersa de expertos, arquitecturas de modelos híbridos que incorporan las técnicas mencionadas y los emergentes LLMs de difusión. Además, discutimos las aplicaciones de estas técnicas en otras modalidades y consideramos sus implicaciones más amplias para el desarrollo de modelos base escalables y conscientes de los recursos. Al agrupar estudios recientes en las categorías mencionadas, este estudio presenta un esquema de las arquitecturas modernas y eficientes de LLMs, y esperamos que esto pueda motivar futuras investigaciones hacia sistemas de IA más eficientes y versátiles.
Los Modelos de Lenguaje de Gran Escala (LLMs) son altamente sensibles a variaciones sutiles y no semánticas en la redacción y el formato de las instrucciones. En este trabajo, presentamos la primera evaluación sistemática de 5 métodos para mejorar la robustez de las instrucciones dentro de un marco experimental unificado. Evaluamos estas técnicas en 8 modelos de las familias Llama, Qwen y Gemma, abarcando 52 tareas del conjunto de datos Natural Instructions. Nuestra evaluación cubre métodos de robustez tanto del paradigma de ajuste fino como del aprendizaje en contexto, y prueba su generalización frente a múltiples tipos de cambios en la distribución. Finalmente, extendemos nuestro análisis a GPT-4.1 y DeepSeek V3 para evaluar la robustez actual de los modelos de vanguardia frente a perturbaciones en el formato. Nuestros hallazgos ofrecen insights prácticos sobre la efectividad relativa de estos métodos de robustez, permitiendo a los profesionales tomar decisiones informadas al buscar un rendimiento estable y confiable de los LLMs en aplicaciones del mundo real. Código: https://github.com/AIRI-Institute/when-punctuation-matters.
La Guía sin Clasificador (Classifier-free Guidance, CFG) es una técnica ampliamente utilizada en los modelos de difusión modernos para mejorar la calidad de las muestras y la adherencia a las indicaciones. Sin embargo, mediante un análisis empírico en modelado de mezclas gaussianas con una solución de forma cerrada, observamos una discrepancia entre los resultados subóptimos producidos por CFG y la verdad fundamental. La excesiva dependencia del modelo en estas predicciones subóptimas a menudo conduce a incoherencia semántica y salidas de baja calidad. Para abordar este problema, primero demostramos empíricamente que las predicciones subóptimas del modelo pueden refinarse eficazmente utilizando sub-redes del propio modelo. Basándonos en esta idea, proponemos S^2-Guidance, un método novedoso que aprovecha el bloqueo estocástico durante el proceso directo para construir sub-redes estocásticas, guiando eficazmente al modelo lejos de posibles predicciones de baja calidad y hacia salidas de alta calidad. Experimentos cualitativos y cuantitativos exhaustivos en tareas de generación de texto a imagen y texto a video demuestran que S^2-Guidance ofrece un rendimiento superior, superando consistentemente a CFG y otras estrategias avanzadas de guía. Nuestro código será publicado.
Los modelos multimodales han logrado avances notables en los últimos años. Sin embargo, siguen presentando limitaciones significativas en la comprensión y el razonamiento espacial, capacidades fundamentales para alcanzar la inteligencia artificial general. Con el reciente lanzamiento de GPT-5, supuestamente el modelo de IA más potente hasta la fecha, es oportuno examinar dónde se encuentran los modelos líderes en el camino hacia la inteligencia espacial. Primero, proponemos una taxonomía exhaustiva de tareas espaciales que unifica los puntos de referencia existentes y discutimos los desafíos para garantizar una evaluación justa. Luego, evaluamos modelos propietarios y de código abierto de última generación en ocho puntos de referencia clave, con un costo que supera los mil millones de tokens en total. Nuestro estudio empírico revela que (1) GPT-5 demuestra una fuerza sin precedentes en inteligencia espacial, pero (2) aún no alcanza el rendimiento humano en una amplia gama de tareas. Además, (3) identificamos los problemas de inteligencia espacial más desafiantes para los modelos multimodales, y (4) los modelos propietarios no muestran una ventaja decisiva al enfrentar los problemas más difíciles. Asimismo, realizamos una evaluación cualitativa en un conjunto diverso de escenarios que son intuitivos para los humanos, pero que incluso los modelos multimodales más avanzados no logran resolver.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en tareas de razonamiento paso a paso aisladas, como matemáticas y programación, pero su competencia en la planificación a largo plazo, donde las soluciones requieren secuencias estructuradas y extendidas de acciones interdependientes, sigue siendo poco explorada. Los puntos de referencia existentes suelen evaluar los LLMs mediante tareas algorítmicas abstractas o de baja dimensionalidad, sin capturar la complejidad de entornos de planificación realistas. Presentamos HeroBench, un nuevo punto de referencia diseñado específicamente para evaluar la planificación a largo plazo y el razonamiento estructurado en mundos virtuales complejos inspirados en juegos de rol (RPG). HeroBench ofrece un conjunto de datos rigurosamente construido que abarca una amplia gama de dificultades, un entorno simulado para ejecutar y validar los planes de los agentes, y herramientas analíticas detalladas para evaluar el rendimiento de los modelos. Las tareas desafían a los modelos a formular planes estratégicos, recolectar recursos de manera eficiente, dominar habilidades necesarias, elaborar equipamiento y derrotar adversarios, reflejando las dependencias y restricciones en capas de escenarios prácticos. Nuestra evaluación exhaustiva de 25 LLMs de vanguardia, que incluyen tanto modelos de código abierto como propietarios, incluida la familia GPT-5, revela disparidades sustanciales en el rendimiento que rara vez se observan en puntos de referencia convencionales de razonamiento. Un análisis detallado de errores descubre además debilidades específicas en las capacidades de los modelos actuales para generar planes robustos de alto nivel y ejecutar acciones estructuradas de manera confiable. HeroBench no solo avanza significativamente la evaluación del razonamiento de los LLMs, sino que también proporciona una base flexible y escalable para futuras investigaciones sobre planificación avanzada y autónoma en entornos virtuales.
Los recientes avances en la generación interactiva de videos han demostrado el potencial de los modelos de difusión como modelos del mundo al capturar dinámicas físicas complejas y comportamientos interactivos. Sin embargo, los modelos interactivos del mundo existentes dependen de atención bidireccional y pasos de inferencia prolongados, lo que limita severamente el rendimiento en tiempo real. En consecuencia, es difícil simular dinámicas del mundo real, donde los resultados deben actualizarse instantáneamente en función del contexto histórico y las acciones actuales. Para abordar esto, presentamos Matrix-Game 2.0, un modelo interactivo del mundo que genera videos largos sobre la marcha mediante difusión autorregresiva de pocos pasos. Nuestro marco consta de tres componentes clave: (1) Una canalización escalable de producción de datos para entornos de Unreal Engine y GTA5, que produce eficazmente grandes cantidades (alrededor de 1200 horas) de datos de video con diversas anotaciones de interacción; (2) Un módulo de inyección de acciones que permite entradas de ratón y teclado a nivel de fotograma como condiciones interactivas; (3) Una destilación de pocos pasos basada en la arquitectura causal para la generación de video en tiempo real y en streaming. Matrix-Game 2.0 puede generar videos de alta calidad a nivel de minuto en diversas escenas a una velocidad ultrarrápida de 25 FPS. Hemos liberado los pesos de nuestro modelo y la base de código para avanzar en la investigación de modelos interactivos del mundo.
Presentamos AuriStream, un modelo de inspiración biológica para codificar el habla a través de un marco de dos etapas inspirado en la jerarquía del procesamiento auditivo humano. La primera etapa transforma el audio crudo en una representación tiempo-frecuencia basada en la cóclea humana, de la cual extraemos tokens cocleares discretos. La segunda etapa aplica un modelo de secuencia autorregresivo sobre los tokens cocleares. AuriStream aprende representaciones significativas de fonemas y palabras, así como semántica léxica de vanguardia. AuriStream demuestra un rendimiento competitivo en diversas tareas de habla del conjunto SUPERB. Complementando las sólidas capacidades representacionales de AuriStream, genera continuaciones de audio que pueden visualizarse en un espacio de espectrograma y decodificarse de nuevo en audio, proporcionando insights sobre las predicciones del modelo. En resumen, presentamos un marco de dos etapas para el aprendizaje de representaciones del habla con el fin de avanzar en el desarrollo de modelos más similares a los humanos que manejen eficientemente una variedad de tareas basadas en el habla.
El relighting de video es una tarea desafiante pero valiosa, que busca reemplazar el fondo en los videos mientras se ajusta correspondientemente la iluminación en el primer plano con una mezcla armoniosa. Durante la traducción, es esencial preservar las propiedades originales del primer plano, por ejemplo, el albedo, y propagar un relighting consistente entre los fotogramas temporales. En este artículo, proponemos Lumen, un marco de relighting de video de extremo a extremo desarrollado sobre modelos generativos de video a gran escala, que recibe descripciones textuales flexibles para instruir el control de la iluminación y el fondo. Considerando la escasez de videos de alta calidad emparejados con el mismo primer plano en diversas condiciones de iluminación, construimos un conjunto de datos a gran escala con una mezcla de videos realistas y sintéticos. Para el dominio sintético, aprovechando los abundantes activos 3D en la comunidad, utilizamos un motor de renderizado 3D avanzado para curar pares de videos en diversos entornos. Para el dominio realista, adaptamos una simulación de iluminación basada en HDR para complementar la falta de videos emparejados en entornos naturales. Impulsados por el conjunto de datos mencionado, diseñamos un plan de entrenamiento conjunto para liberar efectivamente las fortalezas de cada dominio, es decir, la consistencia física en los videos sintéticos y la distribución generalizada del dominio en los videos realistas. Para implementar esto, inyectamos un adaptador consciente del dominio en el modelo para desacoplar el aprendizaje del relighting y la distribución de apariencia del dominio. Construimos un benchmark integral para evaluar Lumen junto con métodos existentes, desde las perspectivas de preservación del primer plano y evaluación de la consistencia del video. Los resultados experimentales demuestran que Lumen edita efectivamente la entrada en videos relighteados cinematográficos con iluminación consistente y preservación estricta del primer plano. Nuestra página del proyecto: https://lumen-relight.github.io/
Presentamos G-CUT3R, un enfoque novedoso de avance directo para la reconstrucción guiada de escenas 3D que mejora el modelo CUT3R mediante la integración de información previa. A diferencia de los métodos de avance directo existentes que dependen únicamente de imágenes de entrada, nuestro método aprovecha datos auxiliares, como profundidad, calibraciones de cámara o posiciones de cámara, comúnmente disponibles en escenarios del mundo real. Proponemos una modificación ligera a CUT3R, incorporando un codificador dedicado para cada modalidad para extraer características, las cuales se fusionan con tokens de imágenes RGB mediante convolución cero. Este diseño flexible permite la integración sin problemas de cualquier combinación de información previa durante la inferencia. Evaluado en múltiples benchmarks, incluyendo reconstrucción 3D y otras tareas de múltiples vistas, nuestro enfoque demuestra mejoras significativas en el rendimiento, mostrando su capacidad para utilizar eficazmente los priores disponibles mientras mantiene la compatibilidad con diversas modalidades de entrada.
Presentamos indicaciones visuales de acción, una representación unificada de acciones para la generación de vídeo a partir de acciones de interacciones complejas con alto grado de libertad (DoF), manteniendo dinámicas visuales transferibles entre dominios. La generación de vídeo impulsada por acciones enfrenta un equilibrio entre precisión y generalidad: los métodos existentes que utilizan texto, acciones primitivas o máscaras aproximadas ofrecen generalidad pero carecen de precisión, mientras que las señales de acción centradas en el agente proporcionan precisión a costa de la transferibilidad entre dominios. Para equilibrar la precisión de la acción y la transferibilidad dinámica, proponemos "renderizar" las acciones en indicaciones visuales precisas como representaciones independientes del dominio que preservan tanto la precisión geométrica como la adaptabilidad entre dominios para acciones complejas; específicamente, elegimos esqueletos visuales por su generalidad y accesibilidad. Proponemos pipelines robustos para construir esqueletos a partir de dos fuentes de datos ricas en interacciones: interacciones humano-objeto (HOI) y manipulación robótica diestra, permitiendo el entrenamiento entre dominios de modelos generativos impulsados por acciones. Al integrar esqueletos visuales en modelos de generación de vídeo preentrenados mediante ajuste fino ligero, habilitamos un control preciso de acciones en interacciones complejas mientras preservamos el aprendizaje de dinámicas entre dominios. Los experimentos en EgoVid, RT-1 y DROID demuestran la efectividad de nuestro enfoque propuesto. Página del proyecto: https://zju3dv.github.io/VAP/.
Los enfoques tradicionales de aprendizaje multimodal requieren un costoso preentrenamiento de alineación para conectar las modalidades de visión y lenguaje, proyectando típicamente características visuales en espacios discretos de tokens de texto. Desafiamos ambos supuestos fundamentales que subyacen a este paradigma al proponer Inverse-LLaVA, un enfoque novedoso que elimina por completo el preentrenamiento de alineación mientras invierte la dirección convencional de mapeo. En lugar de proyectar características visuales al espacio de texto, nuestro método mapea incrustaciones de texto en un espacio de representación visual continua y realiza la fusión dentro de las capas intermedias de transformadores. A través de componentes aditivos selectivos en los mecanismos de atención, permitimos la integración dinámica de representaciones visuales y textuales sin requerir grandes conjuntos de datos de alineación imagen-texto. Experimentos exhaustivos en nueve benchmarks multimodales demuestran matices en las compensaciones de rendimiento: Inverse-LLaVA logra mejoras notables en tareas intensivas en razonamiento y cognitivas (MM-VET: +0.2%, VizWiz: +1.8%, ScienceQA: +0.2%, razonamiento cognitivo: +27.2%), mientras muestra disminuciones esperadas en tareas de percepción que requieren asociaciones visual-texto memorizadas (reconocimiento de celebridades: -49.5%, OCR: -21.3%). Estos resultados proporcionan la primera evidencia empírica de que el preentrenamiento de alineación no es necesario para un aprendizaje multimodal efectivo, particularmente para tareas de razonamiento complejo. Nuestro trabajo establece la viabilidad de un nuevo paradigma que reduce los requisitos computacionales en un 45%, desafía la sabiduría convencional sobre la fusión de modalidades y abre nuevas direcciones de investigación para arquitecturas multimodales eficientes que preservan las características específicas de cada modalidad. Nuestro sitio web del proyecto con código y recursos adicionales está disponible en https://inverse-llava.github.io.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido como un paradigma poderoso para mejorar los Modelos de Lenguaje a Gran Escala (LLMs), ejemplificado por el éxito de la serie o de OpenAI. En RLVR, las recompensas se derivan de señales verificables, como superar pruebas unitarias en la generación de código o coincidir con respuestas correctas en razonamiento matemático. Aunque efectivo, este requisito limita en gran medida el RLVR a dominios con resultados automáticamente verificables. Para superar esto, extendemos el paradigma RLVR a tareas de final abierto mediante la integración de recompensas basadas en rúbricas, donde rúbricas cuidadosamente diseñadas sirven como criterios estructurados e interpretables por el modelo para la puntuación automática de resultados subjetivos. Construimos, hasta donde sabemos, el sistema de recompensas basado en rúbricas más grande hasta la fecha, con más de 10,000 rúbricas provenientes de humanos, LLMs o una colaboración híbrida humano-LLM. Implementar RL basado en rúbricas es un desafío; abordamos estos problemas con un marco claro y presentamos un modelo de código abierto Qwen-30B-A3B con avances notables: 1) Con solo 5K+ muestras, nuestro sistema mejora en un +5.2% en benchmarks de final abierto (especialmente en humanidades), superando a un modelo DeepSeek-V3 de 671B en un +2.4%, mientras preserva las habilidades generales y de razonamiento. 2) Nuestro método proporciona un control estilístico detallado, utilizando rúbricas como anclas para mitigar el tono "similar a IA" y producir respuestas más humanas y expresivas. Compartimos lecciones clave en la construcción de rúbricas, selección de datos y entrenamiento, y discutimos limitaciones y futuros lanzamientos.
El Olvido de Máquina (Machine Unlearning, MU) tiene como objetivo eliminar datos específicos de entrenamiento de un modelo ya entrenado, de modo que los datos eliminados ya no influyan en el comportamiento del modelo, cumpliendo así con las obligaciones del "derecho al olvido" establecidas en las leyes de privacidad de datos. Sin embargo, observamos que los investigadores en este campo emergente enfrentan desafíos al analizar y comprender el comportamiento de los diferentes métodos de MU, especialmente en términos de tres principios fundamentales: precisión, eficiencia y privacidad. Como resultado, a menudo dependen de métricas agregadas y evaluaciones ad-hoc, lo que dificulta la evaluación precisa de las compensaciones entre los métodos. Para abordar esta brecha, presentamos un sistema de análisis visual, el Comparador de Olvido (Unlearning Comparator), diseñado para facilitar la evaluación sistemática de los métodos de MU. Nuestro sistema soporta dos tareas importantes en el proceso de evaluación: la comparación de modelos y la simulación de ataques. En primer lugar, permite al usuario comparar los comportamientos de dos modelos, como un modelo generado por un método específico y un modelo de referencia reentrenado, a nivel de clase, instancia y capa, para comprender mejor los cambios realizados después del olvido. En segundo lugar, nuestro sistema simula ataques de inferencia de pertenencia (MIAs) para evaluar la privacidad de un método, donde un atacante intenta determinar si muestras de datos específicas formaron parte del conjunto de entrenamiento original. Evaluamos nuestro sistema mediante un estudio de caso que analiza visualmente métodos destacados de MU y demostramos que ayuda al usuario no solo a comprender los comportamientos del modelo, sino también a obtener ideas que pueden informar la mejora de los métodos de MU.
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han demostrado habilidades notables para resolver problemas en matemáticas, según lo evaluado por los benchmarks existentes que se centran exclusivamente en problemas bien definidos. Sin embargo, este enfoque de evaluación presenta una brecha crítica, ya que un agente inteligente genuino no solo debería resolver problemas (como un solucionador de cuestionarios matemáticos), sino también ser capaz de solicitar información cuando los problemas carecen de datos suficientes, permitiendo así una respuesta proactiva a las solicitudes de los usuarios. Para abordar esta brecha, proponemos un nuevo conjunto de datos que consta de dos tipos de problemas incompletos con contextos diversos. Basándonos en este conjunto de datos, nuestra evaluación sistemática de los LRMs revela su incapacidad para solicitar información de manera proactiva. Además, descubrimos comportamientos relacionados con el sobrepensamiento y la alucinación en los LRMs, y destacamos el potencial y los desafíos del ajuste fino supervisado para aprender esta habilidad. Esperamos ofrecer nuevas perspectivas en el desarrollo de LRMs con inteligencia genuina, en lugar de limitarse a resolver problemas.
Investigamos hasta qué punto los Modelos de Lenguaje Multimodales (MLLMs) pueden identificar con precisión la orientación de imágenes de entrada rotadas a 0°, 90°, 180° y 270°. Esta tarea requiere capacidades robustas de razonamiento visual para detectar señales de rotación y contextualizar las relaciones espaciales dentro de las imágenes, independientemente de su orientación. Para evaluar estas habilidades en los MLLMs, presentamos RotBench, un conjunto de referencia de 350 imágenes filtradas manualmente que incluyen imágenes de estilo de vida, retratos y paisajes. A pesar de la naturaleza relativamente simple de esta tarea, demostramos que varios MLLMs de última generación, tanto de código abierto como propietarios, incluyendo GPT-5, o3 y Gemini-2.5-Pro, no identifican de manera confiable la rotación en las imágenes de entrada. Proporcionar a los modelos información auxiliar —como descripciones, mapas de profundidad y más— o utilizar el enfoque de cadena de pensamiento (chain-of-thought) ofrece solo mejoras pequeñas e inconsistentes. Nuestros resultados indican que la mayoría de los modelos pueden identificar de manera confiable imágenes en posición vertical (0°), mientras que ciertos modelos pueden identificar imágenes invertidas (180°). Ninguno puede distinguir de manera confiable entre 90° y 270°. Mostrar simultáneamente la imagen rotada en diferentes orientaciones conduce a mejoras moderadas en el rendimiento de los modelos de razonamiento, mientras que una configuración modificada que utiliza votación mejora el rendimiento de los modelos más débiles. Además, demostramos que el ajuste fino (fine-tuning) no mejora la capacidad de los modelos para distinguir rotaciones de 90° y 270°, a pesar de mejorar sustancialmente la identificación de imágenes rotadas a 180°. En conjunto, estos resultados revelan una brecha significativa entre las capacidades de razonamiento espacial de los MLLMs y la percepción humana en la identificación de rotaciones.