Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Depth Anything 3 (DA3), un modelo que predice una geometría espacialmente consistente a partir de un número arbitrario de entradas visuales, con o sin poses de cámara conocidas. En pos de una modelización mínima, DA3 aporta dos ideas clave: un único transformer básico (por ejemplo, un codificador DINO estándar) es suficiente como columna vertebral sin especialización arquitectónica, y un único objetivo de predicción de rayos de profundidad elimina la necesidad de un aprendizaje multitarea complejo. Mediante nuestro paradigma de entrenamiento profesor-alumno, el modelo alcanza un nivel de detalle y generalización a la par de Depth Anything 2 (DA2). Establecemos un nuevo benchmark de geometría visual que abarca la estimación de la pose de la cámara, la geometría desde cualquier vista y el renderizado visual. En este benchmark, DA3 establece un nuevo estado del arte en todas las tareas, superando al anterior SOTA VGGT en un promedio del 44.3% en precisión de pose de cámara y del 25.1% en precisión geométrica. Además, supera a DA2 en la estimación de profundidad monocular. Todos los modelos se entrenan exclusivamente con conjuntos de datos académicos públicos.
Un modelo mundial permite a un agente inteligente imaginar, predecir y razonar sobre cómo evoluciona el mundo en respuesta a sus acciones, y en consecuencia, planificar y diseñar estrategias. Si bien los modelos recientes de generación de vídeo producen secuencias visuales realistas, generalmente operan de manera prompt-a-vídeo-completo sin el control causal, la interactividad o la coherencia a largo plazo requeridos para un razonamiento con propósito. Por otro lado, los esfuerzos existentes en modelado mundial a menudo se centran en dominios restringidos (por ejemplo, dinámicas físicas, de juegos o de escenas 3D) con profundidad y capacidad de control limitadas, y luchan por generalizar en diversos entornos y formatos de interacción. En este trabajo, presentamos PAN, un modelo mundial general, interactivo y de horizonte largo que predice estados futuros del mundo mediante simulación de vídeo de alta calidad condicionada por el historial y acciones en lenguaje natural. PAN emplea la arquitectura de Predicción Latente Generativa (GLP) que combina una base de dinámica latente autorregresiva basada en un modelo de lenguaje grande (LLM), la cual fundamenta la simulación en un conocimiento textual extenso y permite el condicionamiento por acciones especificadas en lenguaje, con un decodificador de difusión de vídeo que reconstruye observaciones visuales perceptualmente detalladas y temporalmente coherentes, para lograr una unificación entre el razonamiento en el espacio latente (imaginación) y las dinámicas mundiales realizables (realidad). Entrenado con pares vídeo-acción a gran escala que abarcan diversos dominios, PAN admite simulación de dominio abierto condicionada por acciones con dinámicas coherentes a largo plazo. Experimentos exhaustivos muestran que PAN logra un rendimiento sólido en simulación mundial condicionada por acciones, pronóstico de horizonte largo y razonamiento simulado en comparación con otros generadores de vídeo y modelos mundiales, dando un paso hacia modelos mundiales generales que permiten la simulación predictiva de estados futuros del mundo para razonar y actuar.
Los modelos de difusión enfrentan dificultades para escalar más allá de las resoluciones de entrenamiento, ya que el muestreo directo en alta resolución es lento y costoso, mientras que la super-resolución de imágenes (ISR) aplicada a posteriori introduce artefactos y latencia adicional al operar después de la decodificación. Presentamos el Adaptador de Escalado Latente (LUA), un módulo ligero que realiza super-resolución directamente en el código latente del generador antes del paso final de decodificación del VAE. LUA se integra como un componente adicional, sin requerir modificaciones al modelo base ni etapas adicionales de difusión, y permite la síntesis de alta resolución mediante un único paso de propagación hacia adelante en el espacio latente. Un núcleo compartido de estilo Swin con cabezales específicos de escala basados en pixel-shuffle admite factores de 2x y 4x y mantiene compatibilidad con líneas base de SR en el espacio de imágenes, logrando una calidad perceptual comparable con un tiempo de decodificación y escalado casi 3 veces menor (añadiendo solo +0.42 s para la generación de 1024 px a partir de 512 px, en comparación con 1.87 s para SR en el espacio de píxeles utilizando la misma arquitectura SwinIR). Además, LUA muestra una fuerte generalización en los espacios latentes de diferentes VAEs, lo que facilita su implementación sin necesidad de reentrenar desde cero para cada nuevo decodificador. Experimentos extensos demuestran que LUA se acerca mucho a la fidelidad de la generación nativa en alta resolución, ofreciendo una ruta práctica y eficiente para la síntesis de imágenes escalable y de alta fidelidad en pipelines modernos de difusión.
La destilación de caja negra crea modelos de lenguaje grandes (LLM) estudiantiles aprendiendo únicamente de las salidas de texto de un modelo maestro propietario, sin acceso a sus logits internos o parámetros. En este trabajo, presentamos la Destilación Adversarial Generativa (GAD), que permite la destilación en política y de caja negra. GAD enmarca al LLM estudiante como un generador y entrena a un discriminador para distinguir sus respuestas de las del LLM maestro, creando un juego minimax. El discriminador actúa como un modelo de recompensa en política que co-evoluciona con el estudiante, proporcionando retroalimentación estable y adaptable. Los resultados experimentales muestran que GAD supera consistentemente a la destilación de conocimiento a nivel de secuencia, comúnmente utilizada. En particular, Qwen2.5-14B-Instruct (estudiante) entrenado con GAD se vuelve comparable a su maestro, GPT-5-Chat, en la evaluación automática LMSYS-Chat. Los resultados establecen a GAD como un paradigma prometedor y efectivo para la destilación de LLM de caja negra.
Si bien los modelos de IA especializados sobresalen en tareas de video aisladas como la generación o la comprensión, las aplicaciones del mundo real exigen flujos de trabajo complejos e iterativos que combinen estas capacidades. Para cerrar esta brecha, presentamos UniVA, un marco de trabajo multiagente, omnicapaz y de código abierto para generalistas de video de próxima generación que unifica la comprensión, segmentación, edición y generación de video en flujos de trabajo cohesivos. UniVA emplea una arquitectura de doble agente Planificar y Actuar que impulsa un flujo de trabajo altamente automatizado y proactivo: un agente planificador interpreta las intenciones del usuario y las descompone en pasos estructurados de procesamiento de video, mientras que los agentes ejecutores los llevan a cabo a través de servidores de herramientas modulares basados en MCP (para análisis, generación, edición, seguimiento, etc.). Mediante una memoria jerárquica multinivel (conocimiento global, contexto de la tarea y preferencias específicas del usuario), UniVA sostiene el razonamiento de largo alcance, la continuidad contextual y la comunicación entre agentes, permitiendo una creación de video interactiva y autorreflexiva con trazabilidad completa. Este diseño permite flujos de trabajo de video iterativos y condicionados de cualquier tipo (por ejemplo, generación condicionada por texto/imagen/video → edición en múltiples rondas → segmentación de objetos → síntesis composicional) que anteriormente eran engorrosos de lograr con modelos de un único propósito o con modelos monolíticos de video-lenguaje. También presentamos UniVA-Bench, un conjunto de benchmarks de tareas de video de múltiples pasos que abarcan comprensión, edición, segmentación y generación, para evaluar rigurosamente dichos sistemas de video agentivos. Tanto UniVA como UniVA-Bench son completamente de código abierto, con el objetivo de catalizar la investigación sobre inteligencia de video interactiva, agentiva y de propósito general para la próxima generación de sistemas de IA multimodal. (https://univa.online/)
La Optimización de Políticas Relativas a Grupos (GRPO) ha demostrado una gran utilidad en el post-entrenamiento de Modelos de Lenguaje a Gran Escala (LLMs). En GRPO, los modelos responden a instrucciones (prompts) y, mediante aprendizaje por refuerzo, aprenden las finalizaciones preferidas. Debido al pequeño volumen de comunicación, GRPO es intrínsecamente adecuado para el entrenamiento descentralizado, ya que las instrucciones pueden ser respondidas concurrentemente por múltiples nodos y luego intercambiadas en forma de cadenas de texto. En este trabajo, presentamos el primer ataque adversarial en GRPO descentralizado. Demostramos que partes maliciosas pueden envenenar dichos sistemas inyectando tokens maliciosos arbitrarios en modelos benignos, tanto en ataques fuera de contexto (out-of-context) como en contexto (in-context). Utilizando ejemplos empíricos de tareas de matemáticas y programación, mostramos que los ataques adversariales pueden envenenar fácilmente los nodos benignos, contaminando su post-entrenamiento local del LLM y alcanzando tasas de éxito de ataque de hasta el 100% en tan solo 50 iteraciones. Proponemos dos formas de defenderse de estos ataques, dependiendo de si todos los usuarios entrenan el mismo modelo o modelos diferentes. Demostramos que estas defensas pueden alcanzar tasas de detención de hasta el 100%, haciendo que el ataque sea imposible.
Los modelos de lenguaje han logrado avances notables en razonamiento, percepción y uso de herramientas, pero encadenar estas capacidades en procesos extendidos a la escala de los ejecutados rutinariamente por humanos, organizaciones y sociedades ha permanecido fuera de su alcance. Los modelos presentan una tasa de error persistente que impide la escalabilidad: por ejemplo, experimentos recientes en el dominio de referencia de las Torres de Hanói mostraron que el proceso inevitablemente se descarrila después de, como máximo, unos pocos cientos de pasos. Por lo tanto, aunque la investigación en LLM aún suele evaluarse en tareas con relativamente pocos pasos lógicos dependientes, existe una atención creciente en la capacidad (o incapacidad) de los LLM para realizar tareas de largo alcance. Este artículo describe MAKER, el primer sistema que resuelve exitosamente una tarea con más de un millón de pasos de LLM sin errores y que, en principio, escala mucho más allá de este nivel. El enfoque se basa en una descomposición extrema de una tarea en subtareas, cada una de las cuales puede ser abordada por microagentes especializados. El alto nivel de modularidad resultante de la descomposición permite aplicar corrección de errores en cada paso mediante un esquema eficiente de votación multiagente. Esta combinación de descomposición extrema y corrección de errores hace posible la escalabilidad. Así, los resultados sugieren que, en lugar de depender de la mejora continua de los LLM actuales, los procesos agentivos masivamente descompuestos (MDAP) pueden ofrecer una forma de resolver problemas eficientemente a nivel de organizaciones y sociedades.
Los modelos de lenguaje a gran escala han logrado avances significativos en problemas complejos pero fáciles de verificar, aunque aún presentan dificultades para descubrir lo desconocido. En este artículo presentamos AlphaResearch, un agente de investigación autónomo diseñado para descubrir nuevos algoritmos en problemas de carácter abierto. Para sinergizar la viabilidad e innovación del proceso de descubrimiento, construimos un novedoso entorno de investigación dual combinando la verificación basada en ejecución con un entorno simulado de revisión por pares del mundo real. AlphaResearch descubre nuevos algoritmos ejecutando iterativamente los siguientes pasos: (1) proponer nuevas ideas, (2) verificar las ideas en el entorno de investigación dual, (3) optimizar las propuestas de investigación para mejorar el rendimiento. Para promover un proceso de evaluación transparente, creamos AlphaResearchComp, un nuevo benchmark de evaluación que incluye una competición de ocho problemas algorítmicos abiertos, donde cada problema ha sido cuidadosamente seleccionado y verificado mediante pipelines ejecutables, métricas objetivas y comprobaciones de reproducibilidad. AlphaResearch obtiene una tasa de éxito de 2/8 en comparaciones directas con investigadores humanos, demostrando la posibilidad de acelerar el descubrimiento de algoritmos con modelos de lenguaje. Cabe destacar que el algoritmo descubierto por AlphaResearch en el problema de "empaquetamiento de círculos" logra el mejor rendimiento conocido, superando los resultados de investigadores humanos y fuertes líneas base de trabajos recientes (por ejemplo, AlphaEvolve). Adicionalmente, realizamos un análisis exhaustivo de los desafíos pendientes en los 6/8 casos de fracaso, proporcionando insights valiosos para futuras investigaciones.
Los modelos de lenguaje extenso (LLM) se entrenan cada vez más con técnicas clásicas de optimización como AdamW para mejorar la convergencia y la generalización. Sin embargo, los mecanismos mediante los cuales los métodos de inspiración cuántica mejoran el entrenamiento clásico siguen sin explorarse suficientemente. Introducimos el Descenso de Gradiente Superposicional (SGD), un optimizador novedoso que vincula las actualizaciones de gradiente con la superposición cuántica mediante la inyección de perturbaciones de circuitos cuánticos. Presentamos un marco matemático e implementamos circuitos híbridos cuántico-clásicos en PyTorch y Qiskit. En tareas de clasificación de secuencias sintéticas y de fine-tuning a gran escala de LLM, SGD converge más rápido y produce una pérdida final menor que AdamW. A pesar de los resultados prometedores, la escalabilidad y las limitaciones del hardware restringen su adopción. En general, este trabajo proporciona nuevas perspectivas sobre la intersección entre la computación cuántica y el aprendizaje profundo, sugiriendo vías prácticas para aprovechar los principios cuánticos para controlar y mejorar el comportamiento de los modelos.
Presentamos Music Flamingo, un novedoso modelo de audio-lenguaje a gran escala diseñado para impulsar la comprensión musical (incluyendo canciones) en los modelos fundamentales de audio. Aunque la investigación en audio-lenguaje ha progresado rápidamente, la música sigue siendo un desafío debido a su naturaleza dinámica, estratificada y densa en información. El progreso se ha visto además limitado por la dificultad de escalar modelos abiertos de comprensión de audio, principalmente debido a la escasez de datos y anotaciones musicales de alta calidad. Como resultado, los modelos anteriores se restringen a producir descripciones cortas y de alto nivel, a responder solo preguntas superficiales y a mostrar una generalización limitada entre diversas culturas musicales. Para abordar estos desafíos, hemos creado MF-Skills, un conjunto de datos a gran escala etiquetado mediante una canalización de múltiples etapas que genera descripciones ricas y pares de preguntas-respuestas que abarcan armonía, estructura, timbre, letra y contexto cultural. Ajustamos un backbone mejorado de Audio Flamingo 3 en MF-Skills y reforzamos aún más múltiples habilidades relevantes para la comprensión musical. Para mejorar las capacidades de razonamiento del modelo, introducimos una receta de post-entrenamiento: primero iniciamos en frío con MF-Think, un novedoso conjunto de datos de cadena de pensamiento basado en teoría musical, seguido de un aprendizaje por refuerzo basado en GRPO con recompensas personalizadas. Music Flamingo logra resultados de vanguardia en más de 10 benchmarks de comprensión y razonamiento musical, estableciéndose como un modelo de audio-lenguaje generalista y musicalmente inteligente. Más allá de los sólidos resultados empíricos, Music Flamingo establece un nuevo estándar para la comprensión musical avanzada al demostrar cómo los modelos pueden pasar del reconocimiento superficial hacia una percepción estratificada y similar a la humana de las canciones. Creemos que este trabajo proporciona tanto un punto de referencia como una base para que la comunidad construya la próxima generación de modelos que interactúen con la música de una manera tan significativa como lo hacen los humanos.
Deep Research (DR) es una aplicación agente emergente que aprovecha los grandes modelos de lenguaje (LLM) para abordar consultas abiertas. Requiere la integración de varias capacidades, que incluyen el razonamiento multi-etapa, la síntesis de múltiples documentos y la generación de respuestas extensas respaldadas por evidencia. La evaluación de DR sigue siendo un desafío porque las respuestas son extensas y diversas, admiten muchas soluciones válidas y a menudo dependen de fuentes de información dinámicas. Presentamos ResearchRubrics, un punto de referencia estandarizado para DR construido con más de 2,800+ horas de trabajo humano, que empareja instrucciones realistas y de diversos dominios con 2,500+ rúbricas detalladas escritas por expertos para evaluar la base fáctica, la solidez del razonamiento y la claridad. También proponemos un nuevo marco de complejidad para categorizar las tareas de DR a lo largo de tres ejes: amplitud conceptual, anidamiento lógico y exploración. Además, desarrollamos protocolos de evaluación basados en humanos y modelos que miden la adherencia a las rúbricas para los agentes de DR. Evaluamos varios sistemas de DR de vanguardia y encontramos que incluso agentes líderes como DR de Gemini y DR de OpenAI logran un cumplimiento promedio inferior al 68% con nuestras rúbricas, principalmente debido a la omisión de contexto implícito y a un razonamiento inadecuado sobre la información recuperada. Nuestros resultados destacan la necesidad de una evaluación robusta y escalable de las capacidades de investigación profunda, para lo cual publicamos ResearchRubrics (incluyendo todas las instrucciones, rúbricas y código de evaluación) para facilitar el progreso hacia asistentes de investigación bien fundamentados.
Los modelos de edición de imágenes basados en instrucciones han logrado recientemente un rendimiento impresionante, permitiendo ediciones complejas en una imagen de entrada a partir de un prompt de múltiples instrucciones. Sin embargo, estos modelos aplican cada instrucción del prompt con una intensidad fija, lo que limita la capacidad del usuario para controlar con precisión y de forma continua la intensidad de las ediciones individuales. Presentamos SliderEdit, un marco de trabajo para la edición continua de imágenes con un control de instrucciones de grano fino e interpretable. Dada una instrucción de edición de múltiples partes, SliderEdit desentrelaza las instrucciones individuales y expone cada una como un control deslizante (slider) entrenado globalmente, permitiendo un ajuste suave de su intensidad. A diferencia de trabajos anteriores que introdujeron controles de atributos basados en sliders en la generación de imágenes a partir de texto, que normalmente requieren entrenamiento o ajuste fino separado para cada atributo o concepto, nuestro método aprende un único conjunto de matrices de adaptación de bajo rango que generalizan a través de diversas ediciones, atributos e instrucciones composicionales. Esto permite una interpolación continua a lo largo de dimensiones de edición individuales mientras se preserva tanto la localidad espacial como la coherencia semántica global. Aplicamos SliderEdit a modelos de edición de imágenes de última generación, incluyendo FLUX-Kontext y Qwen-Image-Edit, y observamos mejoras sustanciales en la controlabilidad de la edición, la consistencia visual y la capacidad de dirección por parte del usuario. Hasta donde sabemos, somos los primeros en explorar y proponer un marco de trabajo para el control continuo y de grano fino de instrucciones en modelos de edición de imágenes basados en instrucciones. Nuestros resultados allanan el camino para la manipulación de imágenes interactiva e impulsada por instrucciones con control continuo y composicional.
La colaboración efectiva entre humanos y agentes en entornos físicos requiere comprender no solo sobre qué actuar, sino también dónde se encuentran los elementos accionables y cómo interactuar con ellos. Los enfoques existentes suelen operar a nivel de objeto o manejan de forma disociada el razonamiento sobre affordances de grano fino, careciendo de una base y un razonamiento coherentes y guiados por instrucciones. En este trabajo, presentamos una nueva tarea: el Razonamiento Corporizado 3D de Grano Fino, que requiere que un agente prediga, para cada elemento de affordance referenciado en una escena 3D, un triplete estructurado que comprende su ubicación espacial, tipo de movimiento y eje de movimiento, basándose en una instrucción de tarea. Para resolver esta tarea, proponemos AffordBot, un marco novedoso que integra Modelos de Lenguaje Grandes Multimodales (MLLMs) con un paradigma de razonamiento de cadena de pensamiento (CoT) adaptado. Para salvar la brecha entre la entrada 3D y los MLLMs compatibles con 2D, renderizamos imágenes de vista envolvente de la escena y proyectamos los candidatos a elementos 3D en estas vistas, formando una representación visual enriquecida alineada con la geometría de la escena. Nuestra canalización CoT comienza con una etapa de percepción activa, que incita al MLLM a seleccionar el punto de vista más informativo basándose en la instrucción, antes de proceder con un razonamiento paso a paso para localizar elementos de affordance e inferir movimientos de interacción plausibles. Evaluado en el conjunto de datos SceneFun3D, AffordBot logra un rendimiento state-of-the-art, demostrando una fuerte generalización y un razonamiento físicamente fundamentado con solo la nube de puntos 3D como entrada y los MLLMs.
Los recientes avances en los modelos de lenguaje a gran escala (LLMs) han logrado un rendimiento impresionante en diversas tareas; sin embargo, la capacidad avanzada de seguimiento de instrucciones (IF), especialmente para instrucciones complejas, multiturno y con indicaciones de sistema, sigue siendo un desafío significativo. La evaluación rigurosa y el entrenamiento efectivo para dichas capacidades se ven obstaculizados por la falta de puntos de referencia de alta calidad anotados por humanos y de señales de recompensa confiables e interpretables. En este trabajo, presentamos AdvancedIF (próximamente liberaremos este benchmark), un punto de referencia integral que incluye más de 1.600 indicaciones y rúbricas curadas por expertos que evalúan la capacidad de los LLMs para seguir instrucciones complejas, multiturno y a nivel de sistema. Además, proponemos RIFL (Aprendizaje de Seguimiento de Instrucciones Basado en Rúbricas), una novedosa canalización de post-entrenamiento que aprovecha la generación de rúbricas, un verificador de rúbricas ajustado y la configuración de recompensas para permitir un aprendizaje por refuerzo efectivo en el seguimiento de instrucciones. Experimentos exhaustivos demuestran que RIFL mejora sustancialmente las capacidades de seguimiento de instrucciones de los LLMs, logrando una ganancia absoluta del 6.7% en AdvancedIF y resultados sólidos en puntos de referencia públicos. Nuestros estudios de ablación confirman la efectividad de cada componente en RIFL. Este trabajo establece a las rúbricas como una herramienta poderosa tanto para entrenar como para evaluar el IF avanzado en LLMs, allanando el camino para sistemas de IA más capaces y confiables.
A pesar de los avances en la calidad de generación, los modelos actuales de texto a imagen (T2I) a menudo carecen de diversidad, produciendo resultados homogéneos. Este trabajo presenta un marco para abordar la necesidad de una evaluación robusta de la diversidad en los modelos T2I. Nuestro marco evalúa sistemáticamente la diversidad analizando conceptos individuales y sus factores relevantes de variación. Las contribuciones clave incluyen: (1) una novedosa plantilla de evaluación humana para una valoración de la diversidad matizada; (2) un conjunto de prompts cuidadosamente seleccionado que abarca conceptos diversos con sus factores de variación identificados (por ejemplo, prompt: *Una imagen de una manzana*, factor de variación: *color*); y (3) una metodología para comparar modelos en función de anotaciones humanas mediante pruebas binomiales. Además, comparamos rigurosamente varios *embeddings* de imagen para la medición de la diversidad. Cabe destacar que nuestro enfoque basado en principios permite clasificar los modelos T2I por su diversidad, identificando categorías en las que presentan dificultades particulares. Esta investigación ofrece una metodología robusta y perspectivas valiosas, allanando el camino para mejorar la diversidad de los modelos T2I y el desarrollo de nuevas métricas.
La capacidad crítica es vital para que los modelos puedan automejorarse y funcionar como asistentes de IA confiables. Aunque ha sido ampliamente estudiada en entornos exclusivamente lingüísticos, la crítica multimodal de los Modelos Multimodales Grandes (LMM) sigue estando poco explorada, a pesar de sus crecientes capacidades en tareas como la generación de subtítulos o el razonamiento visual. En este trabajo, presentamos MM-CRITIC, un benchmark holístico para evaluar la capacidad crítica de los LMM en múltiples dimensiones: básica, de corrección y de comparación. Abarcando 8 tipos principales de tareas y más de 500 tareas, MM-CRITIC recopila respuestas de varios LMM con diferentes tamaños de modelo y está compuesto por 4471 muestras. Para aumentar la fiabilidad de la evaluación, integramos respuestas de referencia informadas por expertos en rúbricas de puntuación que guían a GPT-4o en la anotación de respuestas y la generación de críticas de referencia, que sirven como anclas para juicios confiables. Experimentos exhaustivos validan la efectividad de MM-CRITIC y proporcionan una evaluación integral de las capacidades críticas de los principales LMM bajo múltiples dimensiones. Un análisis más profundo revela algunas ideas clave, incluyendo la correlación entre la calidad de la respuesta y la crítica, y la variación en la dificultad crítica entre las dimensiones de evaluación. Nuestro código está disponible en https://github.com/MichealZeng0420/MM-Critic.
Los sentimientos sobre la reproducibilidad de los artículos citados en la literatura posterior ofrecen perspectivas comunitarias y han demostrado ser una señal prometedora de la reproducibilidad real de los hallazgos publicados. Para entrenar modelos eficaces que predigan sistemáticamente los sentimientos orientados a la reproducibilidad y estudiar su correlación con esta, presentamos el conjunto de datos CC30k, que comprende un total de 30.734 contextos de citas en artículos de aprendizaje automático. Cada contexto de cita está etiquetado con una de tres categorías de sentimiento orientadas a la reproducibilidad: Positivo, Negativo o Neutral, lo que refleja la reproducibilidad o replicabilidad percibida del artículo citado. De estos, 25.829 han sido etiquetados mediante crowdsourcing, complementados con ejemplos negativos generados a través de un proceso controlado para contrarrestar la escasez de etiquetas negativas. A diferencia de los conjuntos de datos tradicionales de análisis de sentimientos, CC30k se centra en los sentimientos relacionados con la reproducibilidad, abordando un vacío investigativo en los recursos para los estudios de reproducibilidad computacional. El conjunto de datos se creó mediante un proceso que incluye una limpieza robusta de datos, una cuidadosa selección de anotadores y una validación exhaustiva. El conjunto de datos resultante alcanza una precisión de etiquetado del 94%. Posteriormente, demostramos que el rendimiento de tres modelos de lenguaje grandes mejora significativamente en la clasificación de sentimientos orientados a la reproducibilidad después de un ajuste fino utilizando nuestro conjunto de datos. Este conjunto de datos sienta las bases para evaluaciones a gran escala de la reproducibilidad de los artículos de aprendizaje automático. El conjunto de datos CC30k y los cuadernos de Jupyter utilizados para producirlo y analizarlo están disponibles públicamente en https://github.com/lamps-lab/CC30k.
Los métodos de clasificación (AC) y segmentación (AS) de anomalías zero-shot tienen como objetivo identificar y delimitar defectos sin utilizar muestras etiquetadas. En este artículo, revelamos una propiedad clave pasada por alto por los métodos existentes: los parches de imágenes normales en productos industriales suelen encontrar muchos otros parches similares, no solo en apariencia 2D sino también en formas 3D, mientras que las anomalías permanecen diversas y aisladas. Para aprovechar explícitamente esta propiedad discriminativa, proponemos un marco de Puntuación Mutua (MuSc-V2) para AC/AS zero-shot, que admite de forma flexible modalidad única 2D/3D o multimodalidad. Específicamente, nuestro método comienza mejorando la representación 3D mediante Agrupación Iterativa de Puntos (IPG), que reduce los falsos positivos provenientes de superficies discontinuas. Luego utilizamos Agregación de Vecindarios por Similitud con Múltiples Grados (SNAMD) para fusionar indicios de vecindarios 2D/3D en características de parches multiescala más discriminativas para la puntuación mutua. El núcleo comprende un Mecanismo de Puntuación Mutua (MSM) que permite a las muestras dentro de cada modalidad asignarse puntuación entre sí, y una Mejora de Anomalías Cross-modal (CAE) que fusiona las puntuaciones 2D y 3D para recuperar anomalías faltantes específicas de cada modalidad. Finalmente, la Repuntuación con Vecindario Restringido (RsCon) suprime la clasificación falsa basándose en la similitud con muestras más representativas. Nuestro marco funciona de manera flexible tanto en el conjunto de datos completo como en subconjuntos más pequeños con un rendimiento consistentemente robusto, garantizando una adaptabilidad perfecta en diversas líneas de productos. Gracias a este novedoso marco, MuSc-V2 logra mejoras significativas de rendimiento: una ganancia de +23.7% AP en el conjunto de datos MVTec 3D-AD y un aumento de +19.3% en el conjunto de datos Eyecandies, superando los benchmarks zero-shot anteriores e incluso superando a la mayoría de los métodos few-shot. El código estará disponible en https://github.com/HUST-SLOW/MuSc-V2.