Artículos de investigación en IA seleccionados diariamente con traducciones
Inspirados por el éxito de DeepSeek-R1 en la elicitación de habilidades de razonamiento mediante el aprendizaje por refuerzo (RL) basado en reglas, presentamos Video-R1 como el primer intento de explorar sistemáticamente el paradigma R1 para la elicitación del razonamiento en videos dentro de modelos de lenguaje multimodal de gran escala (MLLMs). Sin embargo, la aplicación directa del entrenamiento RL con el algoritmo GRPO al razonamiento en videos presenta dos desafíos principales: (i) la falta de modelado temporal para el razonamiento en videos, y (ii) la escasez de datos de alta calidad para el razonamiento en videos. Para abordar estos problemas, primero proponemos el algoritmo T-GRPO, que fomenta que los modelos utilicen información temporal en los videos para el razonamiento. Además, en lugar de depender únicamente de datos de video, incorporamos datos de alta calidad para el razonamiento en imágenes en el proceso de entrenamiento. Hemos construido dos conjuntos de datos: Video-R1-COT-165k para el arranque en frío SFT y Video-R1-260k para el entrenamiento RL, ambos compuestos por datos de imágenes y videos. Los resultados experimentales demuestran que Video-R1 logra mejoras significativas en benchmarks de razonamiento en videos como VideoMMMU y VSI-Bench, así como en benchmarks generales de video como MVBench y TempCompass, entre otros. Destacablemente, Video-R1-7B alcanza un 35.8% de precisión en el benchmark de razonamiento espacial en videos VSI-Bench, superando al modelo comercial propietario GPT-4o. Todos los códigos, modelos y datos han sido liberados.
La era de los agentes inteligentes está sobre nosotros, impulsada por avances revolucionarios en los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés). Los agentes basados en LLM, con comportamientos orientados a objetivos y capacidades de adaptación dinámica, representan potencialmente una vía crítica hacia la inteligencia artificial general. Este estudio deconstruye sistemáticamente los sistemas de agentes LLM a través de una taxonomía centrada en metodologías, vinculando fundamentos arquitectónicos, mecanismos de colaboración y vías evolutivas. Unificamos hilos de investigación fragmentados al revelar conexiones fundamentales entre los principios de diseño de agentes y sus comportamientos emergentes en entornos complejos. Nuestro trabajo ofrece una perspectiva arquitectónica unificada, examinando cómo se construyen los agentes, cómo colaboran y cómo evolucionan con el tiempo, al mismo tiempo que aborda metodologías de evaluación, aplicaciones de herramientas, desafíos prácticos y diversos dominios de aplicación. Al revisar los últimos desarrollos en este campo en rápida evolución, ofrecemos a los investigadores una taxonomía estructurada para comprender los agentes LLM e identificamos direcciones prometedoras para futuras investigaciones. La colección está disponible en https://github.com/luo-junyu/Awesome-Agent-Papers.
El reciente DeepSeek-R1 ha demostrado la aparición de capacidades de razonamiento en los modelos de lenguaje grandes (LLMs) mediante el aprendizaje por refuerzo (RL) con recompensas basadas en reglas. Basándonos en esta idea, somos los primeros en explorar cómo el RL basado en reglas puede mejorar las capacidades de razonamiento de los modelos de lenguaje grandes multimodales (MLLMs) para tareas de predicción de acciones en interfaces gráficas de usuario (GUI). Para ello, hemos creado un conjunto de datos pequeño pero de alta calidad que incluye 136 tareas desafiantes, abarcando cinco tipos de acciones comunes en dispositivos móviles. También introducimos una recompensa de acción unificada basada en reglas, permitiendo la optimización del modelo mediante algoritmos basados en políticas como Group Relative Policy Optimization (GRPO). Los resultados experimentales demuestran que nuestro modelo propuesto, eficiente en datos, UI-R1-3B, logra mejoras sustanciales tanto en tareas dentro del dominio (ID) como fuera del dominio (OOD). Específicamente, en el benchmark ID AndroidControl, la precisión del tipo de acción mejora en un 15%, mientras que la precisión de localización aumenta en un 10.3%, en comparación con el modelo base (es decir, Qwen2.5-VL-3B). En el benchmark OOD de localización en GUI ScreenSpot-Pro, nuestro modelo supera al modelo base en un 6.0% y alcanza un rendimiento competitivo con modelos más grandes (por ejemplo, OS-Atlas-7B), los cuales están entrenados mediante ajuste fino supervisado (SFT) en 76K datos. Estos resultados subrayan el potencial del aprendizaje por refuerzo basado en reglas para avanzar en la comprensión y control de GUI, allanando el camino para futuras investigaciones en este dominio.
En los últimos años, el rápido desarrollo de modelos de razonamiento a gran escala ha llevado a la saturación de los benchmarks existentes para evaluar el razonamiento matemático, destacando la urgente necesidad de marcos de evaluación más desafiantes y rigurosos. Para abordar esta brecha, presentamos OlymMATH, un novedoso benchmark matemático de nivel olímpico, diseñado para evaluar rigurosamente las capacidades de razonamiento complejo de los LLMs. OlymMATH incluye 200 problemas cuidadosamente seleccionados, cada uno verificado manualmente y disponible en versiones paralelas en inglés y chino. Los problemas están organizados sistemáticamente en dos niveles de dificultad distintos: (1) problemas de nivel AIME (fáciles) que establecen una línea base para la evaluación del razonamiento matemático, y (2) problemas significativamente más desafiantes (difíciles) diseñados para superar los límites de los modelos más avanzados actuales. En nuestro benchmark, estos problemas abarcan cuatro campos matemáticos principales, cada uno incluyendo una solución numérica verificable para permitir una evaluación objetiva basada en reglas. Los resultados empíricos subrayan el desafío significativo que presenta OlymMATH, con modelos de última generación como DeepSeek-R1 y el o3-mini de OpenAI mostrando una precisión notablemente limitada en el subconjunto de problemas difíciles. Además, el benchmark facilita una evaluación bilingüe integral de las habilidades de razonamiento matemático, una dimensión crítica que sigue siendo en gran medida desatendida en los benchmarks de razonamiento matemático convencionales. Publicamos el benchmark OlymMATH en el proyecto STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
La generación de videos ha avanzado significativamente, evolucionando desde la producción de resultados poco realistas hasta la generación de videos que parecen visualmente convincentes y temporalmente coherentes. Para evaluar estos modelos generativos de video, se han desarrollado puntos de referencia como VBench, que miden su fidelidad, evaluando factores como la estética por fotograma, la consistencia temporal y la adherencia básica al prompt. Sin embargo, estos aspectos representan principalmente una fidelidad superficial, que se centra en si el video parece visualmente convincente en lugar de si se ajusta a los principios del mundo real. Aunque los modelos recientes obtienen resultados cada vez mejores en estas métricas, todavía luchan por generar videos que no solo sean visualmente plausibles, sino fundamentalmente realistas. Para lograr verdaderos "modelos del mundo" a través de la generación de video, la próxima frontera radica en la fidelidad intrínseca, asegurando que los videos generados se ajusten a las leyes físicas, el razonamiento de sentido común, la corrección anatómica y la integridad compositiva. Alcanzar este nivel de realismo es esencial para aplicaciones como la producción cinematográfica asistida por IA y el modelado de mundos simulados. Para cerrar esta brecha, presentamos VBench-2.0, un punto de referencia de próxima generación diseñado para evaluar automáticamente los modelos generativos de video en términos de su fidelidad intrínseca. VBench-2.0 evalúa cinco dimensiones clave: Fidelidad Humana, Controlabilidad, Creatividad, Física y Sentido Común, cada una desglosada en capacidades más detalladas. Adaptado para dimensiones individuales, nuestro marco de evaluación integra generalistas, como los VLMs y LLMs más avanzados, y especialistas, incluyendo métodos de detección de anomalías propuestos para la generación de video. Realizamos anotaciones extensas para garantizar la alineación con el juicio humano. Al ir más allá de la fidelidad superficial hacia la fidelidad intrínseca, VBench-2.0 tiene como objetivo establecer un nuevo estándar para la próxima generación de modelos generativos de video en la búsqueda de la fidelidad intrínseca.
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) exhiben habilidades de razonamiento notables, pero dependen principalmente del conocimiento paramétrico, lo que limita su precisión factual. Aunque trabajos recientes han equipado a los LRMs basados en aprendizaje por refuerzo (RL) con capacidades de recuperación de información, estos sufren de "sobrepensamiento" y carecen de robustez en el razonamiento, reduciendo su efectividad en tareas de respuesta a preguntas (QA). Para abordar esto, proponemos ReaRAG, un modelo de razonamiento mejorado en factualidad que explora consultas diversas sin iteraciones excesivas. Nuestra solución incluye un marco novedoso de construcción de datos con un límite superior en la longitud de la cadena de razonamiento. Específicamente, primero aprovechamos un LRM para generar pensamiento deliberado, luego seleccionamos una acción de un espacio de acciones predefinido (Buscar y Finalizar). Para la acción Buscar, se ejecuta una consulta en el motor RAG, donde el resultado se devuelve como observación para guiar los pasos de razonamiento posteriores. Este proceso se repite hasta que se elige una acción Finalizar. Beneficiándose de las fuertes capacidades de razonamiento de ReaRAG, nuestro enfoque supera a los baselines existentes en QA de múltiples saltos. Un análisis adicional destaca su fuerte capacidad reflexiva para reconocer errores y refinar su trayectoria de razonamiento. Nuestro estudio mejora la factualidad de los LRMs mientras integra efectivamente un razonamiento robusto para la Generación Aumentada por Recuperación (RAG).
Presentamos LeX-Art, un conjunto integral para la síntesis de texto-imagen de alta calidad que cierra sistemáticamente la brecha entre la expresividad de los prompts y la fidelidad en la representación del texto. Nuestro enfoque sigue un paradigma centrado en los datos, construyendo una canalización de síntesis de datos de alta calidad basada en Deepseek-R1 para curar LeX-10K, un conjunto de datos de 10K imágenes de alta resolución y estéticamente refinadas de 1024x1024 píxeles. Más allá de la construcción del conjunto de datos, desarrollamos LeX-Enhancer, un modelo robusto de enriquecimiento de prompts, y entrenamos dos modelos de texto a imagen, LeX-FLUX y LeX-Lumina, logrando un rendimiento de vanguardia en la representación de texto. Para evaluar sistemáticamente la generación de texto visual, introducimos LeX-Bench, un benchmark que evalúa la fidelidad, la estética y la alineación, complementado por la Distancia de Edición Normalizada por Pares (PNED), una métrica novedosa para la evaluación robusta de la precisión del texto. Los experimentos demuestran mejoras significativas, con LeX-Lumina logrando un aumento del 79.81% en PNED en CreateBench, y LeX-FLUX superando a los baselines en precisión de color (+3.18%), posición (+4.45%) y tipografía (+3.81%). Nuestros códigos, modelos, conjuntos de datos y demo están disponibles públicamente.
Los retratos de videochat interactivos en tiempo real han sido cada vez más reconocidos como la tendencia futura, particularmente debido al notable progreso alcanzado en las tecnologías de chat de texto y voz. Sin embargo, los métodos existentes se centran principalmente en la generación en tiempo real de movimientos de la cabeza, pero tienen dificultades para producir movimientos corporales sincronizados que coincidan con estas acciones de la cabeza. Además, lograr un control detallado sobre el estilo de habla y los matices de las expresiones faciales sigue siendo un desafío. Para abordar estas limitaciones, presentamos un marco novedoso para la generación de retratos de video estilizados en tiempo real, permitiendo un videochat expresivo y flexible que se extiende desde la cabeza parlante hasta la interacción de la parte superior del cuerpo. Nuestro enfoque consta de las siguientes dos etapas. La primera etapa involucra modelos eficientes de difusión de movimiento jerárquico, que consideran tanto representaciones de movimiento explícitas como implícitas basadas en entradas de audio, lo que puede generar una amplia gama de expresiones faciales con control estilístico y sincronización entre los movimientos de la cabeza y el cuerpo. La segunda etapa tiene como objetivo generar videos de retrato que incluyan movimientos de la parte superior del cuerpo, incluyendo gestos con las manos. Inyectamos señales de control explícitas de las manos en el generador para producir movimientos de manos más detallados, y además realizamos un refinamiento facial para mejorar el realismo y la expresividad general del video de retrato. Adicionalmente, nuestro enfoque soporta la generación eficiente y continua de videos de retrato de la parte superior del cuerpo en una resolución máxima de 512 * 768 a hasta 30 fps en una GPU 4090, permitiendo videochat interactivo en tiempo real. Los resultados experimentales demuestran la capacidad de nuestro enfoque para producir videos de retrato con una rica expresividad y movimientos naturales de la parte superior del cuerpo.
Presentamos Lumina-Image 2.0, un marco avanzado de generación de texto a imagen que logra un progreso significativo en comparación con trabajos anteriores, Lumina-Next. Lumina-Image 2.0 se basa en dos principios clave: (1) Unificación: adopta una arquitectura unificada (Unified Next-DiT) que trata los tokens de texto e imagen como una secuencia conjunta, permitiendo interacciones multimodales naturales y facilitando la expansión fluida de tareas. Además, dado que los sistemas de subtitulado de alta calidad pueden proporcionar pares de entrenamiento texto-imagen semánticamente alineados, introducimos un sistema de subtitulado unificado, Unified Captioner (UniCap), diseñado específicamente para tareas de generación de texto a imagen (T2I). UniCap destaca por generar subtítulos completos y precisos, acelerando la convergencia y mejorando la adherencia a las indicaciones. (2) Eficiencia: para mejorar la eficiencia de nuestro modelo propuesto, desarrollamos estrategias de entrenamiento progresivo en múltiples etapas e introducimos técnicas de aceleración de inferencia sin comprometer la calidad de la imagen. Evaluaciones exhaustivas en benchmarks académicos y arenas públicas de texto a imagen demuestran que Lumina-Image 2.0 ofrece un rendimiento sólido incluso con solo 2.6 mil millones de parámetros, destacando su escalabilidad y eficiencia de diseño. Hemos publicado los detalles de entrenamiento, el código y los modelos en https://github.com/Alpha-VLLM/Lumina-Image-2.0.
Los recientes avances en los modelos de pensamiento profundo han demostrado capacidades de razonamiento notables en tareas matemáticas y de codificación. Sin embargo, su efectividad en dominios encarnados que requieren interacción continua con entornos a través de trayectorias intercaladas de imágenes y acciones sigue siendo en gran medida inexplorada. Presentamos Embodied Reasoner, un modelo que extiende el razonamiento estilo o1 a tareas de búsqueda encarnada interactiva. A diferencia del razonamiento matemático que se basa principalmente en la deducción lógica, los escenarios encarnados exigen comprensión espacial, razonamiento temporal y reflexión continua basada en el historial de interacciones. Para abordar estos desafíos, sintetizamos 9.3k trayectorias coherentes de Observación-Pensamiento-Acción que contienen 64k imágenes interactivas y 90k procesos de pensamiento diversos (análisis, razonamiento espacial, reflexión, planificación y verificación). Desarrollamos una canalización de entrenamiento de tres etapas que mejora progresivamente las capacidades del modelo a través del aprendizaje por imitación, la autoexploración mediante muestreo por rechazo y la autocorrección mediante ajuste de reflexión. La evaluación muestra que nuestro modelo supera significativamente a los modelos avanzados de razonamiento visual, por ejemplo, supera a OpenAI o1, o3-mini y Claude-3.7 en un +9%, 24% y +13%, respectivamente. El análisis revela que nuestro modelo exhibe menos búsquedas repetidas e inconsistencias lógicas, con ventajas particulares en tareas complejas de largo horizonte. Los entornos del mundo real también muestran nuestra superioridad, exhibiendo menos casos de búsquedas repetidas e inconsistencias lógicas.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado potencial para asistir en la investigación científica, aunque su capacidad para descubrir hipótesis de investigación de alta calidad sigue sin examinarse debido a la falta de un punto de referencia dedicado. Para abordar esta brecha, presentamos el primer punto de referencia a gran escala para evaluar LLMs con un conjunto casi suficiente de sub-tareas de descubrimiento científico: recuperación de inspiración, composición de hipótesis y clasificación de hipótesis. Desarrollamos un marco automatizado que extrae componentes críticos —preguntas de investigación, revisiones de antecedentes, inspiraciones e hipótesis— de artículos científicos en 12 disciplinas, con validación experta que confirma su precisión. Para evitar la contaminación de datos, nos enfocamos exclusivamente en artículos publicados en 2024, asegurando una superposición mínima con los datos de preentrenamiento de los LLMs. Nuestra evaluación revela que los LLMs tienen un buen desempeño en la recuperación de inspiraciones, una tarea fuera de distribución, lo que sugiere su capacidad para resaltar asociaciones de conocimiento novedosas. Esto posiciona a los LLMs como "minas de hipótesis de investigación", capaces de facilitar el descubrimiento científico automatizado al generar hipótesis innovadoras a gran escala con una intervención humana mínima.
Los Modelos de Lenguaje de Gran Escala para Audio (AudioLLMs) han recibido una atención generalizada y han mejorado significativamente el rendimiento en tareas de audio como conversación, comprensión de audio y reconocimiento automático de voz (ASR). A pesar de estos avances, existe una ausencia de un punto de referencia para evaluar AudioLLMs en escenarios financieros, donde los datos de audio, como las llamadas de conferencias de resultados y los discursos de CEOs, son recursos cruciales para el análisis financiero y las decisiones de inversión. En este artículo, presentamos FinAudio, el primer punto de referencia diseñado para evaluar la capacidad de los AudioLLMs en el dominio financiero. Primero definimos tres tareas basadas en las características únicas del dominio financiero: 1) ASR para audio financiero corto, 2) ASR para audio financiero largo, y 3) resumen de audio financiero largo. Luego, recopilamos dos conjuntos de datos de audio corto y dos de audio largo, respectivamente, y desarrollamos un nuevo conjunto de datos para el resumen de audio financiero, que conforman el punto de referencia FinAudio. Posteriormente, evaluamos siete AudioLLMs prevalentes en FinAudio. Nuestra evaluación revela las limitaciones de los AudioLLMs existentes en el dominio financiero y ofrece ideas para mejorar los AudioLLMs. Todos los conjuntos de datos y códigos serán publicados.
Investigamos cómo mejorar la fidelidad física de los modelos de generación de vídeo aprovechando vídeos sintéticos derivados de pipelines de gráficos por computadora. Estos vídeos renderizados respetan la física del mundo real, como mantener la consistencia 3D, y sirven como un recurso valioso que puede potencialmente mejorar los modelos de generación de vídeo. Para aprovechar este potencial, proponemos una solución que selecciona e integra datos sintéticos mientras introduce un método para transferir su realismo físico al modelo, reduciendo significativamente los artefactos no deseados. A través de experimentos en tres tareas representativas que enfatizan la consistencia física, demostramos su eficacia en la mejora de la fidelidad física. Aunque nuestro modelo aún carece de una comprensión profunda de la física, nuestro trabajo ofrece una de las primeras demostraciones empíricas de que el vídeo sintético mejora la fidelidad física en la síntesis de vídeo. Sitio web: https://kevinz8866.github.io/simulation/
Los modelos de difusión logran una calidad de generación notable, pero sufren de un muestreo computacionalmente intensivo debido a una discretización de pasos subóptima. Mientras que trabajos existentes se centran en optimizar las direcciones de eliminación de ruido, nosotros abordamos el diseño fundamentado de los calendarios de tamaño de paso. Este artículo propone la Destilación de Tamaño de Paso Óptimo, un marco de programación dinámica que extrae calendarios teóricamente óptimos al destilar conocimiento de trayectorias de referencia. Al reformular la optimización del tamaño de paso como una minimización recursiva de errores, nuestro método garantiza límites globales de discretización mediante la explotación de subestructuras óptimas. Crucialmente, los calendarios destilados demuestran una fuerte robustez en arquitecturas, solucionadores de EDO y calendarios de ruido. Los experimentos muestran una generación de texto a imagen 10 veces más rápida mientras se preserva un 99.4% del rendimiento en GenEval. Nuestro código está disponible en https://github.com/bebebe666/OptimalSteps.
Los recientes avances en la generación de videos han experimentado un progreso significativo, especialmente con el rápido desarrollo de los modelos de difusión. A pesar de esto, sus deficiencias en la cognición física han recibido gradualmente una atención generalizada: el contenido generado a menudo viola las leyes fundamentales de la física, cayendo en el dilema de "realismo visual pero absurdo físico". Los investigadores han comenzado a reconocer cada vez más la importancia de la fidelidad física en la generación de videos y han intentado integrar cogniciones físicas heurísticas, como representaciones de movimiento y conocimiento físico, en los sistemas generativos para simular escenarios dinámicos del mundo real. Considerando la falta de una visión sistemática en este campo, este estudio tiene como objetivo proporcionar un resumen exhaustivo de los diseños de arquitectura y sus aplicaciones para llenar este vacío. Específicamente, discutimos y organizamos el proceso evolutivo de la cognición física en la generación de videos desde una perspectiva de la ciencia cognitiva, mientras proponemos una taxonomía de tres niveles: 1) percepción de esquema básico para la generación, 2) cognición pasiva del conocimiento físico para la generación, y 3) cognición activa para la simulación del mundo, abarcando métodos de vanguardia, paradigmas clásicos y puntos de referencia. Posteriormente, enfatizamos los desafíos clave inherentes en este dominio y delineamos posibles vías para futuras investigaciones, contribuyendo a avanzar las fronteras de la discusión tanto en la academia como en la industria. A través de una revisión estructurada y un análisis interdisciplinario, este estudio tiene como objetivo proporcionar una guía direccional para el desarrollo de paradigmas de generación de videos interpretables, controlables y físicamente consistentes, impulsando así los modelos generativos desde la etapa de "mimetismo visual" hacia una nueva fase de "comprensión física similar a la humana".
Los modelos de segmentación semántica de vocabulario abierto asocian visión y texto para etiquetar píxeles de un conjunto indefinido de clases utilizando consultas textuales, ofreciendo un rendimiento versátil en conjuntos de datos novedosos. Sin embargo, grandes diferencias entre los dominios de entrenamiento y prueba degradan su rendimiento, requiriendo ajustes finos para aplicaciones efectivas en el mundo real. Presentamos Semantic Library Adaptation (SemLA), un marco novedoso para la adaptación de dominio en tiempo de prueba sin necesidad de entrenamiento adicional. SemLA aprovecha una biblioteca de adaptadores basados en LoRA indexados con incrustaciones CLIP, fusionando dinámicamente los adaptadores más relevantes según la proximidad al dominio objetivo en el espacio de incrustaciones. Este enfoque construye un modelo ad-hoc adaptado a cada entrada específica sin entrenamiento adicional. Nuestro método escala eficientemente, mejora la explicabilidad al rastrear las contribuciones de los adaptadores y protege inherentemente la privacidad de los datos, haciéndolo ideal para aplicaciones sensibles. Experimentos exhaustivos en un benchmark de 20 dominios construido sobre 10 conjuntos de datos estándar demuestran la superior adaptabilidad y rendimiento de SemLA en diversos entornos, estableciendo un nuevo estándar en la adaptación de dominio para la segmentación semántica de vocabulario abierto.
Los modelos generativos multimodales que pueden comprender y generar contenido a través de múltiples modalidades están dominados por enfoques autorregresivos (AR), que procesan tokens secuencialmente de izquierda a derecha o de arriba hacia abajo. Estos modelos manejan conjuntamente imágenes, texto, video y audio para diversas tareas, como la generación de subtítulos para imágenes, la respuesta a preguntas y la generación de imágenes. En este trabajo, exploramos los modelos de difusión discreta como una formulación generativa unificada en el dominio conjunto de texto e imágenes, basándonos en su reciente éxito en la generación de texto. Los modelos de difusión discreta ofrecen varias ventajas sobre los modelos AR, incluyendo un mayor control sobre la calidad versus la diversidad de las muestras generadas, la capacidad de realizar inpainting multimodal conjunto (en los dominios de texto e imágenes) y una mayor controlabilidad en la generación mediante guías. Aprovechando estos beneficios, presentamos el primer Modelo de Difusión Discreta Multimodal Unificado (UniDisc), que es capaz de comprender y generar conjuntamente texto e imágenes para una variedad de tareas posteriores. Comparamos UniDisc con modelos AR multimodales, realizando un análisis de escalabilidad y demostrando que UniDisc supera a estos en términos de rendimiento y cómputo en tiempo de inferencia, controlabilidad mejorada, capacidad de edición, inpainting y un equilibrio flexible entre el tiempo de inferencia y la calidad de la generación. El código y visualizaciones adicionales están disponibles en https://unidisc.github.io.
Este artículo presenta la propuesta del equipo ZJUKLAB para la tarea 4 de SemEval-2025: Eliminación de contenido sensible en modelos de lenguaje grandes. Esta tarea tiene como objetivo eliminar selectivamente conocimiento sensible de los modelos de lenguaje grandes, evitando tanto problemas de olvido excesivo como insuficiente. Proponemos un sistema de eliminación que aprovecha la fusión de modelos (específicamente TIES-Merging), combinando dos modelos especializados en un modelo más equilibrado tras la eliminación. Nuestro sistema logra resultados competitivos, ocupando el segundo lugar entre 26 equipos, con una puntuación en línea de 0.944 para la Agregación de la Tarea y 0.487 para la Agregación general. En este artículo, también realizamos experimentos locales y llevamos a cabo un análisis exhaustivo del proceso de eliminación, examinando trayectorias de rendimiento, dinámicas de pérdida y perspectivas de pesos, junto con varios experimentos complementarios, para comprender la efectividad de nuestro método. Además, analizamos las limitaciones de nuestro método y las métricas de evaluación, destacando que las puntuaciones MIA y las métricas basadas en ROUGE por sí solas son insuficientes para evaluar completamente la eliminación exitosa. Finalmente, enfatizamos la necesidad de metodologías de evaluación más completas y una reconsideración de los objetivos de eliminación en investigaciones futuras. El código está disponible en https://github.com/zjunlp/unlearn/tree/main/semeval25.
Los recientes avances en modelos 2D y multimodales han logrado un éxito notable al aprovechar el entrenamiento a gran escala en extensos conjuntos de datos. Sin embargo, extender estos logros para permitir interacciones de forma libre y operaciones semánticas de alto nivel con escenas 3D/4D complejas sigue siendo un desafío. Esta dificultad surge de la disponibilidad limitada de conjuntos de datos 3D/4D o multivista anotados a gran escala, que son cruciales para tareas generalizables de visión y lenguaje, como la segmentación basada en vocabulario abierto y en indicaciones, la edición guiada por lenguaje y la respuesta a preguntas visuales (VQA). En este artículo, presentamos Feature4X, un marco universal diseñado para extender cualquier funcionalidad de un modelo de visión 2D al ámbito 4D, utilizando únicamente entrada de video monocular, ampliamente disponible en contenido generado por usuarios. La "X" en Feature4X representa su versatilidad, permitiendo cualquier tarea a través de la destilación adaptable de campos de características 4D condicionados por modelos. En el núcleo de nuestro marco se encuentra una estrategia de optimización dinámica que unifica múltiples capacidades de modelos en una única representación. Además, hasta donde sabemos, Feature4X es el primer método en destilar y elevar las características de modelos de video fundamentales (por ejemplo, SAM2, InternVideo2) a un campo de características 4D explícito utilizando Gaussian Splatting. Nuestros experimentos muestran la segmentación de cualquier cosa en nuevas vistas, la edición geométrica y de apariencia de escenas, y VQA de forma libre en todos los pasos de tiempo, potenciados por LLMs en bucles de retroalimentación. Estos avances amplían el alcance de las aplicaciones de IA agentica al proporcionar una base para sistemas escalables, conscientes del contexto y espacio-tiempo, capaces de interacción inmersiva con escenas dinámicas 4D.
Las entradas que provocan fallos desempeñan un papel crucial en el diagnóstico y análisis de errores de software. Los informes de errores suelen contener estas entradas, que los desarrolladores extraen para facilitar la depuración. Dado que los informes de errores están escritos en lenguaje natural, investigaciones previas han aprovechado diversas técnicas de Procesamiento del Lenguaje Natural (PLN) para la extracción automatizada de entradas. Con el surgimiento de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés), surge una pregunta de investigación importante: ¿qué tan efectivamente pueden los LLM generativos extraer entradas que provocan fallos de los informes de errores? En este artículo, proponemos LLPut, una técnica para evaluar empíricamente el rendimiento de tres LLM generativos de código abierto —LLaMA, Qwen y Qwen-Coder— en la extracción de entradas relevantes de informes de errores. Realizamos una evaluación experimental en un conjunto de datos de 206 informes de errores para evaluar la precisión y efectividad de estos modelos. Nuestros hallazgos proporcionan información sobre las capacidades y limitaciones de los LLM generativos en el diagnóstico automatizado de errores.
La consistencia temporal es crucial en la predicción de videos para garantizar que las salidas sean coherentes y estén libres de artefactos. Los métodos tradicionales, como la atención temporal y la convolución 3D, pueden tener dificultades con movimientos significativos de objetos y no capturar dependencias temporales de largo alcance en escenas dinámicas. Para abordar esta limitación, proponemos la Capa de Tracktention, un componente arquitectónico novedoso que integra explícitamente información de movimiento utilizando pistas de puntos, es decir, secuencias de puntos correspondientes a lo largo de los fotogramas. Al incorporar estas señales de movimiento, la Capa de Tracktention mejora la alineación temporal y maneja eficazmente movimientos complejos de objetos, manteniendo representaciones de características consistentes a lo largo del tiempo. Nuestro enfoque es computacionalmente eficiente y puede integrarse sin problemas en modelos existentes, como los Transformers de Visión, con modificaciones mínimas. Puede utilizarse para actualizar modelos diseñados únicamente para imágenes a modelos de última generación para video, superando en ocasiones a modelos diseñados nativamente para la predicción de video. Demostramos esto en la predicción de profundidad de video y la colorización de video, donde los modelos mejorados con la Capa de Tracktention muestran una consistencia temporal significativamente mejorada en comparación con los modelos base.
La edición de imágenes guiada por texto tiene como objetivo modificar regiones específicas de una imagen según instrucciones en lenguaje natural, manteniendo la estructura general y la fidelidad del fondo. Los métodos existentes utilizan máscaras derivadas de mapas de atención cruzada generados por modelos de difusión para identificar las regiones objetivo que deben modificarse. Sin embargo, dado que los mecanismos de atención cruzada se centran en la relevancia semántica, tienen dificultades para mantener la integridad de la imagen. Como resultado, estos métodos a menudo carecen de consistencia espacial, lo que lleva a artefactos y distorsiones en la edición. En este trabajo, abordamos estas limitaciones e introducimos LOCATEdit, que mejora los mapas de atención cruzada mediante un enfoque basado en grafos que utiliza relaciones entre parches derivadas de la auto-atención para mantener una atención suave y coherente en las regiones de la imagen, asegurando que las alteraciones se limiten a los elementos designados mientras se conserva la estructura circundante. \method supera de manera consistente y sustancial a los métodos de referencia en PIE-Bench, demostrando su rendimiento de vanguardia y efectividad en diversas tareas de edición. El código está disponible en https://github.com/LOCATEdit/LOCATEdit/.