Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han demostrado un rendimiento notable en tareas de razonamiento. Utilizan la generación de tokens autoregresiva para construir trayectorias de razonamiento, lo que permite el desarrollo de una cadena coherente de pensamiento. En este trabajo, exploramos el impacto de los tokens individuales en los resultados finales de las tareas de razonamiento. Identificamos la existencia de "tokens críticos" que conducen a trayectorias de razonamiento incorrectas en los LLMs. Específicamente, descubrimos que los LLMs tienden a producir resultados positivos cuando se les obliga a decodificar otros tokens en lugar de los tokens críticos. Motivados por esta observación, proponemos un enfoque novedoso - cDPO - diseñado para reconocer automáticamente y llevar a cabo recompensas a nivel de token para los tokens críticos durante el proceso de alineación. Específicamente, desarrollamos un enfoque de estimación contrastiva para identificar automáticamente los tokens críticos. Esto se logra comparando la probabilidad de generación de modelos positivos y negativos. Para lograrlo, ajustamos por separado los modelos positivos y negativos en varias trayectorias de razonamiento, lo que les permite identificar los tokens críticos dentro de las trayectorias incorrectas que contribuyen a resultados erróneos. Además, para alinear aún más el modelo con la información del token crítico durante el proceso de alineación, extendemos los algoritmos DPO convencionales a DPO a nivel de token y utilizamos la verosimilitud diferencial de los mencionados modelos positivos y negativos como un peso importante para el aprendizaje de DPO a nivel de token. Los resultados experimentales en los benchmarks GSM8K y MATH500 con los modelos ampliamente utilizados Llama-3 (8B y 70B) y deepseek-math (7B) demuestran la efectividad del enfoque propuesto cDPO.
Los modelos actuales de generación de video destacan en la creación de clips cortos pero aún tienen dificultades para producir videos con múltiples tomas, similares a películas. Los modelos existentes, entrenados con grandes conjuntos de datos y recursos computacionales abundantes, resultan insuficientes para mantener una trama lógica y coherencia visual a lo largo de múltiples tomas de un guion cohesivo, ya que a menudo son entrenados con un objetivo de una sola toma. Con este fin, proponemos VideoGen-of-Thought (VGoT), una arquitectura colaborativa y libre de entrenamiento diseñada específicamente para la generación de videos con múltiples tomas. VGoT se ha diseñado con tres objetivos en mente de la siguiente manera. Generación de Video con Múltiples Tomas: Dividimos el proceso de generación de video en una secuencia estructurada y modular, que incluye (1) Generación de Guion, que traduce una historia concisa en indicaciones detalladas para cada toma; (2) Generación de Fotogramas Clave, responsable de crear fotogramas clave visualmente consistentes fieles a las representaciones de los personajes; y (3) Generación de Video a Nivel de Toma, que transforma la información de los guiones y fotogramas clave en tomas; (4) Mecanismo de Suavizado que garantiza una salida con múltiples tomas consistente. Diseño Narrativo Razonable: Inspirados en la escritura de guiones cinematográficos, nuestro enfoque de generación de indicaciones abarca cinco dominios clave, asegurando coherencia lógica, desarrollo de personajes y flujo narrativo a lo largo de todo el video. Coherencia entre Tomas: Garantizamos la consistencia temporal e identitaria mediante el aprovechamiento de incrustaciones preservadoras de identidad (IP) entre tomas, que se crean automáticamente a partir de la narrativa. Además, incorporamos un mecanismo de suavizado entre tomas, que integra un límite de reinicio que combina de manera efectiva características latentes de tomas adyacentes, resultando en transiciones suaves y manteniendo la coherencia visual a lo largo del video. Nuestros experimentos demuestran que VGoT supera a los métodos existentes de generación de video al producir videos con múltiples tomas de alta calidad y coherentes.
Facilitar la colaboración efectiva entre LLMs es un paso crucial hacia el desarrollo de sistemas autónomos capaces de resolver problemas complejos. Si bien los LLMs suelen utilizarse como generadores de modelos individuales, donde los humanos critican y refinan sus salidas, el potencial de modelos colaborativos entrenados conjuntamente sigue siendo en gran medida inexplorado. A pesar de los resultados prometedores en entornos de comunicación y debate multiagente, se ha avanzado poco en el entrenamiento de modelos para trabajar juntos en tareas. En este documento, presentamos un primer paso hacia el "Entrenamiento multiagente de LLM" (MALT) en problemas de razonamiento. Nuestro enfoque emplea una configuración secuencial multiagente con LLMs heterogéneos asignados a roles especializados: un generador, un verificador y un modelo de refinamiento resolviendo problemas de forma iterativa. Proponemos un proceso de generación de datos sintéticos basado en la expansión de trayectorias y una estrategia de asignación de créditos impulsada por recompensas basadas en resultados conjuntos. Esto permite que nuestra configuración posterior al entrenamiento utilice tanto trayectorias positivas como negativas para mejorar autónomamente las capacidades especializadas de cada modelo como parte de un sistema secuencial conjunto. Evaluamos nuestro enfoque en MATH, GSM8k y CQA, donde MALT en modelos Llama 3.1 8B logra mejoras relativas del 14.14%, 7.12% y 9.40% respectivamente sobre el mismo modelo base. Esto demuestra un avance temprano en capacidades cooperativas multiagente para el rendimiento en preguntas de razonamiento matemático y de sentido común. En general, nuestro trabajo proporciona una dirección concreta para la investigación en torno a enfoques de entrenamiento de LLM multiagente.
A diferencia de los modelos de recompensa de resultado (ORMs) equivalentes, que evalúan las respuestas completas, un modelo de recompensa de proceso (PRM) puntúa una trayectoria de razonamiento paso a paso, proporcionando recompensas más densas y detalladas. Sin embargo, entrenar un PRM requiere etiquetas anotadas en cada paso intermedio, lo que presenta desafíos significativos tanto para la recopilación manual como automática de datos. Este artículo tiene como objetivo abordar este desafío. Tanto teórica como empíricamente, mostramos que se puede obtener un PRM implícito sin costo adicional, simplemente entrenando un ORM en las etiquetas más económicas a nivel de respuesta. La única suposición es parametrizar la recompensa del resultado como los cocientes de log-verosimilitud de los modelos de política y referencia, que se pueden optimizar independientemente de la elección específica de los objetivos de pérdida. En experimentos, instanciamos nuestros PRMs implícitos con varios objetivos y evaluamos su rendimiento en MATH. Mostramos que nuestro PRM implícito supera a un fuerte punto de referencia basado en MCTS al estilo de Math-Shepherd utilizando menos de 1/38 de los datos de entrenamiento. Su rendimiento puede mejorarse aún más con votación mayoritaria. Además, encontramos que aumentar las instrucciones y respuestas beneficia a nuestro PRM implícito, siendo estas últimas las que aportan mayores ganancias. En particular, observamos que nuestro PRM implícito, cuando se instancia con la pérdida de entropía cruzada (CE), es más eficiente en datos y puede seguir mejorando los modelos generativos incluso cuando se entrena con solo una respuesta por instrucción, una configuración que sufre de extrema escasez e desequilibrio de datos. Además, las instrucciones deben ser relevantes para las tareas posteriores, mientras que la diversidad de respuestas no aporta beneficios. Sorprendentemente, el entrenamiento con etiquetas adicionales de pasos de Math-Shepherd no aporta mejoras adicionales a nuestro PRM implícito entrenado solo con datos de resultado. Esperamos que nuestro trabajo fomente una reconsideración de los enfoques de entrenamiento de PRM y contribuya a hacer que el entrenamiento de PRMs sea más accesible.
Los modelos de lenguaje grandes (LLMs) han permitido la creación de LLMs multimodales que muestran una sólida comprensión de datos visuales como imágenes y videos. Sin embargo, estos modelos suelen depender de extensos tokens visuales de codificadores visuales, lo que conlleva altas demandas computacionales, limitando su aplicabilidad en entornos con recursos limitados y para tareas de largo contexto. En este trabajo, proponemos un método de inferencia adaptativa sin entrenamiento para LLMs multimodales que puede adaptarse a una amplia gama de requisitos de eficiencia con una caída mínima en el rendimiento. Nuestro método consiste en a) la fusión iterativa de tokens basada en similitud de incrustación antes de los LLMs, y b) la poda progresiva de tokens dentro de las capas de LLM basada en la importancia multimodal. Con un diseño minimalista, nuestro método puede aplicarse tanto a LLMs de video como de imagen. Experimentos extensos en diversos puntos de referencia de video e imagen demuestran que nuestro método reduce sustancialmente la carga computacional (por ejemplo, una reducción de 7 veces en FLOPs) mientras preserva el rendimiento de LLMs de video e imagen. Además, bajo un costo computacional similar, nuestro método supera a los métodos de vanguardia en la comprensión de videos largos (por ejemplo, +4.6 en MLVU). Además, nuestro análisis en profundidad proporciona información sobre la redundancia de tokens y los comportamientos de las capas de LLM, ofreciendo orientación para futuras investigaciones en el diseño de LLMs multimodales eficientes. Nuestro código estará disponible en https://github.com/LaVi-Lab/AIM.
Recientemente, los modelos de lenguaje grandes multimodales (MLLMs), como GPT-4o, Gemini 1.5 Pro y Reka Core, han ampliado sus capacidades para incluir modalidades de visión y audio. Si bien estos modelos demuestran un rendimiento impresionante en una amplia gama de aplicaciones audiovisuales, nuestro DeafTest propuesto revela que los MLLMs a menudo tienen dificultades con tareas simples que los humanos consideran triviales: 1) determinar cuál de dos sonidos es más fuerte y 2) determinar cuál de dos sonidos tiene un tono más alto. Motivados por estas observaciones, presentamos AV-Odyssey Bench, un banco de pruebas audiovisuales completo diseñado para evaluar si esos MLLMs pueden comprender verdaderamente la información audiovisual. Este banco de pruebas abarca 4,555 problemas cuidadosamente elaborados, cada uno incorporando componentes de texto, visual y audio. Para inferir respuestas con éxito, los modelos deben aprovechar de manera efectiva pistas tanto de las entradas visuales como de las entradas de audio. Para asegurar una evaluación precisa y objetiva de las respuestas de los MLLMs, hemos estructurado las preguntas como de opción múltiple, eliminando la necesidad de evaluación humana o evaluación asistida por LLM. Evaluamos una serie de modelos de código cerrado y de código abierto y resumimos las observaciones. Al revelar las limitaciones de los modelos actuales, nuestro objetivo es proporcionar información útil para la futura recopilación de conjuntos de datos y el desarrollo de modelos.
La Generación con Recuperación Aumentada (RAG) mejora los Modelos de Lenguaje Grandes (LLMs) al integrar conocimiento externo para reducir alucinaciones e incorporar información actualizada sin necesidad de volver a entrenar. Como parte esencial de RAG, las bases de conocimiento externas suelen construirse extrayendo datos estructurados de documentos PDF no estructurados mediante Reconocimiento Óptico de Caracteres (OCR). Sin embargo, debido a la predicción imperfecta del OCR y a la representación no uniforme inherente de los datos estructurados, las bases de conocimiento inevitablemente contienen varios ruidos de OCR. En este documento, presentamos OHRBench, el primer banco de pruebas para comprender el impacto en cascada del OCR en los sistemas RAG. OHRBench incluye 350 documentos PDF no estructurados cuidadosamente seleccionados de seis dominios de aplicación RAG del mundo real, junto con preguntas y respuestas derivadas de elementos multimodales en los documentos, desafiando las soluciones de OCR existentes utilizadas para RAG. Para comprender mejor el impacto del OCR en los sistemas RAG, identificamos dos tipos principales de ruido de OCR: Ruido Semántico y Ruido de Formato, y aplicamos perturbaciones para generar un conjunto de datos estructurados con diferentes grados de cada ruido de OCR. Utilizando OHRBench, realizamos primero una evaluación exhaustiva de las soluciones de OCR actuales y revelamos que ninguna es competente para construir bases de conocimiento de alta calidad para los sistemas RAG. Luego evaluamos sistemáticamente el impacto de estos dos tipos de ruido y demostramos la vulnerabilidad de los sistemas RAG. Además, discutimos el potencial de emplear Modelos de Visión-Lenguaje (VLMs) sin OCR en los sistemas RAG. Código: https://github.com/opendatalab/OHR-Bench
Tras la introducción de los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés), ha habido mejoras sustanciales en el rendimiento de tareas de Generación de Lenguaje Natural (NLG, por sus siglas en inglés), incluyendo la Sumarización de Texto y la Traducción Automática. Sin embargo, los LLMs todavía producen salidas que contienen alucinaciones, es decir, contenido no fundamentado en información factual. Por lo tanto, desarrollar métodos para evaluar la factualidad de los LLMs se ha vuelto urgente. De hecho, recientemente han surgido recursos para la evaluación de la factualidad. Aunque desafiantes, estos recursos enfrentan una o más de las siguientes limitaciones: (i) están adaptados a una tarea o dominio específico; (ii) son limitados en tamaño, lo que impide el entrenamiento de nuevos evaluadores de factualidad; (iii) están diseñados para tareas de verificación más simples, como la verificación de afirmaciones. Para abordar estos problemas, presentamos LLM-Oasis, hasta donde sabemos, el recurso más grande para entrenar evaluadores de factualidad de extremo a extremo. LLM-Oasis se construye extrayendo afirmaciones de Wikipedia, falsificando un subconjunto de estas afirmaciones y generando pares de textos factuales y no factuales. Luego, confiamos en anotadores humanos para validar la calidad de nuestro conjunto de datos y crear un conjunto de pruebas estándar de oro para evaluar sistemas de evaluación de factualidad. Nuestros experimentos demuestran que LLM-Oasis presenta un desafío significativo para los LLMs de última generación, con GPT-4o logrando hasta un 60% de precisión en nuestra propuesta de tarea de evaluación de factualidad de extremo a extremo, resaltando su potencial para impulsar futuras investigaciones en el campo.
El control de movimiento es crucial para generar contenido de video expresivo y convincente; sin embargo, la mayoría de los modelos existentes de generación de video se basan principalmente en indicaciones de texto para el control, lo cual dificulta capturar los matices de acciones dinámicas y composiciones temporales. Con este fin, entrenamos un modelo de generación de video condicionado a trayectorias de movimiento espaciotemporales dispersas o densas. En contraste con trabajos previos de condicionamiento de movimiento, esta representación flexible puede codificar cualquier cantidad de trayectorias, movimiento específico de objetos o movimiento global de escena, y movimiento temporalmente disperso; debido a su flexibilidad, nos referimos a este condicionamiento como indicaciones de movimiento. Mientras los usuarios pueden especificar directamente trayectorias dispersas, también mostramos cómo traducir solicitudes de usuarios de alto nivel en indicaciones de movimiento detalladas y semi-densas, un proceso que denominamos expansión de indicaciones de movimiento. Demostramos la versatilidad de nuestro enfoque a través de varias aplicaciones, incluyendo control de movimiento de cámara y objetos, "interactuar" con una imagen, transferencia de movimiento y edición de imágenes. Nuestros resultados muestran comportamientos emergentes, como física realista, lo que sugiere el potencial de las indicaciones de movimiento para explorar modelos de video e interactuar con futuros modelos generativos del mundo. Finalmente, evaluamos cuantitativamente, realizamos un estudio humano y demostramos un rendimiento sólido. Los resultados en video están disponibles en nuestra página web: https://motion-prompting.github.io/
Presentamos OmniCreator, un marco novedoso que puede realizar generación unificada (imagen+video) y edición de texto en un mismo lugar. OmniCreator adquiere capacidades generativas y de edición universales de manera auto-supervisada, tomando pares originales de texto y video como condiciones al mismo tiempo que utiliza el mismo video como objetivo de desruido para aprender la correspondencia semántica entre video y texto. Durante la inferencia, al recibir un texto de entrada y un video, OmniCreator es capaz de generar un objetivo fiel a ambos, logrando un efecto de edición universal que no está limitado en comparación con trabajos de edición existentes que se centran principalmente en ciertos tipos de edición o dependen de controles adicionales (por ejemplo, condiciones estructurales, características de atención o inversión DDIM). Por otro lado, al recibir solo un texto de entrada, OmniCreator se vuelve generativo, produciendo videos de alta calidad como resultado de la correspondencia semántica aprendida. Es importante destacar que estas mismas capacidades se extienden a imágenes tal cual, convirtiendo a OmniCreator en un marco verdaderamente unificado. Además, debido a la falta de benchmarks existentes para la edición generativa de videos, presentamos el conjunto de datos OmniBench-99, diseñado para evaluar de manera exhaustiva el rendimiento de los modelos de edición generativa de video. Experimentos extensos demuestran que OmniCreator exhibe una superioridad sustancial sobre todos los demás modelos.
La investigación sobre Modelos de Visión-Lenguaje 3D (3D-VLMs) está ganando cada vez más atención, lo cual es crucial para el desarrollo de la IA incorporada en escenas 3D, como la navegación visual y la respuesta a preguntas incorporadas. Debido a la alta densidad de características visuales, especialmente en escenas 3D grandes, localizar con precisión la información visual relevante para la tarea es un desafío. Los trabajos existentes intentan segmentar todos los objetos y considerar sus características como representaciones de la escena. Sin embargo, estas características de objetos agnósticas a la tarea incluyen mucha información redundante y detalles faltantes para el área relevante para la tarea. Para abordar estos problemas, proponemos LSceneLLM, un marco adaptativo que identifica automáticamente áreas relevantes para la tarea aprovechando la preferencia visual de LLM para diferentes tareas, seguido por un módulo amplificador de escena plug-and-play para capturar detalles detallados en áreas enfocadas. Específicamente, un selector de tokens denso examina el mapa de atención de LLM para identificar las preferencias visuales para la entrada de instrucciones. Luego amplifica los detalles detallados del área de enfoque. Se aprovecha un módulo de autoatención adaptativo para fusionar la información visual gruesa y seleccionada detallada. Para evaluar de manera integral la capacidad de comprensión de escenas grandes de los 3D-VLMs, introducimos además un banco de pruebas de comprensión interhabitación, XR-Scene, que contiene una serie de tareas de comprensión de escenas grandes, incluidas XR-QA, XR-PlanificaciónIncorporada y XR-DescripciónDeEscena. Los experimentos muestran que nuestro método supera a los métodos existentes tanto en la comprensión de escenas grandes como en los bancos de pruebas de comprensión de escenas existentes. Introducir nuestro módulo amplificador de escena en los 3D-VLMs existentes también aporta una mejora significativa.
Los tokenizadores de visión han ganado mucha atracción debido a su escalabilidad y compacidad; trabajos anteriores dependen de hiperparámetros basados en GAN tradicionales, comparaciones sesgadas y una falta de análisis exhaustivo de los comportamientos de escalado. Para abordar estos problemas, presentamos la Cuantización Esférica Agrupada (GSQ), que incluye una inicialización de libro de códigos esférica y regularización de búsqueda para restringir el latente del libro de códigos a una superficie esférica. Nuestro análisis empírico de estrategias de entrenamiento de tokenizador de imágenes demuestra que GSQ-GAN logra una calidad de reconstrucción superior a los métodos de vanguardia con menos iteraciones de entrenamiento, proporcionando una base sólida para estudios de escalado. Basándonos en esto, examinamos sistemáticamente los comportamientos de escalado de GSQ, específicamente en dimensionalidad latente, tamaño del libro de códigos y tasas de compresión, y su impacto en el rendimiento del modelo. Nuestros hallazgos revelan comportamientos distintos en niveles de compresión espacial altos y bajos, subrayando desafíos en la representación de espacios latentes de alta dimensionalidad. Mostramos que GSQ puede reestructurar latentes de alta dimensionalidad en espacios compactos y de baja dimensionalidad, lo que permite un escalado eficiente con calidad mejorada. Como resultado, GSQ-GAN logra un muestreo descendente de 16x con un FID de reconstrucción (rFID) de 0.50.
La Segmentación de Imágenes Referenciadas (RIS, por sus siglas en inglés) es una tarea avanzada de visión por computadora y lenguaje que implica identificar y segmentar objetos dentro de una imagen según descripciones de texto libre. Mientras que estudios previos se enfocaron en alinear características visuales y de lenguaje, la exploración de técnicas de entrenamiento, como la aumentación de datos, sigue siendo poco explorada. En este trabajo, exploramos la aumentación efectiva de datos para RIS y proponemos un nuevo marco de entrenamiento llamado Segmentación de Imágenes Referenciadas Enmascaradas (MaskRIS). Observamos que las aumentaciones convencionales de imágenes no son suficientes para RIS, lo que resulta en una degradación del rendimiento, mientras que el enmascaramiento aleatorio simple mejora significativamente el rendimiento de RIS. MaskRIS utiliza tanto enmascaramiento de imágenes como de texto, seguido por Aprendizaje Contextual Consciente de la Distorsión (DCL) para explotar completamente los beneficios de la estrategia de enmascaramiento. Este enfoque puede mejorar la robustez del modelo ante oclusiones, información incompleta y diversas complejidades lingüísticas, lo que resulta en una mejora significativa del rendimiento. Los experimentos demuestran que MaskRIS puede aplicarse fácilmente a varios modelos de RIS, superando a los métodos existentes tanto en entornos completamente supervisados como débilmente supervisados. Finalmente, MaskRIS logra un nuevo rendimiento de vanguardia en los conjuntos de datos RefCOCO, RefCOCO+ y RefCOCOg. El código está disponible en https://github.com/naver-ai/maskris.
Las tecnologías de IA están avanzando rápidamente de la investigación a la producción. Con la popularidad de los Modelos Fundamentales (MF) que generan texto, imágenes y video, los sistemas basados en IA están aumentando su complejidad. En comparación con el software basado en IA tradicional, los sistemas que emplean MF, o sistemas basados en GenAI, son más difíciles de diseñar debido a su escala y versatilidad. Esto hace necesario documentar las mejores prácticas, conocidas como patrones de diseño en ingeniería de software, que se pueden utilizar en aplicaciones GenAI. Nuestra primera contribución es formalizar dos técnicas, la Descomposición de Tareas y la Generación con Recuperación Aumentada (RAG), como patrones de diseño para sistemas basados en GenAI. Discutimos sus compensaciones en términos de atributos de calidad del software y comentamos sobre enfoques alternativos. Recomendamos a los profesionales de IA considerar estas técnicas no solo desde una perspectiva científica, sino también desde el punto de vista de las propiedades de ingeniería deseadas como flexibilidad, mantenibilidad, seguridad y protección. Como segunda contribución, describimos nuestra experiencia en la industria aplicando la Descomposición de Tareas y RAG para construir una aplicación GenAI del mundo real compleja para usuarios empresariales: Generación de Flujos de Trabajo. La tarea de generar flujos de trabajo implica crear un plan específico utilizando datos del entorno del sistema, tomando como entrada un requisito del usuario. Dado que estos dos patrones afectan a todo el ciclo de desarrollo de IA, explicamos cómo impactaron en la creación del conjunto de datos, el entrenamiento del modelo, la evaluación del modelo y las fases de implementación.
El concepto de AIPC está ganando popularidad, y cada vez más CPUs híbridas ejecutarán modelos de IA en dispositivos cliente. Sin embargo, el marco actual de inferencia de IA pasa por alto la capacidad desequilibrada de hardware de las CPUs híbridas, lo que resulta en un bajo rendimiento de inferencia. Para abordar este problema, hemos introducido un método paralelo dinámico para CPUs híbridas, que aumenta significativamente el rendimiento de inferencia de LLM al equilibrar la carga de trabajo para cada núcleo de una CPU híbrida antes de que comience el trabajo en paralelo. Este método ha permitido que Neural Speed alcance más del 90% (en promedio) del ancho de banda de memoria en dos CPUs híbridas de Intel.
La Detección de Destacados de Video y la Recuperación de Momentos (HD/MR) son esenciales en el análisis de video. Los modelos recientes de transformadores de predicción conjunta a menudo pasan por alto la dinámica entre tareas y la alineación y refinamiento de video-texto. Además, la mayoría de los modelos suelen utilizar mecanismos de atención limitados y unidireccionales, lo que resulta en representaciones débilmente integradas y un rendimiento subóptimo en la captura de la interdependencia entre las modalidades de video y texto. Aunque los modelos de lenguaje grande y visión-lenguaje (LLM/LVLMs) han ganado prominencia en varios dominios, su aplicación en este campo sigue siendo relativamente poco explorada. Aquí proponemos VideoLights, un nuevo marco HD/MR que aborda estas limitaciones a través de (i) módulos de Proyección Convolucional y Refinamiento de Características con una pérdida de alineación para una mejor alineación de características de video-texto, (ii) una red de Fusión Cruzada Bi-Direccional para representaciones de clips con conciencia de consulta fuertemente acopladas, y (iii) un mecanismo de retroalimentación conjunta unidireccional que mejora ambas tareas a través de la correlación. Además, (iv) introducimos pérdidas duras positivas/negativas para penalización de errores adaptativa y aprendizaje mejorado, y (v) aprovechamos LVLMs como BLIP-2 para una integración de características multimodales mejorada y un preentrenamiento inteligente utilizando datos sintéticos generados a partir de LVLMs. Experimentos exhaustivos en los benchmarks QVHighlights, TVSum y Charades-STA demuestran un rendimiento de vanguardia. Los códigos y modelos están disponibles en https://github.com/dpaul06/VideoLights.