Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLMs) ont montré des performances remarquables dans les tâches de raisonnement. Ils utilisent la génération de jetons autorégressive pour construire des trajectoires de raisonnement, permettant le développement d'une chaîne de pensée cohérente. Dans ce travail, nous explorons l'impact des jetons individuels sur les résultats finaux des tâches de raisonnement. Nous identifions l'existence de "jetons critiques" qui conduisent à des trajectoires de raisonnement incorrectes dans les LLMs. Plus précisément, nous constatons que les LLMs ont tendance à produire des résultats positifs lorsqu'ils sont contraints de décoder d'autres jetons au lieu des jetons critiques. Motivés par cette observation, nous proposons une nouvelle approche - cDPO - conçue pour reconnaître automatiquement et mener des récompenses au niveau du jeton pour les jetons critiques pendant le processus d'alignement. Plus précisément, nous développons une approche d'estimation contrastive pour identifier automatiquement les jetons critiques. Cela est réalisé en comparant la probabilité de génération des modèles positif et négatif. Pour ce faire, nous affinons séparément les modèles positif et négatif sur diverses trajectoires de raisonnement, leur permettant ainsi d'identifier les jetons critiques au sein des trajectoires incorrectes qui contribuent à des résultats erronés. De plus, pour aligner davantage le modèle avec les informations des jetons critiques pendant le processus d'alignement, nous étendons les algorithmes DPO conventionnels au niveau du jeton et utilisons la probabilité différentielle des modèles positif et négatif susmentionnés comme poids important pour l'apprentissage du DPO au niveau du jeton. Les résultats expérimentaux sur les référentiels GSM8K et MATH500 avec les modèles largement utilisés Llama-3 (8B et 70B) et deepseek-math (7B) démontrent l'efficacité de l'approche proposée cDPO.
Les modèles actuels de génération de vidéos excellent dans la création de courtes séquences mais rencontrent encore des difficultés pour produire des vidéos multi-plans ressemblant à des films. Les modèles existants, entraînés sur des ensembles de données à grande échelle à l'aide de ressources computationnelles riches, s'avèrent logiquement inadaptés pour maintenir une intrigue cohérente et une cohérence visuelle à travers plusieurs plans d'un scénario cohérent, étant souvent entraînés avec un objectif d'un seul plan. Dans cette optique, nous proposons VideoGen-of-Thought (VGoT), une architecture collaborative et sans entraînement conçue spécifiquement pour la génération de vidéos multi-plans. VGoT est conçu avec trois objectifs en tête. Génération de Vidéos Multi-Plans : Nous divisons le processus de génération de vidéos en une séquence structurée et modulaire, comprenant (1) la Génération de Scénario, qui traduit une histoire succincte en directives détaillées pour chaque plan ; (2) la Génération de Keyframes, responsable de créer des keyframes visuellement cohérents fidèles aux représentations des personnages ; et (3) la Génération de Vidéos au Niveau du Plan, qui transforme les informations des scénarios et des keyframes en plans ; (4) un Mécanisme de Lissage qui garantit une sortie multi-plans cohérente. Conception Narrative Raisonnable : Inspirée par l'écriture de scénarios cinématographiques, notre approche de génération de directives couvre cinq domaines clés, assurant une cohérence logique, le développement des personnages et le flux narratif sur l'ensemble de la vidéo. Cohérence Entre Plans : Nous assurons une cohérence temporelle et d'identité en exploitant des plongements préservant l'identité (IP) à travers les plans, qui sont automatiquement créés à partir du récit. De plus, nous incorporons un mécanisme de lissage entre plans, qui intègre une frontière de réinitialisation combinant efficacement les caractéristiques latentes des plans adjacents, résultant en des transitions fluides et en maintenant la cohérence visuelle tout au long de la vidéo. Nos expériences démontrent que VGoT surpasse les méthodes existantes de génération de vidéos en produisant des vidéos multi-plans de haute qualité et cohérentes.
Permettre une collaboration efficace entre les LLM est une étape cruciale vers le développement de systèmes autonomes capables de résoudre des problèmes complexes. Alors que les LLM sont généralement utilisés comme générateurs de modèles uniques, où les humains critiquent et affinent leurs résultats, le potentiel de modèles collaboratifs entraînés conjointement reste largement inexploré. Malgré des résultats prometteurs dans les paramètres de communication multi-agent et de débat, peu de progrès ont été réalisés dans la formation de modèles travaillant ensemble sur des tâches. Dans cet article, nous présentons un premier pas vers l'entraînement "Multi-agent LLM" (MALT) sur des problèmes de raisonnement. Notre approche utilise une configuration multi-agent séquentielle avec des LLM hétérogènes affectés à des rôles spécialisés : un générateur, un vérificateur et un modèle de raffinement résolvant de manière itérative des problèmes. Nous proposons un processus de génération de données synthétiques basé sur l'expansion de trajectoire et une stratégie d'attribution de crédit basée sur des récompenses conjointes basées sur les résultats. Cela permet à notre configuration post-entraînement d'utiliser à la fois des trajectoires positives et négatives pour améliorer de manière autonome les capacités spécialisées de chaque modèle dans le cadre d'un système séquentiel conjoint. Nous évaluons notre approche sur MATH, GSM8k et CQA, où MALT sur les modèles Llama 3.1 8B obtient des améliorations relatives de 14,14 %, 7,12 % et 9,40 % respectivement par rapport au même modèle de référence. Cela démontre une avancée précoce dans les capacités coopératives multi-agent pour la performance sur des questions de raisonnement mathématique et de bon sens. Plus généralement, notre travail offre une direction concrète pour la recherche autour des approches d'entraînement de LLM multi-agents.
Contrairement aux modèles de récompense de résultats (ORM) qui évaluent l'ensemble des réponses, un modèle de récompense de processus (PRM) évalue pas à pas une trajectoire de raisonnement, fournissant des récompenses plus denses et plus fines. Cependant, former un PRM nécessite des étiquettes annotées à chaque étape intermédiaire, ce qui présente des défis significatifs pour la collecte manuelle et automatique de données. Cet article vise à relever ce défi. Théoriquement et empiriquement, nous montrons qu'un PRM implicite peut être obtenu sans coût supplémentaire, en formant simplement un ORM sur des étiquettes moins coûteuses au niveau des réponses. La seule hypothèse est de paramétrer la récompense de résultat comme les rapports de log-vraisemblance des modèles de politique et de référence, qui peuvent être optimisés indépendamment du choix spécifique des objectifs de perte. Dans nos expériences, nous instancions nos PRM implicites avec divers objectifs et évaluons leurs performances sur MATH. Nous montrons que notre PRM implicite surpasse une référence forte basée sur MCTS à la manière de Math-Shepherd en n'utilisant pas plus de 1/38 des données d'entraînement. Sa performance peut être encore améliorée avec un vote majoritaire. Nous constatons également que l'augmentation des instructions et des réponses bénéficie à notre PRM implicite, et que les réponses apportent un gain plus important. En particulier, nous observons que notre PRM implicite, lorsqu'il est instancié avec la perte de cross-entropie (CE), est plus efficace en termes de données et peut continuer à améliorer les modèles de génération même lorsqu'il est entraîné avec une seule réponse par instruction, une configuration qui souffre d'une extrême rareté et déséquilibre des données. De plus, les instructions doivent être pertinentes pour les tâches ultérieures, tandis que la diversité des réponses n'apporte aucun avantage. De manière surprenante, l'entraînement sur des étiquettes supplémentaires de Math-Shepherd n'apporte aucune amélioration supplémentaire à notre PRM implicite formé uniquement sur des données de résultat. Nous espérons que notre travail encouragera une réflexion sur les approches de formation des PRM et contribuera à rendre la formation des PRM plus accessible.
Les grands modèles de langage (LLM) ont permis la création de LLM multimodaux qui présentent une forte compréhension des données visuelles telles que les images et les vidéos. Cependant, ces modèles s'appuient généralement sur de nombreux jetons visuels provenant d'encodeurs visuels, ce qui entraîne des demandes computationnelles élevées, limitant leur applicabilité dans des environnements aux ressources limitées et pour des tâches à long contexte. Dans ce travail, nous proposons une méthode d'inférence adaptative sans entraînement pour les LLM multimodaux qui peut s'adapter à un large éventail d'exigences d'efficacité avec une baisse de performance minimale. Notre méthode consiste en a) la fusion itérative de jetons basée sur la similarité d'incorporation avant les LLM, et b) l'élagage progressif des jetons au sein des couches de LLM basé sur l'importance multimodale. Avec une conception minimaliste, notre méthode peut être appliquée à la fois aux LLM vidéo et image. Des expériences approfondies sur diverses références vidéo et image démontrent que notre méthode réduit considérablement la charge de calcul (par exemple, une réduction de 7 fois en FLOPs) tout en préservant les performances des LLM vidéo et image. De plus, pour un coût computationnel similaire, notre méthode surpasse les méthodes de pointe dans la compréhension de longues vidéos (par exemple, +4,6 sur MLVU). De plus, notre analyse approfondie offre des insights sur la redondance des jetons et les comportements des couches de LLM, offrant des orientations pour les futures recherches dans la conception de LLM multimodaux efficaces. Notre code sera disponible sur https://github.com/LaVi-Lab/AIM.
Récemment, les grands modèles de langage multimodaux (GMLM), tels que GPT-4o, Gemini 1.5 Pro et Reka Core, ont étendu leurs capacités pour inclure les modalités visuelles et audio. Alors que ces modèles démontrent des performances impressionnantes dans un large éventail d'applications audiovisuelles, notre DeafTest proposé révèle que les GMLM ont souvent du mal avec des tâches simples que les humains trouvent triviales : 1) déterminer quel son parmi deux est plus fort, et 2) déterminer quel son parmi deux a une hauteur plus élevée. Motivés par ces observations, nous introduisons AV-Odyssey Bench, un banc d'essai audiovisuel complet conçu pour évaluer si ces GMLM peuvent réellement comprendre les informations audiovisuelles. Ce banc d'essai englobe 4 555 problèmes soigneusement élaborés, chacun intégrant des composantes textuelles, visuelles et audio. Pour inférer avec succès des réponses, les modèles doivent exploiter efficacement les indices des entrées visuelles et audio. Afin d'assurer une évaluation précise et objective des réponses des GMLM, nous avons structuré les questions sous forme de choix multiples, éliminant ainsi le besoin d'évaluation humaine ou d'évaluation assistée par GMLM. Nous évaluons une série de modèles à code source fermé et ouvert, et résumons les observations. En révélant les limitations des modèles actuels, nous visons à fournir des perspectives utiles pour la collecte de données futures et le développement de modèles.
La Génération Augmentée par Récupération (RAG) améliore les Grands Modèles de Langage (LLMs) en intégrant des connaissances externes pour réduire les hallucinations et incorporer des informations à jour sans nécessiter de reformation. En tant que partie essentielle de RAG, les bases de connaissances externes sont généralement construites en extrayant des données structurées à partir de documents PDF non structurés à l'aide de la Reconnaissance Optique de Caractères (OCR). Cependant, étant donné la prédiction imparfaite de l'OCR et la représentation non uniforme inhérente des données structurées, les bases de connaissances contiennent inévitablement divers bruits de l'OCR. Dans cet article, nous présentons OHRBench, le premier banc d'essai pour comprendre l'impact en cascade de l'OCR sur les systèmes RAG. OHRBench comprend 350 documents PDF non structurés soigneusement sélectionnés provenant de six domaines d'application RAG du monde réel, ainsi que des questions-réponses dérivées d'éléments multimodaux dans les documents, mettant au défi les solutions OCR existantes utilisées pour RAG. Pour mieux comprendre l'impact de l'OCR sur les systèmes RAG, nous identifions deux types principaux de bruits de l'OCR : le Bruit Sémantique et le Bruit de Formatage, et appliquons des perturbations pour générer un ensemble de données structurées avec différents degrés de chaque bruit de l'OCR. En utilisant OHRBench, nous menons d'abord une évaluation complète des solutions OCR actuelles et révélons que aucune n'est compétente pour construire des bases de connaissances de haute qualité pour les systèmes RAG. Nous évaluons ensuite systématiquement l'impact de ces deux types de bruits et démontrons la vulnérabilité des systèmes RAG. De plus, nous discutons du potentiel d'utilisation des Modèles Vision-Langage (VLMs) sans OCR dans les systèmes RAG. Code : https://github.com/opendatalab/OHR-Bench
Après l'introduction des Grands Modèles de Langage (GML), il y a eu des améliorations substantielles dans les performances des tâches de Génération de Langage Naturel (GLN), y compris la Résumé de Texte et la Traduction Automatique. Cependant, les GML produisent toujours des sorties contenant des hallucinations, c'est-à-dire du contenu non ancré dans des informations factuelles. Par conséquent, le développement de méthodes pour évaluer la factualité des GML est devenu urgent. En effet, des ressources pour l'évaluation de la factualité ont récemment émergé. Bien que difficiles, ces ressources présentent une ou plusieurs des limitations suivantes : (i) elles sont adaptées à une tâche ou un domaine spécifique ; (ii) elles sont limitées en taille, empêchant ainsi la formation de nouveaux évaluateurs de factualité ; (iii) elles sont conçues pour des tâches de vérification plus simples, telles que la vérification des affirmations. Pour résoudre ces problèmes, nous présentons LLM-Oasis, à notre connaissance la plus grande ressource pour former des évaluateurs de factualité de bout en bout. LLM-Oasis est construit en extrayant des affirmations de Wikipédia, en falsifiant un sous-ensemble de ces affirmations, et en générant des paires de textes factuels et non factuels. Nous nous appuyons ensuite sur des annotateurs humains pour à la fois valider la qualité de notre ensemble de données et créer un ensemble de tests de référence de qualité pour les systèmes d'évaluation de la factualité. Nos expériences démontrent que LLM-Oasis représente un défi significatif pour les GML de pointe, GPT-4o atteignant jusqu'à 60 % de précision dans notre tâche d'évaluation de la factualité de bout en bout proposée, mettant en évidence son potentiel pour stimuler la recherche future dans le domaine.
Le contrôle du mouvement est crucial pour générer un contenu vidéo expressif et captivant ; cependant, la plupart des modèles existants de génération vidéo s'appuient principalement sur des instructions textuelles pour le contrôle, ce qui peine à capturer les subtilités des actions dynamiques et des compositions temporelles. À cette fin, nous entraînons un modèle de génération vidéo conditionné par des trajectoires de mouvement spatio-temporellement clairsemées ou denses. Contrairement aux travaux antérieurs de conditionnement du mouvement, cette représentation flexible peut encoder n'importe quel nombre de trajectoires, un mouvement spécifique à un objet ou global, et un mouvement temporellement clairsemé ; en raison de sa flexibilité, nous appelons ce conditionnement des instructions de mouvement. Alors que les utilisateurs peuvent spécifier directement des trajectoires clairsemées, nous montrons également comment traduire les demandes d'utilisateurs de haut niveau en instructions de mouvement détaillées et semi-clairsemées, un processus que nous appelons expansion des instructions de mouvement. Nous démontrons la polyvalence de notre approche à travers diverses applications, notamment le contrôle du mouvement de la caméra et des objets, l'"interaction" avec une image, le transfert de mouvement et l'édition d'images. Nos résultats mettent en avant des comportements émergents, tels que la physique réaliste, suggérant le potentiel des instructions de mouvement pour sonder les modèles vidéo et interagir avec les futurs modèles génératifs du monde. Enfin, nous évaluons quantitativement, menons une étude humaine et démontrons de solides performances. Les résultats vidéo sont disponibles sur notre page web : https://motion-prompting.github.io/
Nous présentons OmniCreator, un nouveau cadre qui peut réaliser la génération unifiée (image+vidéo) et l'édition de texte, le tout en un seul endroit. OmniCreator acquiert des capacités génératives et d'édition universelles de manière auto-supervisée, en prenant des paires originales de texte et de vidéo comme conditions tout en utilisant la même vidéo comme cible de débruitage pour apprendre la correspondance sémantique entre la vidéo et le texte. Lors de l'inférence, lorsqu'il est présenté avec un texte et une vidéo, OmniCreator est capable de générer une cible fidèle aux deux, réalisant un effet d'édition universel non contraint par rapport aux travaux d'édition existants qui se concentrent principalement sur certains types d'édition ou qui reposent sur des contrôles supplémentaires (par exemple, conditions structurelles, caractéristiques d'attention, ou inversion DDIM). En revanche, lorsqu'il est présenté uniquement avec un texte, OmniCreator devient génératif, produisant des vidéos de haute qualité en raison de la correspondance sémantique apprise. Importamment, nous avons constaté que ces mêmes capacités s'étendent aux images telles quelles, faisant d'OmniCreator un cadre vraiment unifié. De plus, en raison du manque de référentiels existants pour l'édition générative de vidéos, nous introduisons le jeu de données OmniBench-99, conçu pour évaluer de manière exhaustive les performances des modèles d'édition générative de vidéos. Des expériences approfondies démontrent qu'OmniCreator présente une nette supériorité par rapport à tous les autres modèles.
La recherche sur les modèles de vision-langage en 3D (3D-VLM) suscite de plus en plus d'attention, ce qui est crucial pour le développement de l'IA incarnée dans des scènes en 3D, telles que la navigation visuelle et la réponse à des questions incarnées. En raison de la densité élevée des caractéristiques visuelles, en particulier dans de grandes scènes en 3D, localiser avec précision les informations visuelles pertinentes pour la tâche est difficile. Les travaux existants tentent de segmenter tous les objets et considèrent leurs caractéristiques comme des représentations de scène. Cependant, ces caractéristiques d'objets agnostiques à la tâche incluent beaucoup d'informations redondantes et des détails manquants pour la zone pertinente à la tâche. Pour résoudre ces problèmes, nous proposons LSceneLLM, un cadre adaptatif qui identifie automatiquement les zones pertinentes pour la tâche en exploitant la préférence visuelle de LLM pour différentes tâches, suivi d'un module de grossissement de scène plug-and-play pour capturer des détails fins dans les zones ciblées. Plus précisément, un sélecteur de jeton dense examine la carte d'attention de LLM pour identifier les préférences visuelles pour l'entrée d'instruction. Il agrandit ensuite les détails fins de la zone de mise au point. Un module d'auto-attention adaptatif est utilisé pour fusionner les informations visuelles grossières et sélectionnées fines. Pour évaluer de manière exhaustive la capacité de compréhension de grandes scènes des 3D-VLM, nous introduisons également un banc d'essai de compréhension inter-salles, XR-Scene, qui contient une série de tâches de compréhension de grandes scènes, y compris XR-QA, XR-EmbodiedPlanning et XR-SceneCaption. Les expériences montrent que notre méthode surpasse les méthodes existantes à la fois en termes de compréhension de grandes scènes et de bancs d'essai de compréhension de scènes existants. Intégrer notre module de grossissement de scène dans les 3D-VLM existants apporte également une amélioration significative.
Les tokenizers de vision ont suscité beaucoup d'attention en raison de leur extensibilité et de leur compacité ; les travaux antérieurs dépendent de paramètres hyperboliques basés sur les GAN de l'ancienne école, de comparaisons biaisées et d'un manque d'analyse complète des comportements d'échelle. Pour résoudre ces problèmes, nous introduisons la Quantification Sphérique Groupée (GSQ), caractérisée par une initialisation de codebook sphérique et une régularisation de recherche pour contraindre le codebook latent à une surface sphérique. Notre analyse empirique des stratégies d'entraînement du tokenizer d'image démontre que GSQ-GAN atteint une qualité de reconstruction supérieure aux méthodes de pointe avec moins d'itérations d'entraînement, posant ainsi des bases solides pour des études d'échelle. En nous appuyant sur cela, nous examinons systématiquement les comportements d'échelle de GSQ, en particulier dans la dimension latente, la taille du codebook et les taux de compression, et leur impact sur les performances du modèle. Nos résultats révèlent des comportements distincts aux niveaux de compression spatiale élevés et faibles, soulignant les défis de représentation des espaces latents de haute dimension. Nous montrons que GSQ peut restructurer les espaces latents de haute dimension en espaces compacts de basse dimension, permettant ainsi une mise à l'échelle efficace avec une qualité améliorée. En conséquence, GSQ-GAN atteint un sous-échantillonnage de 16x avec un FID de reconstruction (rFID) de 0,50.
La segmentation d'image référentielle (RIS) est une tâche avancée en vision par ordinateur qui consiste à identifier et segmenter des objets dans une image tels que décrits par des descriptions textuelles libres. Alors que les études précédentes se sont concentrées sur l'alignement des caractéristiques visuelles et linguistiques, l'exploration des techniques d'entraînement, telles que l'augmentation de données, reste peu explorée. Dans ce travail, nous explorons une augmentation de données efficace pour la RIS et proposons un nouveau cadre d'entraînement appelé Segmentation d'Image Référentielle Masquée (MaskRIS). Nous observons que les augmentations d'image conventionnelles sont insuffisantes pour la RIS, entraînant une dégradation des performances, tandis qu'un simple masquage aléatoire améliore significativement les performances de la RIS. MaskRIS utilise à la fois le masquage d'image et de texte, suivi par un Apprentissage Contextuel Sensible à la Distorsion (DCL) pour exploiter pleinement les avantages de la stratégie de masquage. Cette approche peut améliorer la robustesse du modèle aux occlusions, aux informations incomplètes et aux diverses complexités linguistiques, entraînant une amélioration significative des performances. Les expériences démontrent que MaskRIS peut facilement être appliqué à divers modèles de RIS, surpassant les méthodes existantes dans des contextes entièrement supervisés et faiblement supervisés. Enfin, MaskRIS atteint de nouvelles performances de pointe sur les ensembles de données RefCOCO, RefCOCO+ et RefCOCOg. Le code est disponible sur https://github.com/naver-ai/maskris.
Les technologies de l'IA évoluent rapidement de la recherche à la production. Avec la popularité des Modèles Fondamentaux (MF) qui génèrent du texte, des images et des vidéos, les systèmes basés sur l'IA voient leur complexité augmenter. Comparés aux logiciels traditionnels basés sur l'IA, les systèmes utilisant des MF, ou les systèmes basés sur l'IA générative, sont plus difficiles à concevoir en raison de leur ampleur et de leur polyvalence. Cela rend nécessaire la documentation des meilleures pratiques, appelées motifs de conception en génie logiciel, pouvant être utilisées dans l'ensemble des applications basées sur l'IA générative. Notre première contribution consiste à formaliser deux techniques, la Décomposition des Tâches et la Génération Augmentée par Récupération (RAG), en tant que motifs de conception pour les systèmes basés sur l'IA générative. Nous discutons de leurs compromis en termes d'attributs de qualité logicielle et commentons les approches alternatives. Nous recommandons aux praticiens de l'IA de considérer ces techniques non seulement d'un point de vue scientifique, mais aussi du point de vue des propriétés d'ingénierie souhaitées telles que la flexibilité, la maintenabilité, la sécurité et la sûreté. En tant que deuxième contribution, nous décrivons notre expérience industrielle en appliquant la Décomposition des Tâches et la RAG pour construire une application GenAI complexe du monde réel pour les utilisateurs d'entreprise : la Génération de Flux de Travail. La tâche de génération de flux de travail consiste à élaborer un plan spécifique en utilisant des données de l'environnement du système, en prenant comme entrée une exigence utilisateur. Comme ces deux motifs affectent l'ensemble du cycle de développement de l'IA, nous expliquons comment ils ont impacté la création de jeux de données, l'entraînement des modèles, l'évaluation des modèles et les phases de déploiement.
Le concept de l'AIPC gagne en popularité, et de plus en plus de CPU hybrides exécuteront des modèles d'IA sur les appareils clients. Cependant, le cadre actuel d'inférence en IA néglige la capacité matérielle déséquilibrée des CPU hybrides, ce qui entraîne des performances d'inférence faibles. Pour résoudre ce problème, nous avons introduit une méthode parallèle dynamique pour les CPU hybrides, qui augmente significativement les performances d'inférence LLM en équilibrant la charge de travail pour chaque cœur d'un CPU hybride avant le début du travail parallèle. Cette méthode a permis à Neural Speed d'atteindre plus de 90 % (en moyenne) de la bande passante mémoire sur deux CPU hybrides Intel.
La détection des moments forts et la récupération des instants (HD/MR) sont essentielles dans l'analyse vidéo. Les récents modèles transformateurs de prédiction conjointe négligent souvent leur dynamique inter-tâches et l'alignement et le raffinement vidéo-texte. De plus, la plupart des modèles utilisent généralement des mécanismes d'attention limités et unidirectionnels, ce qui entraîne des représentations faiblement intégrées et des performances sous-optimales dans la capture de l'interdépendance entre les modalités vidéo et texte. Bien que les modèles de langage large et de vision-langage (LLM/LVLMs) aient gagné en importance dans divers domaines, leur application dans ce domaine reste relativement peu explorée. Nous proposons ici VideoLights, un nouveau cadre HD/MR qui adresse ces limitations à travers (i) des modules de Projection Convolutionnelle et de Raffinement des Caractéristiques avec une perte d'alignement pour un meilleur alignement des caractéristiques vidéo-texte, (ii) un réseau de Fusion Croisée Bi-Directionnelle pour des représentations de clips fortement couplées à la requête, et (iii) un mécanisme de rétroaction inter-tâches unidirectionnel améliorant les deux tâches par la corrélation. De plus, (iv) nous introduisons des pertes positives/négatives difficiles pour une pénalisation des erreurs adaptative et un apprentissage amélioré, et (v) exploitons des LVLMs comme BLIP-2 pour une intégration améliorée des caractéristiques multimodales et un pré-entraînement intelligent en utilisant des données synthétiques générées à partir de LVLMs. Des expériences approfondies sur les référentiels QVHighlights, TVSum et Charades-STA démontrent des performances de pointe. Les codes et les modèles sont disponibles sur https://github.com/dpaul06/VideoLights.