Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les ensembles de données de pré-entraînement sont généralement collectés à partir de contenu web et ne présentent pas de divisions de domaine inhérentes. Par exemple, des ensembles de données largement utilisés comme Common Crawl ne comportent pas d'étiquettes de domaine explicites, tandis que la curation manuelle d'ensembles de données étiquetés tels que The Pile est laborieuse. Par conséquent, identifier un mélange optimal de données de pré-entraînement reste un problème complexe, malgré ses avantages significatifs pour les performances de pré-entraînement. Pour relever ces défis, nous proposons CLustering-based Iterative Data Mixture Bootstrapping (CLIMB), un cadre automatisé qui découvre, évalue et affine les mélanges de données dans un contexte de pré-entraînement. Plus précisément, CLIMB intègre et regroupe des ensembles de données à grande échelle dans un espace sémantique, puis recherche itérativement des mélanges optimaux à l'aide d'un modèle proxy plus petit et d'un prédicteur. Lorsqu'il est continuellement entraîné sur 400 milliards de tokens avec ce mélange, notre modèle de 1 milliard de paramètres dépasse le modèle de pointe Llama-3.2-1B de 2,0 %. De plus, nous observons que l'optimisation pour un domaine spécifique (par exemple, les sciences sociales) améliore les performances de 5 % par rapport à un échantillonnage aléatoire. Enfin, nous présentons ClimbLab, un corpus filtré de 1,2 trillion de tokens regroupés en 20 clusters comme terrain de recherche, et ClimbMix, un ensemble de données compact mais puissant de 400 milliards de tokens conçu pour un pré-entraînement efficace, offrant des performances supérieures avec un budget de tokens équivalent. Nous analysons le mélange de données final, en clarifiant les caractéristiques d'un mélange de données optimal. Nos données sont disponibles à l'adresse : https://research.nvidia.com/labs/lpr/climb/
Les modèles de pointe qui génèrent des traces de raisonnement étendues produisent involontairement des séquences de tokens riches qui peuvent faciliter la distillation de modèles. Conscients de cette vulnérabilité, les propriétaires de modèles peuvent rechercher des stratégies d'échantillonnage qui limitent l'efficacité de la distillation sans compromettre les performances du modèle. L'échantillonnage antidistillation offre précisément cette capacité. En modifiant stratégiquement la distribution de probabilité du prochain token d'un modèle, l'échantillonnage antidistillation empoisonne les traces de raisonnement, les rendant significativement moins efficaces pour la distillation tout en préservant l'utilité pratique du modèle. Pour plus de détails, consultez https://antidistillation.com.
Nous présentons une architecture de réseau neuronal, FramePack, pour entraîner des modèles de prédiction d'image suivante (ou de section d'image suivante) dans le cadre de la génération vidéo. FramePack compresse les images d'entrée afin de fixer la longueur du contexte du transformateur, indépendamment de la durée de la vidéo. En conséquence, nous sommes capables de traiter un grand nombre d'images en utilisant la diffusion vidéo avec un goulot d'étranglement de calcul similaire à celui de la diffusion d'images. Cela permet également d'augmenter significativement la taille des lots de vidéos lors de l'entraînement (les tailles de lots deviennent comparables à celles de l'entraînement par diffusion d'images). Nous proposons également une méthode d'échantillonnage anti-dérive qui génère les images dans un ordre temporel inversé avec des points finaux établis précocement pour éviter le biais d'exposition (accumulation d'erreurs sur les itérations). Enfin, nous montrons que les modèles de diffusion vidéo existants peuvent être affinés avec FramePack, et que leur qualité visuelle peut être améliorée car la prédiction d'image suivante permet d'utiliser des planificateurs de diffusion plus équilibrés avec des étapes temporelles de décalage de flux moins extrêmes.
Les modèles vision-langage (VLMs) excellent dans la compréhension visuelle mais souffrent souvent d'hallucinations visuelles, où ils génèrent des descriptions d'objets, d'actions ou de concepts inexistants, posant des risques importants dans les applications critiques pour la sécurité. Les méthodes existantes d'atténuation des hallucinations suivent généralement l'un des deux paradigmes : l'ajustement de la génération, qui modifie le comportement de décodage pour aligner le texte sur les entrées visuelles, et la vérification a posteriori, où des modèles externes évaluent et corrigent les sorties. Bien qu'efficaces, les méthodes d'ajustement de la génération reposent souvent sur des heuristiques et manquent de mécanismes de correction, tandis que la vérification a posteriori est complexe, nécessitant généralement plusieurs modèles et ayant tendance à rejeter les sorties plutôt qu'à les affiner. Dans ce travail, nous présentons REVERSE, un cadre unifié qui intègre un entraînement conscient des hallucinations avec une auto-vérification en temps réel. En exploitant un nouvel ensemble de données de vérification des hallucinations contenant plus de 1,3 million d'échantillons semi-synthétiques, ainsi qu'une nouvelle technique de rééchantillonnage rétrospectif au moment de l'inférence, notre approche permet aux VLMs de détecter les hallucinations pendant la génération et de les réviser dynamiquement. Nos évaluations montrent que REVERSE atteint une réduction des hallucinations de pointe, surpassant les meilleures méthodes existantes jusqu'à 12 % sur CHAIR-MSCOCO et 28 % sur HaloQuest. Notre ensemble de données, modèle et code sont disponibles à l'adresse : https://reverse-vlm.github.io.
Nous présentons Perception Encoder (PE), un encodeur de pointe pour la compréhension d'images et de vidéos, entraîné via un apprentissage simple vision-langage. Traditionnellement, les encodeurs visuels s'appuyaient sur une variété d'objectifs de pré-entraînement, chacun adapté à des tâches spécifiques telles que la classification, la génération de légendes ou la localisation. Étonnamment, après avoir mis à l'échelle notre recette de pré-entraînement d'images soigneusement ajustée et l'avoir affinée avec notre moteur de données vidéo robuste, nous constatons que l'entraînement contrastif vision-langage seul peut produire des embeddings forts et généralisables pour toutes ces tâches en aval. Il n'y a qu'une seule réserve : ces embeddings sont cachés dans les couches intermédiaires du réseau. Pour les extraire, nous introduisons deux méthodes d'alignement : l'alignement langagier pour la modélisation multimodale du langage, et l'alignement spatial pour la prédiction dense. Avec le point de contrôle contrastif central, notre famille de modèles PE atteint des performances de pointe sur une grande variété de tâches, notamment la classification et la recherche d'images et de vidéos en zero-shot ; les Q&A sur des documents, images et vidéos ; ainsi que des tâches spatiales telles que la détection, l'estimation de profondeur et le suivi. Pour favoriser des recherches ultérieures, nous mettons à disposition nos modèles, notre code et un nouveau jeu de données de vidéos annotées synthétiquement et par des humains.
La simulation de mondes a gagné en popularité grâce à sa capacité à modéliser des environnements virtuels et à prédire les conséquences des actions. Cependant, la fenêtre contextuelle temporelle limitée entraîne souvent des échecs dans le maintien de la cohérence à long terme, en particulier dans la préservation de la cohérence spatiale 3D. Dans ce travail, nous présentons WorldMem, un cadre qui améliore la génération de scènes avec une banque de mémoire composée d'unités de mémoire stockant des images de mémoire et des états (par exemple, des poses et des horodatages). En utilisant un mécanisme d'attention de mémoire qui extrait efficacement les informations pertinentes de ces images de mémoire en fonction de leurs états, notre méthode est capable de reconstruire avec précision des scènes précédemment observées, même avec des écarts importants de point de vue ou de temps. De plus, en incorporant des horodatages dans les états, notre cadre modélise non seulement un monde statique mais capture également son évolution dynamique dans le temps, permettant à la fois la perception et l'interaction dans le monde simulé. Des expériences approfondies dans des scénarios virtuels et réels valident l'efficacité de notre approche.
Les modèles de langage de grande taille (LLMs) ont rapidement augmenté en taille, posant d'importants défis pour leur déploiement efficace sur du matériel aux ressources limitées. Dans cet article, nous présentons Dynamic-Length Float (DFloat11), un cadre de compression sans perte qui réduit la taille des LLMs de 30 % tout en préservant des sorties identiques bit à bit au modèle original. DFloat11 est motivé par la faible entropie dans la représentation des poids en BFloat16 des LLMs, qui révèle une inefficacité significative dans les formats de stockage existants. En appliquant un codage entropique, DFloat11 attribue des encodages de longueur dynamique aux poids en fonction de leur fréquence, atteignant une compression quasi optimale en termes d'information sans aucune perte de précision. Pour faciliter une inférence efficace avec des encodages de longueur dynamique, nous avons développé un noyau GPU personnalisé pour une décompression rapide en ligne. Notre conception intègre les éléments suivants : (i) la décomposition des tables de recherche (LUTs) gourmandes en mémoire en LUTs compactes qui tiennent dans la SRAM du GPU, (ii) un noyau en deux phases pour coordonner les positions de lecture/écriture des threads à l'aide de variables auxiliaires légères, et (iii) une décompression au niveau des blocs de transformateurs pour minimiser la latence. Les expériences sur des modèles récents, incluant Llama-3.1, Qwen-2.5, et Gemma-3, valident notre hypothèse que DFloat11 permet une réduction de la taille des modèles d'environ 30 % tout en préservant des sorties exactes bit à bit. Comparé à une alternative potentielle consistant à décharger des parties d'un modèle non compressé sur le CPU pour respecter les contraintes de mémoire, DFloat11 offre un débit de génération de tokens 1,9 à 38,8 fois supérieur. Avec un budget mémoire GPU fixe, DFloat11 permet des longueurs de contexte 5,3 à 13,17 fois plus longues que les modèles non compressés. Notamment, notre méthode permet une inférence sans perte de Llama-3.1-405B, un modèle de 810 Go, sur un seul nœud équipé de 8 GPU de 80 Go. Notre code et nos modèles sont disponibles à l'adresse https://github.com/LeanModels/DFloat11.
Bien que la synthèse et la distillation de données soient des stratégies prometteuses pour améliorer les petits modèles de langage, les approches actuelles reposent fortement sur les grands modèles de langage (LLMs), qui souffrent de coûts de calcul élevés, d'une inefficacité environnementale et de biais potentiels hérités d'architectures monolithiques. En revanche, les petits LLMs sont plus accessibles et durables, mais leurs capacités individuelles sont souvent insuffisantes pour générer des données de haute qualité, diversifiées et fiables. Inspirés par les processus collaboratifs humains (par exemple, l'examen par les pairs), nous proposons un cadre impliquant plusieurs petits LLMs, appelé GRA, qui agrège des rôles spécialisés à travers plusieurs petits LLMs pour un raffinement itératif et un contrôle de qualité typiquement réalisés par un seul grand LLM. Dans ce cadre collaboratif, plusieurs petits LLMs assument des rôles distincts — Générateur, Relecteur et Arbitre — pour simuler un pipeline de synthèse de données inspiré de l'examen par les pairs. Le Générateur propose des échantillons de données initiaux, le Relecteur critique leur qualité et leur diversité, et l'Arbitre résout les conflits pour finaliser la sortie. En décomposant le processus de synthèse en sous-tâches spécialisées, les petits LLMs collaboratifs peuvent atteindre une parité au niveau des données avec la distillation basée sur un grand LLM. À travers des expériences sur plusieurs benchmarks, nous démontrons que les données produites par GRA égalent ou surpassent la qualité des sorties d'un seul grand LLM, par exemple, Qwen-2.5-72B-Instruct. Nos résultats remettent en question la nécessité de modèles monolithiques de grande taille pour la synthèse de données de haute qualité, préconisant plutôt une coordination stratégique de petits agents. Nos ensembles de données, modèles et code sont disponibles publiquement à l'adresse https://github.com/GX-XinGao/GRA.
Les graphiques sont omniprésents, car les gens les utilisent souvent pour analyser des données, répondre à des questions et découvrir des insights critiques. Cependant, effectuer des tâches analytiques complexes avec des graphiques nécessite un effort perceptuel et cognitif important. Les systèmes de réponse à des questions sur des graphiques (Chart Question Answering, CQA) automatisent ce processus en permettant aux modèles d'interpréter et de raisonner à partir de représentations visuelles de données. Cependant, les benchmarks existants comme ChartQA manquent de diversité réaliste et ont récemment montré une saturation des performances avec les modèles modernes de vision et langage à grande échelle (Large Vision-Language Models, LVLMs). Pour pallier ces limitations, nous introduisons ChartQAPro, un nouveau benchmark qui inclut 1 341 graphiques provenant de 157 sources diverses, couvrant différents types de graphiques, y compris des infographies et des tableaux de bord, et comportant 1 948 questions de divers types, telles que des questions à choix multiples, conversationnelles, hypothétiques et sans réponse, afin de mieux refléter les défis du monde réel. Nos évaluations avec 21 modèles montrent une chute significative des performances des LVLMs sur ChartQAPro ; par exemple, Claude Sonnet 3.5 obtient 90,5 % sur ChartQA mais seulement 55,81 % sur ChartQAPro, soulignant la complexité du raisonnement sur les graphiques. Nous complétons nos résultats avec des analyses d'erreurs détaillées et des études d'ablation, identifiant les principaux défis et opportunités pour faire progresser les LVLMs dans la compréhension et le raisonnement sur les graphiques. Nous publions ChartQAPro à l'adresse https://github.com/vis-nlp/ChartQAPro.
Les modèles de grande taille pour la vidéo (Large Video Models, LVMs) basés sur les modèles de langage de grande taille (Large Language Models, LLMs) ont montré des résultats prometteurs dans la compréhension vidéo, mais souffrent souvent d'un désalignement avec l'intuition humaine et de problèmes d'hallucination vidéo. Pour relever ces défis, nous introduisons VistaDPO, un nouveau cadre pour l'optimisation directe des préférences spatiales-temporelles hiérarchiques dans la vidéo (Video Hierarchical Spatial-Temporal Direct Preference Optimization). VistaDPO améliore l'alignement des préférences texte-vidéo à trois niveaux hiérarchiques : i) Niveau d'instance, alignant le contenu global de la vidéo avec les réponses ; ii) Niveau temporel, alignant la sémantique temporelle de la vidéo avec les descriptions d'événements ; et iii) Niveau perceptif, alignant les objets spatiaux avec les tokens de langage. Étant donné l'absence de jeux de données pour l'alignement fin des préférences vidéo-langage, nous avons construit VistaDPO-7k, un ensemble de 7,2K paires de questions-réponses annotées avec des réponses choisies et rejetées, ainsi que des informations de localisation spatiale-temporelle telles que des timestamps, des images clés et des cadres de délimitation. Des expériences approfondies sur des benchmarks tels que l'hallucination vidéo, les questions-réponses sur la vidéo et les tâches de performance en légendage démontrent que VistaDPO améliore significativement les performances des LVMs existants, atténuant efficacement le désalignement vidéo-langage et l'hallucination. Le code et les données sont disponibles à l'adresse https://github.com/HaroldChen19/VistaDPO.
Le succès des modèles de génération texte-image (T2I) a entraîné une prolifération de nombreux points de contrôle de modèles affinés à partir du même modèle de base sur divers ensembles de données spécialisés. Cette production massive de modèles spécialisés introduit de nouveaux défis en termes de redondance élevée des paramètres et de coût de stockage important, nécessitant ainsi le développement de méthodes efficaces pour consolider et unifier les capacités de divers modèles puissants en un seul. Une pratique courante dans la fusion de modèles consiste à adopter une interpolation linéaire statique dans l'espace des paramètres pour atteindre l'objectif de mélange de styles. Cependant, cette approche néglige les caractéristiques de la tâche de génération T2I, où de nombreux modèles distincts couvrent une variété de styles, ce qui peut entraîner une incompatibilité et une confusion dans le modèle fusionné. Pour résoudre ce problème, nous introduisons un pipeline de génération d'images pilotable par style, capable de générer avec précision des images de style arbitraire sous le contrôle de vecteurs de style. Sur la base de cette conception, nous proposons le paradigme de fusion de modèles par distillation de score (DMM), compressant plusieurs modèles en un seul modèle T2I polyvalent. De plus, nous repensons et reformulons la tâche de fusion de modèles dans le contexte de la génération T2I, en présentant de nouveaux objectifs de fusion et des protocoles d'évaluation. Nos expériences démontrent que DMM peut réorganiser de manière compacte les connaissances de plusieurs modèles enseignants et réaliser une génération contrôlée de styles arbitraires.
Les récents progrès en apprentissage par renforcement (RL) ont renforcé les capacités de raisonnement des modèles vision-langage (VLMs). Cependant, l'amélioration de l'exploration des politiques pour mieux exploiter les ressources de calcul lors des tests reste peu explorée dans les VLMs. De plus, ces modèles continuent de rencontrer des difficultés avec une perception visuelle imparfaite, ce qui affecte par la suite le processus de raisonnement. Pour répondre à ces défis, nous proposons NoisyRollout, une approche RL simple mais efficace qui combine des trajectoires issues d'images propres et modérément déformées pour introduire une diversité ciblée dans la perception visuelle et les schémas de raisonnement qui en découlent. Sans coût d'entraînement supplémentaire, NoisyRollout améliore les capacités d'exploration des VLMs en intégrant un biais inductif orienté vers la vision. Par ailleurs, NoisyRollout utilise un plan d'atténuation du bruit qui réduit progressivement l'intensité de la distorsion au cours de l'entraînement, permettant de tirer profit des signaux bruités en début de phase tout en assurant la stabilité et la scalabilité de l'entraînement dans les étapes ultérieures. Avec seulement 2,1K échantillons d'entraînement, NoisyRollout atteint des performances de pointe parmi les modèles RL ajustés open-source sur 5 benchmarks hors domaine couvrant à la fois des tâches de raisonnement et de perception, tout en conservant des performances comparables voire supérieures dans le domaine d'origine.
Les modèles vision-langage sont essentiels à la recherche en vision par ordinateur, mais de nombreux modèles à hautes performances restent fermés, obscurcissant leurs données, leur conception et leur méthode d'entraînement. La communauté de recherche a répondu en utilisant la distillation de modèles boîte noire pour annoter les données d'entraînement, obtenant ainsi de solides résultats sur les benchmarks, au détriment d'un progrès scientifique mesurable. Cependant, sans connaître les détails du modèle enseignant et de ses sources de données, il reste difficile de mesurer l'avancée scientifique. Dans cet article, nous étudions la construction d'un modèle de perception langagière (PLM) dans un cadre entièrement ouvert et reproductible pour une recherche transparente dans la compréhension d'images et de vidéos. Nous analysons les pipelines d'entraînement standard sans distillation de modèles propriétaires et explorons les données synthétiques à grande échelle pour identifier les lacunes critiques, notamment dans la compréhension détaillée des vidéos. Pour combler ces lacunes, nous publions 2,8 millions d'instances annotées manuellement de paires question-réponse fines sur des vidéos et de descriptions vidéo ancrées spatio-temporellement. De plus, nous introduisons PLM-VideoBench, une suite pour évaluer des tâches complexes de compréhension vidéo, en se concentrant sur la capacité à raisonner sur le "quoi", le "où", le "quand" et le "comment" d'une vidéo. Nous rendons notre travail entièrement reproductible en fournissant les données, les méthodes d'entraînement, le code et les modèles.
Les approches actuelles de personnalisation de sujets basées sur l'apprentissage, reposant principalement sur des architectures U-Net, souffrent d'une capacité de généralisation limitée et d'une qualité d'image compromise. Par ailleurs, les méthodes basées sur l'optimisation nécessitent un ajustement spécifique au sujet, ce qui dégrade inévitablement la contrôlabilité textuelle. Pour relever ces défis, nous proposons InstantCharacter, un cadre évolutif pour la personnalisation de personnages, construit sur un transformateur de diffusion de base. InstantCharacter présente trois avantages fondamentaux : premièrement, il permet une personnalisation ouverte à divers apparences, poses et styles de personnages tout en maintenant des résultats de haute fidélité. Deuxièmement, le cadre introduit un adaptateur évolutif avec des encodeurs de transformateurs empilés, qui traite efficacement les caractéristiques de personnages ouverts et interagit de manière transparente avec l'espace latent des transformateurs de diffusion modernes. Troisièmement, pour entraîner efficacement le cadre, nous avons construit un vaste ensemble de données de personnages contenant des échantillons de l'ordre de 10 millions. L'ensemble de données est systématiquement organisé en sous-ensembles appariés (personnages multi-vues) et non appariés (combinaisons texte-image). Cette structure de données double permet une optimisation simultanée de la cohérence d'identité et de l'éditabilité textuelle via des voies d'apprentissage distinctes. Les expériences qualitatives démontrent les capacités avancées d'InstantCharacter à générer des images de haute fidélité, contrôlables par le texte et cohérentes avec les personnages, établissant ainsi un nouveau standard pour la génération d'images pilotée par les personnages. Notre code source est disponible à l'adresse https://github.com/Tencent/InstantCharacter.
L'augmentation du calcul au moment du test est apparue comme un ingrédient clé pour permettre aux grands modèles de langage (LLM) de résoudre des problèmes complexes, mais elle s'accompagne d'une latence élevée et de coûts d'inférence importants. Nous introduisons le calcul pendant le temps de veille, qui permet aux modèles de "réfléchir" hors ligne à des contextes avant que les requêtes ne soient présentées : en anticipant les questions que les utilisateurs pourraient poser et en pré-calculant des quantités utiles, nous pouvons considérablement réduire les besoins en calcul au moment du test. Pour démontrer l'efficacité de notre méthode, nous créons des versions modifiées de deux tâches de raisonnement - Stateful GSM-Symbolic et Stateful AIME. Nous constatons que le calcul pendant le temps de veille peut réduire la quantité de calcul nécessaire au moment du test pour atteindre la même précision d'environ 5 fois sur Stateful GSM-Symbolic et Stateful AIME, et qu'en augmentant le calcul pendant le temps de veille, nous pouvons encore améliorer la précision jusqu'à 13 % sur Stateful GSM-Symbolic et 18 % sur Stateful AIME. De plus, nous introduisons Multi-Query GSM-Symbolic, qui étend GSM-Symbolic en incluant plusieurs requêtes liées par contexte. En amortissant le calcul pendant le temps de veille sur des requêtes liées concernant le même contexte à l'aide de Multi-Query GSM-Symbolic, nous pouvons réduire le coût moyen par requête de 2,5 fois. Nous menons ensuite une analyse supplémentaire pour comprendre quand le calcul pendant le temps de veille est le plus efficace, constatant que la prévisibilité de la requête de l'utilisateur est bien corrélée avec l'efficacité du calcul pendant le temps de veille. Enfin, nous réalisons une étude de cas sur l'application du calcul pendant le temps de veille à une tâche réaliste d'agent logiciel (SWE).
Les modèles de langage de grande taille (LLMs) ont démontré un potentiel considérable en tant qu'agents, excellant dans des tâches nécessitant plusieurs étapes de raisonnement et d'interactions. Le réglage fin par échantillonnage de rejet (RFT) s'est imposé comme une méthode efficace pour affiner les LLMs en tant qu'agents : il imite d'abord les trajectoires réussies générées par des experts, puis améliore davantage les compétences agentiques grâce à un réglage fin itératif sur des trajectoires auto-générées réussies. Cependant, puisque l'expert (par exemple, GPT-4) réussit principalement sur des sous-tâches plus simples et que le RFT favorise intrinsèquement des scénarios plus simples, de nombreuses sous-tâches complexes restent non résolues et persistent hors distribution (OOD). En examinant ces sous-tâches difficiles, nous avons découvert que les trajectoires d'experts précédemment échouées peuvent souvent fournir des indications précieuses, telles que des plans et des actions clés, qui peuvent considérablement améliorer l'efficacité de l'exploration de l'agent et l'acquisition de compétences critiques. Motivés par ces observations, nous proposons l'Exploration des Échecs Experts (EEF), qui identifie les actions bénéfiques dans les trajectoires d'experts échouées et les intègre dans l'ensemble de données d'entraînement. Les actions potentiellement nuisibles sont soigneusement exclues pour éviter de contaminer le processus d'apprentissage du modèle. En exploitant les actions bénéfiques dans les échecs d'experts, l'EEF résout avec succès certaines sous-tâches précédemment insolubles et améliore les performances de réglage de l'agent. De manière remarquable, notre approche a atteint un taux de réussite de 62\% dans WebShop, surpassant le RFT (53,6\%) et GPT-4 (35,6\%), et, à notre connaissance, établissant un nouvel état de l'art en tant que première méthode à dépasser un score de 0,81 dans WebShop et à excéder 81 dans SciWorld.
La constance des couleurs computationnelle, ou équilibrage des blancs, est un module clé du processeur de signal d'image (ISP) d'un appareil photo qui corrige les dominantes de couleur dues à l'éclairage de la scène. Comme cette opération s'effectue dans l'espace colorimétrique brut spécifique à l'appareil, les algorithmes d'équilibrage des blancs doivent s'adapter à différents appareils. Cet article présente une méthode basée sur l'apprentissage pour la constance des couleurs inter-appareils, capable de généraliser à de nouveaux appareils sans nécessiter de réentraînement. Notre méthode exploite les matrices de correction de couleur (CCM) pré-calibrées disponibles sur les ISP, qui transforment l'espace colorimétrique brut de l'appareil en un espace standard (par exemple, CIE XYZ). Notre méthode utilise ces CCM pour projeter des couleurs d'éclairage prédéfinies (c'est-à-dire le long du locus de Planck) dans l'espace brut de l'appareil testé. Les illuminants projetés sont encodés dans un embedding compact d'empreinte d'appareil (CFE), permettant au réseau de s'adapter à des appareils non vus. Pour éviter le surajustement dû au nombre limité d'appareils et de CCM pendant l'entraînement, nous introduisons une technique d'augmentation de données qui interpole entre les appareils et leurs CCM. Les résultats expérimentaux sur plusieurs jeux de données et architectures montrent que notre méthode atteint des performances de pointe en constance des couleurs inter-appareils, tout en restant légère et en s'appuyant uniquement sur des données facilement disponibles dans les ISP des appareils photo.
La Description Audio (DA) de films vise à narrer le contenu visuel pendant les segments sans dialogue, bénéficiant particulièrement aux publics aveugles et malvoyants (AMV). Par rapport au sous-titrage vidéo général, la DA exige une narration pertinente à l'intrigue avec des références explicites aux noms des personnages, posant des défis uniques dans la compréhension des films. Pour identifier les personnages principaux actifs et se concentrer sur les régions pertinentes à l'histoire, nous proposons FocusedAD, un nouveau cadre qui fournit des descriptions audio de films centrées sur les personnages. Il comprend : (i) un Module de Perception des Personnages (CPM) pour suivre les régions des personnages et les relier à leurs noms ; (ii) un Module de Priorité Dynamique (DPM) qui injecte des indices contextuels à partir des DA et sous-titres précédents via des invites douces apprenables ; et (iii) un Module de Légende Ciblée (FCM) qui génère des narrations enrichies de détails pertinents à l'intrigue et de personnages nommés. Pour surmonter les limites de l'identification des personnages, nous introduisons également un pipeline automatisé pour construire des banques de requêtes de personnages. FocusedAD atteint des performances de pointe sur plusieurs benchmarks, y compris des résultats solides en zero-shot sur MAD-eval-Named et notre nouveau jeu de données Cinepile-AD. Le code et les données seront publiés sur https://github.com/Thorin215/FocusedAD.
Nous présentons Complex-Edit, un benchmark complet conçu pour évaluer systématiquement les modèles d'édition d'images basés sur des instructions à travers des instructions de complexité variable. Pour développer ce benchmark, nous utilisons GPT-4o pour collecter automatiquement un ensemble diversifié d'instructions d'édition à grande échelle. Notre approche suit un pipeline structuré en « Chaîne d'Édition » : nous générons d'abord des tâches d'édition atomiques de manière indépendante, puis les intégrons pour former des instructions complexes et cohérentes. De plus, nous introduisons une série de métriques pour évaluer divers aspects de la performance d'édition, ainsi qu'un pipeline d'auto-évaluation basé sur un modèle de langage visuel (VLM) qui permet des évaluations à grande échelle. Notre benchmark révèle plusieurs observations notables : 1) Les modèles open source sous-performent significativement par rapport aux modèles propriétaires fermés, avec un écart de performance qui s'accentue à mesure que la complexité des instructions augmente ; 2) Une complexité accrue des instructions affecte principalement la capacité des modèles à conserver les éléments clés des images d'entrée et à préserver la qualité esthétique globale ; 3) Décomposer une instruction complexe en une séquence d'étapes atomiques, exécutées pas à pas, dégrade considérablement la performance sur plusieurs métriques ; 4) Une stratégie simple de sélection « Best-of-N » améliore les résultats à la fois pour l'édition directe et l'approche séquentielle pas à pas ; et 5) Nous observons une « malédiction des données synthétiques » : lorsque des données synthétiques sont impliquées dans l'entraînement des modèles, les images éditées par ces modèles tendent à paraître de plus en plus synthétiques à mesure que la complexité des instructions d'édition augmente — un phénomène qui se manifeste également de manière intrigante dans les dernières sorties de GPT-4o.
Les agents de modèles de langage de grande taille (LLM) utilisent de plus en plus la génération augmentée par récupération (RAG) pour améliorer la factualité de leurs réponses. Cependant, en pratique, ces systèmes doivent souvent gérer des requêtes utilisateur ambiguës et des informations potentiellement conflictuelles provenant de multiples sources, tout en supprimant les informations inexactes issues de documents bruyants ou non pertinents. Les travaux antérieurs ont généralement étudié et abordé ces défis de manière isolée, en ne considérant qu'un aspect à la fois, comme la gestion de l'ambiguïté ou la robustesse au bruit et à la désinformation. Nous considérons plutôt plusieurs facteurs simultanément, en proposant (i) RAMDocs (Récupération avec Ambiguïté et Désinformation dans les Documents), un nouveau jeu de données qui simule des scénarios complexes et réalistes de preuves conflictuelles pour une requête utilisateur, incluant l'ambiguïté, la désinformation et le bruit ; et (ii) MADAM-RAG, une approche multi-agents dans laquelle des agents LLM débattent des mérites d'une réponse sur plusieurs tours, permettant à un agrégateur de compiler les réponses correspondant à des entités désambiguïsées tout en écartant la désinformation et le bruit, gérant ainsi conjointement diverses sources de conflit. Nous démontrons l'efficacité de MADAM-RAG en utilisant des modèles propriétaires et open-source sur AmbigDocs -- qui nécessite de présenter toutes les réponses valides pour des requêtes ambiguës -- en améliorant les performances par rapport à des bases de référence RAG solides jusqu'à 11,40 %, et sur FaithEval -- qui nécessite de supprimer la désinformation -- où nous améliorons jusqu'à 15,80 % (en valeur absolue) avec Llama3.3-70B-Instruct. De plus, nous constatons que RAMDocs représente un défi pour les bases de référence RAG existantes (Llama3.3-70B-Instruct n'obtient qu'un score de correspondance exacte de 32,60). Bien que MADAM-RAG commence à aborder ces facteurs conflictuels, notre analyse indique qu'un écart substantiel subsiste, en particulier lorsque le niveau de déséquilibre dans les preuves soutenant une réponse et la désinformation augmente.
Garantir le déploiement éthique des modèles de génération d'images à partir de texte nécessite des techniques efficaces pour empêcher la création de contenus nuisibles ou inappropriés. Bien que les méthodes d'effacement de concepts offrent une solution prometteuse, les approches existantes basées sur le réglage fin présentent des limitations notables. Les méthodes sans ancrage risquent de perturber les trajectoires d'échantillonnage, entraînant des artefacts visuels, tandis que les méthodes avec ancrage reposent sur la sélection heuristique de concepts d'ancrage. Pour surmonter ces lacunes, nous introduisons un cadre de réglage fin, baptisé ANT, qui guide Automatiquement les Trajectoires de déBruitage pour éviter les concepts indésirables. ANT repose sur une idée clé : inverser la direction de conditionnement du guidage sans classifieur pendant les étapes intermédiaires à tardives du débruitage permet une modification précise du contenu sans sacrifier l'intégrité structurelle des étapes initiales. Cela inspire un objectif conscient des trajectoires qui préserve l'intégrité du champ de fonction de score des étapes initiales, qui oriente les échantillons vers la variété des images naturelles, sans recourir à la sélection heuristique de concepts d'ancrage. Pour l'effacement d'un seul concept, nous proposons une carte de salience des poids améliorée par augmentation pour identifier précisément les paramètres critiques qui contribuent le plus significativement au concept indésirable, permettant un effacement plus complet et efficace. Pour l'effacement de multiples concepts, notre fonction objectif offre une solution polyvalente prête à l'emploi qui améliore significativement les performances. Des expériences approfondies démontrent qu'ANT atteint des résultats de pointe dans l'effacement de concepts uniques et multiples, produisant des sorties de haute qualité et sûres sans compromettre la fidélité générative. Le code est disponible à l'adresse https://github.com/lileyang1210/ANT.
Les modèles de langage récents de plus petite taille, tels que Phi-3.5 et Phi-4, s'appuient sur des données synthétiques générées à l'aide de modèles de langage plus grands. Des questions subsistent quant à l'utilisation des données synthétiques pour d'autres cas d'utilisation, comme l'adaptation des LLM à des domaines spécifiques. Une limitation majeure des données synthétiques est leur faible diversité, ce qui affecte négativement leur applicabilité en aval pour l'amélioration d'autres modèles. Pour remédier à cela, nous proposons MetaSynth, une méthode de génération de données synthétiques qui améliore la diversité grâce au méta-prompting, où un modèle de langage orchestre plusieurs agents LLM "experts" pour générer des données de manière collaborative. En utilisant seulement 25 millions de tokens de données synthétiques générées avec MetaSynth, nous avons réussi à adapter un LLM bien entraîné (Mistral-7B-v0.3) à deux domaines spécialisés – la finance et la biomédecine – sans compromettre les capacités du modèle résultant dans les tâches générales. De plus, nous évaluons la diversité de nos données synthétiques à l'aide de sept métriques automatisées et constatons qu'elle approche la diversité des corpus de pré-entraînement des LLM. Le pré-entraînement continu de Mistral-7B-v0.3 avec MetaSynth surpasse notablement le LLM de base, montrant des améliorations allant jusqu'à 4,08 % en finance et 13,75 % en biomédecine. Le même modèle montre une performance dégradée lorsqu'il est entraîné sur des données générées à l'aide d'un prompt basé sur un modèle, même lorsque ce modèle inclut des générations précédentes et des exemples variés de données réelles en contexte. Nos résultats suggèrent que quelques millions de tokens de données synthétiques diversifiées, sans mélanger de données réelles, suffisent pour une adaptation de domaine efficace lors de l'utilisation de MetaSynth.
Les architectures à flux unique utilisant des backbones Vision Transformer (ViT) montrent un grand potentiel pour le suivi en temps réel de drones (UAV) récemment. Cependant, les occlusions fréquentes causées par des obstacles tels que des bâtiments et des arbres révèlent un inconvénient majeur : ces modèles manquent souvent de stratégies pour gérer efficacement les occlusions. De nouvelles méthodes sont nécessaires pour améliorer la résilience aux occlusions des modèles ViT à flux unique dans le suivi aérien. Dans ce travail, nous proposons d'apprendre des Représentations Robustes aux Occlusions (ORR) basées sur les ViT pour le suivi de drones en imposant une invariance de la représentation des caractéristiques d'une cible par rapport à des opérations de masquage aléatoire modélisées par un processus spatial de Cox. Nous espérons que ce masquage aléatoire simule approximativement les occlusions de cible, nous permettant ainsi d'apprendre des ViT robustes aux occlusions pour le suivi de drones. Ce cadre est appelé ORTrack. De plus, pour faciliter les applications en temps réel, nous proposons une méthode de Distillation de Connaissance Basée sur des Caractéristiques Adaptatives (AFKD) pour créer un tracker plus compact, qui imite de manière adaptative le comportement du modèle enseignant ORTrack en fonction de la difficulté de la tâche. Ce modèle étudiant, nommé ORTrack-D, conserve une grande partie des performances d'ORTrack tout en offrant une efficacité accrue. Des expériences approfondies sur plusieurs benchmarks valident l'efficacité de notre méthode, démontrant ses performances de pointe. Les codes sont disponibles à l'adresse https://github.com/wuyou3474/ORTrack.