Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le domaine de la génération de vidéos a fait des avancées remarquables, cependant il reste un besoin urgent d'une recette claire et systématique pouvant guider le développement de modèles robustes et évolutifs. Dans ce travail, nous présentons une étude approfondie explorant de manière systématique l'interaction des architectures de modèles, des recettes d'entraînement et des stratégies de curation des données, aboutissant à une méthode simple et évolutive de génération de vidéos conditionnées par du texte et des images, nommée STIV. Notre cadre intègre la condition d'image dans un Transformateur de Diffusion (DiT) via le remplacement de trames, tout en incorporant la condition de texte via un guidage conjoint sans classificateur conditionnel image-texte. Cette conception permet à STIV d'effectuer simultanément des tâches de texte-à-vidéo (T2V) et de texte-image-à-vidéo (TI2V). De plus, STIV peut être facilement étendu à diverses applications telles que la prédiction de vidéos, l'interpolation de trames, la génération multi-vues et la génération de longues vidéos, etc. Avec des études d'ablation complètes sur T2I, T2V et TI2V, STIV démontre de solides performances, malgré sa conception simple. Un modèle de 8,7 milliards de paramètres avec une résolution de 512 atteint 83,1 sur la tâche VBench T2V, surpassant à la fois les modèles open source et propriétaires de premier plan tels que CogVideoX-5B, Pika, Kling et Gen-3. Le modèle de même taille obtient également un résultat de pointe de 90,1 sur la tâche VBench I2V à une résolution de 512. En fournissant une recette transparente et extensible pour la construction de modèles de génération de vidéos de pointe, nous visons à renforcer la recherche future et à accélérer les progrès vers des solutions de génération de vidéos plus polyvalentes et fiables.
Les grands modèles de langage de code (codeLLMs) ont réalisé des avancées significatives dans la génération de code. La plupart des benchmarks précédents liés au code, qui consistent en divers exercices de programmation accompagnés des cas de test correspondants, sont utilisés comme mesure commune pour évaluer les performances et les capacités des codeLLMs. Cependant, les codeLLMs actuels se concentrent sur la synthèse du bon extrait de code, en négligeant l'alignement avec les préférences humaines, où la requête devrait être échantillonnée à partir de scénarios d'application pratiques et les réponses générées par le modèle devraient satisfaire les préférences humaines. Pour combler l'écart entre la réponse générée par le modèle et la préférence humaine, nous présentons un benchmark rigoureusement élaboré par des humains, CodeArena, pour émuler la complexité et la diversité des tâches de codage du monde réel, comprenant 397 échantillons de haute qualité répartis dans 40 catégories et 44 langages de programmation, soigneusement sélectionnés à partir de requêtes d'utilisateurs. De plus, nous proposons un corpus d'instructions synthétiques divers SynCode-Instruct (près de 20 milliards de jetons) en mettant à l'échelle les instructions du site web pour vérifier l'efficacité du fine-tuning synthétique à grande échelle des instructions, où Qwen2.5-SynCoder totalement formé sur des données d'instructions synthétiques peut atteindre des performances de premier plan des codeLLMs open source. Les résultats révèlent des différences de performances entre les benchmarks basés sur l'exécution et CodeArena. Nos expériences systématiques de CodeArena sur plus de 40 codeLLMs révèlent un écart de performance notable entre les codeLLMs open source de pointe (par exemple, Qwen2.5-Coder) et les codeLLMs propriétaires (par exemple, OpenAI o1), soulignant l'importance de l'alignement avec les préférences humaines.
La visualisation d'histoires, la tâche consistant à créer des récits visuels à partir de descriptions textuelles, a progressé grâce aux modèles de génération de texte en image. Cependant, ces modèles manquent souvent de contrôle efficace sur les apparences et les interactions des personnages, notamment dans les scènes à plusieurs personnages. Pour remédier à ces limitations, nous proposons une nouvelle tâche : la génération de manga personnalisé et introduisons DiffSensei, un cadre innovant spécifiquement conçu pour générer des mangas avec un contrôle dynamique multi-personnages. DiffSensei intègre un générateur d'images basé sur la diffusion avec un modèle de langage multimodal large (MLLM) agissant comme un adaptateur d'identité compatible avec le texte. Notre approche utilise une attention croisée masquée pour incorporer de manière transparente les caractéristiques des personnages, permettant un contrôle précis de la mise en page sans transfert direct de pixels. De plus, l'adaptateur basé sur le MLLM ajuste les caractéristiques des personnages pour les aligner avec les indices textuels spécifiques au panneau, permettant des ajustements flexibles dans les expressions, les poses et les actions des personnages. Nous introduisons également MangaZero, un ensemble de données à grande échelle adapté à cette tâche, contenant 43 264 pages de manga et 427 147 panneaux annotés, soutenant la visualisation des interactions et des mouvements de personnages variés à travers des images séquentielles. Des expériences approfondies démontrent que DiffSensei surpasse les modèles existants, marquant une avancée significative dans la génération de manga en permettant une personnalisation des personnages adaptable au texte. La page du projet se trouve à l'adresse https://jianzongwu.github.io/projects/diffsensei/.
La récente vague d'intérêt pour les modèles multimodaux complets a rendu nécessaire l'unification de modalités diverses. Cependant, cette unification souffre de méthodologies disparates. La génération visuelle continue nécessite une approche basée sur la diffusion de séquence complète, malgré sa divergence par rapport à la modélisation autorégressive dans le domaine du texte. Nous soutenons que la modélisation autorégressive, c'est-à-dire prédire l'avenir en se basant sur une expérience passée déterministe, reste cruciale pour développer à la fois un modèle de génération visuelle et un modèle multimodal unifié potentiel. Dans cet article, nous explorons une interpolation entre la modélisation autorégressive et la diffusion de paramètres complets pour modéliser l'information visuelle. Au cœur de notre approche, nous présentons ACDiT, un Transformer de Diffusion Conditionnelle par blocs Autorégressifs, où la taille du bloc de diffusion, c'est-à-dire la taille des unités autorégressives, peut être ajustée de manière flexible pour interpoler entre l'autorégression au niveau du token et la diffusion de séquence complète. ACDiT est facile à mettre en œuvre, aussi simple que de créer un masque d'attention causale sautée (SCAM) lors de l'entraînement. Lors de l'inférence, le processus itère entre le débruitage par diffusion et le décodage autorégressif qui peut tirer pleinement parti du KV-Cache. Nous vérifions l'efficacité d'ACDiT sur des tâches de génération d'images et de vidéos. Nous démontrons également qu'en bénéficiant de la modélisation autorégressive, ACDiT peut être utilisé de manière transparente dans des tâches de compréhension visuelle malgré son entraînement sur l'objectif de diffusion. L'analyse du compromis entre la modélisation autorégressive et la diffusion démontre le potentiel d'ACDiT à être utilisé dans des tâches de génération visuelle à long terme. Ces forces le rendent prometteur en tant que colonne vertébrale des futurs modèles unifiés.
Nous présentons UniReal, un cadre unifié conçu pour aborder diverses tâches de génération et d'édition d'images. Les solutions existantes varient souvent selon les tâches, mais partagent des principes fondamentaux : préserver la cohérence entre les entrées et les sorties tout en capturant les variations visuelles. Inspirés par les modèles récents de génération de vidéos qui équilibrent efficacement la cohérence et la variation entre les images, nous proposons une approche unificatrice qui traite les tâches au niveau de l'image comme une génération de vidéo discontinue. Plus précisément, nous considérons des nombres variables d'images d'entrée et de sortie comme des images clés, permettant un support transparent pour des tâches telles que la génération d'images, l'édition, la personnalisation, la composition, etc. Bien que conçu pour les tâches au niveau de l'image, nous exploitons les vidéos comme une source évolutive de supervision universelle. UniReal apprend la dynamique du monde à partir de vidéos à grande échelle, démontrant une capacité avancée à gérer les ombres, les reflets, les variations de pose et l'interaction des objets, tout en présentant également une capacité émergente pour de nouvelles applications.
À mesure que la qualité des générateurs d'images s'améliore, les deepfakes deviennent un sujet de débat sociétal considérable. Le tatouage numérique d'images permet aux propriétaires responsables de modèles de détecter et d'étiqueter leur contenu généré par IA, ce qui peut atténuer les dommages. Cependant, les méthodes actuelles de tatouage numérique d'images les plus avancées restent vulnérables aux attaques de contrefaçon et de suppression. Cette vulnérabilité survient en partie car les tatouages numériques déforment la distribution des images générées, révélant involontairement des informations sur les techniques de tatouage. Dans ce travail, nous présentons tout d'abord une méthode de tatouage numérique d'images sans distorsion, basée sur le bruit initial d'un modèle de diffusion. Cependant, détecter le tatouage nécessite de comparer le bruit initial reconstruit pour une image à tous les bruits initiaux précédemment utilisés. Pour atténuer ces problèmes, nous proposons un cadre de tatouage numérique en deux étapes pour une détection efficace. Pendant la génération, nous augmentons le bruit initial avec des motifs de Fourier générés pour intégrer des informations sur le groupe de bruits initiaux que nous avons utilisé. Pour la détection, nous (i) récupérons le groupe pertinent de bruits, et (ii) cherchons à l'intérieur du groupe donné un bruit initial qui pourrait correspondre à notre image. Cette approche de tatouage numérique atteint une robustesse de pointe contre la contrefaçon et la suppression face à une grande variété d'attaques.
Les récentes avancées en matière de génération de texte vers image ont permis la création d'images de haute qualité avec diverses applications. Cependant, décrire avec précision les attributs visuels souhaités peut être difficile, en particulier pour les non-spécialistes de l'art et de la photographie. Une solution intuitive consiste à adopter les attributs favorables des images sources. Les méthodes actuelles tentent de distiller l'identité et le style des images sources. Cependant, le "style" est un concept large qui englobe la texture, la couleur et les éléments artistiques, mais ne couvre pas d'autres attributs importants tels que l'éclairage et la dynamique. De plus, une adaptation simplifiée du "style" empêche de combiner plusieurs attributs de différentes sources en une seule image générée. Dans ce travail, nous formulons une approche plus efficace pour décomposer l'esthétique d'une image en attributs visuels spécifiques, permettant aux utilisateurs d'appliquer des caractéristiques telles que l'éclairage, la texture et la dynamique à partir d'images différentes. Pour atteindre cet objectif, nous avons construit le premier ensemble de données d'attributs visuels fins (FiVA) à notre connaissance. Cet ensemble de données FiVA présente une taxonomie bien organisée pour les attributs visuels et comprend environ 1 million d'images générées de haute qualité avec des annotations d'attributs visuels. En exploitant cet ensemble de données, nous proposons un cadre d'adaptation d'attributs visuels fins (FiVA-Adapter), qui découple et adapte les attributs visuels d'une ou plusieurs images sources dans une image générée. Cette approche améliore la personnalisation conviviale, permettant aux utilisateurs d'appliquer sélectivement les attributs souhaités pour créer des images répondant à leurs préférences uniques et à des exigences de contenu spécifiques.
Les modèles de diffusion vidéo ont atteint un réalisme impressionnant et une contrôlabilité, mais sont limités par des exigences computationnelles élevées, restreignant leur utilisation sur les appareils mobiles. Cet article présente le premier modèle de diffusion vidéo optimisé pour les appareils mobiles. À partir d'un UNet spatio-temporel de la diffusion vidéo stable (SVD), nous réduisons la mémoire et le coût computationnel en diminuant la résolution des images, en incorporant des représentations temporelles multi-échelles, et en introduisant deux nouveaux schémas de taille pour réduire le nombre de canaux et de blocs temporels. De plus, nous utilisons un affinage adversarial pour réduire le débruitage à une seule étape. Notre modèle, nommé MobileVD, est 523 fois plus efficace (1817,2 contre 4,34 TFLOPs) avec une légère baisse de qualité (FVD 149 contre 171), générant des latents pour un clip de 14x512x256 px en 1,7 seconde sur un Xiaomi-14 Pro. Nos résultats sont disponibles sur https://qualcomm-ai-research.github.io/mobile-video-diffusion/
Ce document vise à manipuler les mouvements 3D multi-entités dans la génération de vidéos. Les méthodes précédentes de génération de vidéos contrôlables exploitent principalement des signaux de contrôle 2D pour manipuler les mouvements des objets et ont obtenu des résultats de synthèse remarquables. Cependant, les signaux de contrôle 2D sont intrinsèquement limités pour exprimer la nature 3D des mouvements des objets. Pour surmonter ce problème, nous introduisons 3DTrajMaster, un contrôleur robuste qui régule la dynamique multi-entités dans l'espace 3D, en fonction des séquences de pose 6DoF (emplacement et rotation) désirées par l'utilisateur des entités. Au cœur de notre approche se trouve un injecteur d'objets ancré dans les mouvements 3D, qui fusionne plusieurs entités d'entrée avec leurs trajectoires 3D respectives grâce à un mécanisme d'auto-attention à portes. De plus, nous exploitons une architecture d'injecteur pour préserver la diffusion vidéo antérieure, ce qui est crucial pour la capacité de généralisation. Pour atténuer la dégradation de la qualité vidéo, nous introduisons un adaptateur de domaine lors de l'entraînement et utilisons une stratégie d'échantillonnage progressif lors de l'inférence. Pour pallier le manque de données d'entraînement adaptées, nous construisons un ensemble de données 360-Motion, qui relie d'abord des actifs humains et animaux 3D collectés à des trajectoires générées par GPT, puis capture leurs mouvements avec 12 caméras entourant uniformément sur diverses plateformes UE 3D. Des expériences approfondies montrent que 3DTrajMaster établit un nouvel état de l'art à la fois en termes de précision et de généralisation pour le contrôle des mouvements 3D multi-entités. Page du projet : http://fuxiao0719.github.io/projects/3dtrajmaster
Nous présentons les modèles Granite Guardian, un ensemble de sauvegardes conçu pour détecter les risques liés aux requêtes et aux réponses, permettant une utilisation sûre et responsable en combinaison avec tout grand modèle de langage (LLM). Ces modèles offrent une couverture complète sur plusieurs dimensions de risque, incluant les biais sociaux, la vulgarité, la violence, le contenu sexuel, les comportements non éthiques, le jailbreaking, et les risques liés à l'hallucination tels que la pertinence contextuelle, la cohérence et la pertinence de la réponse pour la génération augmentée par récupération (RAG). Entraînés sur un ensemble de données unique combinant des annotations humaines provenant de sources diverses et des données synthétiques, les modèles Granite Guardian abordent les risques généralement négligés par les modèles traditionnels de détection de risques, tels que les jailbreaks et les problèmes spécifiques à la RAG. Avec des scores AUC de 0,871 et 0,854 respectivement sur des référentiels de contenu nuisible et d'hallucination liée à la RAG, Granite Guardian est le modèle le plus généralisable et compétitif disponible dans cet espace. Publié en open source, Granite Guardian vise à promouvoir le développement responsable de l'IA au sein de la communauté. https://github.com/ibm-granite/granite-guardian
Les récents progrès dans l'édition vidéo basée sur la diffusion ont montré un potentiel remarquable pour des applications pratiques. Cependant, ces méthodes restent excessivement coûteuses et difficiles à déployer sur des appareils mobiles. Dans cette étude, nous introduisons une série d'optimisations qui rendent l'édition vidéo sur mobile réalisable. En nous appuyant sur le modèle d'édition d'image existant, nous optimisons d'abord son architecture et incorporons un autoencodeur léger. Ensuite, nous étendons la distillation de guidage sans classifieur à plusieurs modalités, ce qui se traduit par une accélération sur l'appareil de trois fois. Enfin, nous réduisons le nombre d'étapes d'échantillonnage à une en introduisant un nouveau schéma de distillation adversaire qui préserve la contrôlabilité du processus d'édition. Collectivement, ces optimisations permettent l'édition vidéo à 12 images par seconde sur des appareils mobiles, tout en maintenant une haute qualité. Nos résultats sont disponibles sur https://qualcomm-ai-research.github.io/mobile-video-editing/
Nous proposons DiTFlow, une méthode de transfert du mouvement d'une vidéo de référence vers une nouvelle vidéo synthétisée, conçue spécifiquement pour les Transformateurs de Diffusion (DiT). Nous traitons d'abord la vidéo de référence avec un DiT pré-entraîné pour analyser les cartes d'attention inter-trames et extraire un signal de mouvement par patch appelé le Flux de Mouvement d'Attention (AMF). Nous guidons le processus de débruitage latent de manière basée sur l'optimisation, sans nécessiter d'entraînement, en optimisant les latents avec notre perte AMF pour générer des vidéos reproduisant le mouvement de la vidéo de référence. Nous appliquons également notre stratégie d'optimisation aux plongements positionnels du transformateur, ce qui nous confère un avantage en termes de capacités de transfert de mouvement sans apprentissage. Nous évaluons DiTFlow par rapport à des méthodes récemment publiées, surpassant toutes les autres selon plusieurs critères et évaluations humaines.
Les modèles de langage multimodaux (MLM) rencontrent encore des défis dans les tâches fondamentales de perception visuelle où les modèles spécialisés excellent. Les tâches nécessitant un raisonnement sur les structures 3D bénéficient de l'estimation de profondeur, et le raisonnement sur les instances d'objets 2D bénéficie de la détection d'objets. Cependant, les MLM ne peuvent pas produire de profondeur intermédiaire ou de boîtes pour raisonner. Le fine-tuning des MLM sur des données pertinentes ne généralise pas bien et externaliser le calcul à des outils de vision spécialisés est trop intensif en calcul et inefficace en mémoire. Pour résoudre ce problème, nous introduisons les "Perception Tokens", des représentations d'images intrinsèques conçues pour aider aux tâches de raisonnement où le langage est insuffisant. Les tokens de perception agissent comme des tokens de raisonnement auxiliaires, semblables aux prompts de chaîne de pensée dans les modèles de langage. Par exemple, dans une tâche liée à la profondeur, un MLM augmenté de tokens de perception peut raisonner en générant une carte de profondeur sous forme de tokens, lui permettant de résoudre efficacement le problème. Nous proposons AURORA, une méthode d'entraînement qui augmente les MLM avec des tokens de perception pour un raisonnement amélioré sur les entrées visuelles. AURORA exploite un VQVAE pour transformer les représentations d'images intermédiaires, telles que les cartes de profondeur, en un format tokenisé et des tokens de boîtes englobantes, qui sont ensuite utilisés dans un cadre d'entraînement multi-tâches. AURORA obtient des améliorations notables sur les benchmarks de comptage : +10,8 % sur BLINK, +11,3 % sur CVBench et +8,3 % sur SEED-Bench, surpassant les approches de fine-tuning en généralisation sur les ensembles de données. Il améliore également la profondeur relative : de plus de +6 % sur BLINK. Avec les tokens de perception, AURORA élargit le champ d'application des MLM au-delà du raisonnement basé sur le langage, ouvrant la voie à des capacités de raisonnement visuel plus efficaces.
L'interprétabilité est un défi majeur pour favoriser la confiance dans les Grands Modèles de Langage (GML), qui découle de la complexité d'extraire le raisonnement des paramètres du modèle. Nous présentons l'Hypothèse de Représentation de Cadre, un cadre théoriquement robuste ancré dans l'Hypothèse de Représentation Linéaire (HRL) pour interpréter et contrôler les GML en modélisant des mots multi-token. Des recherches antérieures ont exploré l'HRL pour relier les représentations des GML à des concepts linguistiques, mais se limitaient à une analyse de jeton unique. Comme la plupart des mots sont composés de plusieurs jetons, nous étendons l'HRL aux mots multi-token, permettant ainsi son utilisation sur n'importe quelles données textuelles avec des milliers de concepts. À cette fin, nous proposons que les mots puissent être interprétés comme des cadres, des séquences ordonnées de vecteurs qui captent mieux les relations entre les jetons et les mots. Ensuite, les concepts peuvent être représentés par la moyenne des cadres de mots partageant un concept commun. Nous présentons ces outils à travers le Décodage Guidé par les Concepts Top-k, qui peut orienter de manière intuitive la génération de texte en utilisant des concepts choisis. Nous vérifions ces idées sur les familles Llama 3.1, Gemma 2 et Phi 3, en démontrant les biais de genre et de langue, en exposant des contenus nuisibles, mais aussi en montrant le potentiel de les remédier, conduisant à des GML plus sûrs et plus transparents. Le code est disponible sur https://github.com/phvv-me/frame-representation-hypothesis.git
Ce travail se concentre sur le développement de modèles légers et efficaces en termes de paramètres pour des prédictions denses, tout en équilibrant les paramètres, les FLOPs et les performances. Notre objectif est d'établir une nouvelle frontière avec des modèles légers de l'ordre de grandeur de 5M pour diverses tâches ultérieures. Le Bloc Résiduel Inversé (IRB) sert d'infrastructure pour les CNN légers, mais aucun équivalent n'a été reconnu par une conception basée sur l'attention. Notre travail repense l'infrastructure légère de l'IRB efficace et des composants pratiques dans le Transformer d'un point de vue unifié, en étendant l'IRB basé sur CNN aux modèles basés sur l'attention et en abstrayant un Bloc Mobile Méta à un résidu unique (MMBlock) pour la conception de modèles légers. En suivant un critère de conception soigné mais efficace, nous déduisons un Bloc Mobile Résiduel Inversé Amélioré moderne (i2RMB) et améliorons un Modèle Efficace Hiérarchique (EMOv2) sans structures complexes élaborées. En tenant compte de la latence imperceptible pour les utilisateurs mobiles lors du téléchargement de modèles sous bande passante 4G/5G et en garantissant les performances du modèle, nous étudions la limite supérieure des performances des modèles légers d'une magnitude de 5M. Des expériences approfondies sur diverses tâches de reconnaissance visuelle, de prédiction dense et de génération d'images démontrent la supériorité de notre EMOv2 par rapport aux méthodes de pointe, par exemple, EMOv2-1M/2M/5M atteignent 72,3, 75,8 et 79,4 Top-1, dépassant significativement les modèles équivalents basés sur CNN/Attention. En même temps, EMOv2-5M équipé de RetinaNet atteint 41,5 mAP pour les tâches de détection d'objets, surpassant le précédent EMO-5M de +2,6. En utilisant une recette d'entraînement plus robuste, notre EMOv2-5M atteint finalement une précision de 82,9 Top-1, élevant les performances des modèles de l'ordre de grandeur de 5M à un nouveau niveau. Le code est disponible sur https://github.com/zhangzjn/EMOv2.
Les récents progrès dans les modèles de génération d'images ont permis la création d'images personnalisées avec à la fois des sujets (contenu) et des styles définis par l'utilisateur. Les travaux antérieurs ont réalisé la personnalisation en fusionnant les paramètres d'adaptation de bas rang correspondants (LoRAs) à travers des méthodes basées sur l'optimisation, qui sont exigeantes en termes de calcul et inadaptées à une utilisation en temps réel sur des appareils aux ressources limitées tels que les smartphones. Pour remédier à cela, nous introduisons LoRA.rar, une méthode qui non seulement améliore la qualité des images mais permet également un gain de vitesse remarquable de plus de 4000 fois dans le processus de fusion. LoRA.rar pré-entraîne un hyper-réseau sur un ensemble diversifié de paires LoRA de contenu-style, apprenant une stratégie de fusion efficace qui se généralise à de nouvelles paires contenu-style non vues, permettant une personnalisation rapide et de haute qualité. De plus, nous identifions des limitations dans les métriques d'évaluation existantes pour la qualité contenu-style et proposons un nouveau protocole utilisant des modèles de langage multimodaux de grande taille (MLLM) pour une évaluation plus précise. Notre méthode surpasse significativement l'état de l'art actuel à la fois en termes de fidélité au contenu et au style, comme validé par les évaluations MLLM et humaines.
Dans cet article, nous présentons ILLUME, un modèle de langue large multimodal unifié (MLLM) qui intègre de manière transparente des capacités de compréhension et de génération multimodales au sein d'un seul grand modèle de langue grâce à une formulation unifiée de prédiction du jeton suivant. Pour répondre à la grande taille de l'ensemble de données généralement requise pour l'alignement image-texte, nous proposons d'améliorer l'efficacité des données grâce à la conception d'un tokeniseur de vision qui intègre des informations sémantiques et une procédure d'entraînement progressive à plusieurs étapes. Cette approche réduit la taille de l'ensemble de données à seulement 15M pour la préformation - plus de quatre fois moins que ce qui est généralement nécessaire - tout en atteignant des performances compétitives, voire supérieures, par rapport aux MLLMs unifiés existants, tels que Janus. De plus, pour promouvoir l'amélioration synergique entre les capacités de compréhension et de génération, peu explorée dans les travaux précédents, nous introduisons un nouveau schéma d'alignement multimodal auto-améliorant. Ce schéma supervise le MLLM pour évaluer lui-même la cohérence entre les descriptions textuelles et les images auto-générées, facilitant la capacité du modèle à interpréter les images de manière plus précise et à éviter les prédictions irréalistes et incorrectes causées par un désalignement dans la génération d'images. Sur la base d'expériences approfondies, notre ILLUME proposé se distingue et rivalise avec les MLLMs unifiés de pointe et les modèles spécialisés sur divers benchmarks pour la compréhension, la génération et la modification multimodales.
Récemment, les Grands Modèles de Langage (GML) ont subi une transformation significative, marquée par une montée en flèche rapide de leur popularité et de leurs capacités. À la tête de cette évolution se trouvent des GML propriétaires comme GPT-4 et GPT-o1, qui ont suscité une attention généralisée dans la communauté de l'IA en raison de leurs performances et de leur polyvalence remarquables. Parallèlement, des GML open-source, tels que LLaMA et Mistral, ont apporté une contribution majeure à la popularité croissante des GML en raison de la facilité de personnalisation et de déploiement des modèles dans diverses applications. Bien que les GML open-source offrent des opportunités sans précédent pour l'innovation et la recherche, la commercialisation des GML a soulevé des préoccupations concernant la transparence, la reproductibilité et la sécurité. De nombreux GML open-source ne respectent pas les exigences fondamentales en matière de transparence en retenant des composants essentiels tels que le code d'entraînement et les données, et certains utilisent des licences restrictives tout en prétendant être "open-source", ce qui peut entraver les innovations futures sur les GML. Pour atténuer ce problème, nous présentons Moxin 7B, un GML entièrement open-source développé conformément au Cadre d'ouverture des modèles (MOF), un système de classification hiérarchisé qui évalue les modèles d'IA en fonction de leur complétude et de leur ouverture, en respectant les principes de la science ouverte, du code source ouvert, des données ouvertes et de l'accès ouvert. Notre modèle atteint le plus haut niveau de classification MOF "science ouverte" grâce à la publication complète du code et des configurations de pré-entraînement, des ensembles de données d'entraînement et de fine-tuning, ainsi que des points de contrôle intermédiaires et finaux. Les expériences montrent que notre modèle obtient des performances supérieures en évaluation sans apprentissage préalable par rapport aux modèles 7B populaires et se comporte de manière compétitive en évaluation à quelques exemples.
Les récents progrès dans les Grands Modèles Multi-modaux (GMM) soulignent l'importance de l'échelle en augmentant les données appariées image-texte, atteignant des performances impressionnantes sur des tâches générales. Malgré leur efficacité dans de larges applications, les modèles généralistes sont principalement entraînés sur des ensembles de données à l'échelle du web dominés par des images naturelles, ce qui se traduit par le sacrifice de capacités spécialisées pour des tâches spécifiques au domaine nécessitant une connaissance préalable approfondie du domaine. De plus, l'intégration directe de modèles experts adaptés à des domaines spécifiques est difficile en raison de l'écart de représentation et de l'optimisation déséquilibrée entre le modèle généraliste et les experts. Pour relever ces défis, nous présentons Chimera, un pipeline multi-modal évolutif et peu coûteux conçu pour renforcer les capacités des GMM existants avec des experts spécifiques au domaine. Plus précisément, nous concevons une stratégie d'entraînement progressive pour intégrer les caractéristiques des modèles experts dans l'entrée d'un GMM généraliste. Pour résoudre l'optimisation déséquilibrée causée par l'encodeur visuel général bien aligné, nous introduisons un mécanisme de Masquage de Collaboration Généraliste-Spécialiste (GSCM) novateur. Cela donne lieu à un modèle polyvalent qui excelle dans les domaines des graphiques, des tableaux, des mathématiques et des documents, atteignant des performances de pointe sur des tâches de raisonnement multi-modal et d'extraction de contenu visuel, toutes deux étant des tâches difficiles pour évaluer les GMM existants.
Cette étude vise à obtenir un contrôle d'objet plus précis et polyvalent dans la génération d'images vers vidéos (I2V). Les méthodes actuelles représentent généralement le mouvement spatial des objets cibles avec des trajectoires 2D, qui échouent souvent à capturer l'intention de l'utilisateur et produisent fréquemment des résultats non naturels. Pour améliorer le contrôle, nous présentons ObjCtrl-2.5D, une approche de contrôle d'objet sans entraînement qui utilise une trajectoire 3D, étendue à partir d'une trajectoire 2D avec des informations de profondeur, comme signal de contrôle. En modélisant le mouvement des objets comme un mouvement de caméra, ObjCtrl-2.5D représente la trajectoire 3D comme une séquence de poses de caméra, permettant le contrôle du mouvement de l'objet en utilisant un modèle de génération I2V de contrôle de mouvement de caméra existant (CMC-I2V) sans entraînement. Pour adapter le modèle CMC-I2V initialement conçu pour le contrôle du mouvement global afin de gérer le mouvement local de l'objet, nous introduisons un module pour isoler l'objet cible du fond, permettant un contrôle local indépendant. De plus, nous concevons une méthode efficace pour obtenir un contrôle d'objet plus précis en partageant un latent déformé à basse fréquence dans la région de l'objet à travers les images. Des expériences approfondies démontrent qu'ObjCtrl-2.5D améliore significativement la précision du contrôle d'objet par rapport aux méthodes sans entraînement et offre des capacités de contrôle plus diversifiées que les approches basées sur l'entraînement utilisant des trajectoires 2D, permettant des effets complexes tels que la rotation d'objet. Le code et les résultats sont disponibles sur https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.
Cet article vise à améliorer les performances des grands modèles de langage en abordant les demandes computationnelles variables lors des étapes d'inférence, où certains tokens nécessitent plus de ressources computationnelles que d'autres. Nous présentons HARP, une modification simple du passage avant du Transformer "prêt à l'emploi". S'inspirant de l'hésitation et de l'effet de cadrage dans la prise de décision, HARP applique sélectivement des calculs supplémentaires lorsque le modèle rencontre de l'incertitude lors de la génération de tokens. Notre méthode imite les processus cognitifs humains en faisant une pause aux points de décision difficiles et en reformulant les entrées pour une perspective différente. Contrairement à d'autres approches, HARP est agnostique au modèle, ne nécessite pas d'entraînement et est facile à implémenter. Nous évaluons rigoureusement notre méthode sur diverses tâches secondaires et tailles de modèles, démontrant des améliorations de performance allant jusqu'à +5,16%. Notamment, HARP réalise ces gains tout en maintenant des temps d'inférence deux fois plus rapides que la recherche par faisceau. Simple et pourtant avec des gains significatifs, HARP offre une solution pratique pour améliorer les performances des modèles de langage basés sur Transformer avec un impact computationnel minimal.
La génération texte-image (T2I) a connu des progrès significatifs avec les modèles de diffusion, permettant la génération d'images photoréalistes à partir de descriptions textuelles. Malgré ces avancées, les méthodes existantes rencontrent encore des défis pour suivre des instructions textuelles complexes, notamment celles nécessitant un raisonnement compositionnel et multi-étapes. Face à de telles instructions complexes, les modèles de pointe (SOTA) commettent souvent des erreurs dans la modélisation fidèle des attributs des objets et des relations entre eux. Dans ce travail, nous présentons un paradigme alternatif pour la synthèse T2I, décomposant la tâche de génération multi-étapes complexe en trois étapes : (a) Générer : nous générons d'abord une image en utilisant des modèles de diffusion existants, (b) Planifier : nous utilisons des Modèles de Langage Multi-Modaux (MLLMs) pour identifier les erreurs dans l'image générée exprimées en termes d'objets individuels et de leurs propriétés, et produire une séquence d'étapes correctives nécessaires sous forme d'un plan de modification, (c) Modifier : nous utilisons des modèles d'édition d'images guidés par texte existants pour exécuter séquentiellement notre plan de modification sur l'image générée afin d'obtenir l'image souhaitée qui est fidèle à l'instruction initiale. Notre approche tire sa force du fait qu'elle est modulaire par nature, ne nécessite pas d'entraînement, et peut être appliquée à toute combinaison de modèles de génération et d'édition d'images. En outre, nous développons un modèle capable d'édition compositionnelle, ce qui contribue à améliorer la précision globale de notre approche proposée. Notre méthode échange de manière flexible le temps d'inférence avec les performances sur des instructions textuelles compositionnelles. Nous réalisons une évaluation expérimentale approfondie sur 3 bancs d'essai et 10 modèles T2I, y compris DALLE-3 et le dernier - SD-3.5-Large. Notre approche améliore non seulement les performances des modèles SOTA, jusqu'à 3 points, mais réduit également l'écart de performance entre les modèles plus faibles et plus forts.
L'apprentissage fédéré (FL) vise à protéger la confidentialité des données en permettant aux clients d'entraîner collectivement des modèles d'apprentissage automatique sans partager leurs données brutes. Cependant, des études récentes démontrent que les informations échangées lors de l'FL sont sujettes aux attaques par inversion de gradient (GIA) et, par conséquent, diverses méthodes de préservation de la confidentialité ont été intégrées à l'FL pour contrer de telles attaques, telles que le Calcul Sécurisé Entre Plusieurs Parties (SMC), le Cryptage Homomorphique (HE) et la Confidentialité Différentielle (DP). Malgré leur capacité à protéger la confidentialité des données, ces approches impliquent intrinsèquement des compromis importants entre la confidentialité et l'utilité. En revisitant la clé de l'exposition à la confidentialité dans l'FL sous GIA, qui réside dans le partage fréquent des gradients de modèle contenant des données privées, nous adoptons une nouvelle perspective en concevant un nouveau cadre d'apprentissage fédéré préservant la confidentialité qui rompt efficacement le "lien direct" entre les paramètres partagés et les données privées locales pour se défendre contre les GIA. Plus précisément, nous proposons un cadre d'apprentissage fédéré Hypernetwork (HyperFL) qui utilise des hypernetworks pour générer les paramètres du modèle local et seuls les paramètres de l'hypernetwork sont téléchargés sur le serveur pour l'agrégation. Des analyses théoriques démontrent le taux de convergence du HyperFL proposé, tandis que des résultats expérimentaux approfondis montrent la capacité de préservation de la confidentialité et les performances comparables de HyperFL. Le code est disponible sur https://github.com/Pengxin-Guo/HyperFL.
La contremesure générée par l'IA offre une stratégie prometteuse et évolutive pour réduire la toxicité en ligne grâce à des réponses directes qui favorisent le dialogue civil. Cependant, les contremesures actuelles sont standardisées, sans adaptation au contexte de modération et aux utilisateurs impliqués. Nous proposons et évaluons plusieurs stratégies pour générer des contremesures personnalisées adaptées au contexte de modération et individualisées pour l'utilisateur modéré. Nous instruisons un modèle LLaMA2-13B pour générer des contremesures, en expérimentant avec différentes configurations basées sur des informations contextuelles variées et des stratégies de fine-tuning. Nous identifions les configurations qui génèrent des contremesures persuasives à travers une combinaison d'indicateurs quantitatifs et d'évaluations humaines collectées via une expérience de crowdsourcing à conception mixte préenregistrée. Les résultats montrent que les contremesures contextualisées peuvent surpasser de manière significative les contremesures génériques de pointe en termes d'adéquation et de persuasion, sans compromettre les autres caractéristiques. Nos conclusions révèlent également une faible corrélation entre les indicateurs quantitatifs et les évaluations humaines, suggérant que ces méthodes évaluent des aspects différents et soulignant le besoin de méthodologies d'évaluation nuancées. L'efficacité des contremesures générées par l'IA contextualisées et l'écart entre les évaluations humaines et algorithmiques soulignent l'importance d'une collaboration accrue entre l'humain et l'IA dans la modération de contenu.
Les politiques de robot visuomoteur, de plus en plus pré-entraînées sur des ensembles de données à grande échelle, promettent des avancées significatives dans divers domaines de la robotique. Cependant, l'alignement de ces politiques avec les préférences des utilisateurs finaux reste un défi, en particulier lorsque les préférences sont difficiles à spécifier. Alors que l'apprentissage par renforcement à partir des retours humains (RLHF) est devenu le mécanisme prédominant pour l'alignement dans des domaines non incarnés tels que les grands modèles de langage, il n'a pas connu le même succès dans l'alignement des politiques visuomotrices en raison de la quantité prohibitive de retours humains nécessaires pour apprendre des fonctions de récompense visuelle. Pour répondre à cette limitation, nous proposons l'Apprentissage basé sur les préférences alignées sur la représentation (RAPL), une méthode basée uniquement sur l'observation pour apprendre des récompenses visuelles à partir de retours humains considérablement moins nombreux. Contrairement au RLHF traditionnel, le RAPL se concentre sur le réglage fin des codeurs de vision pré-entraînés pour les aligner avec la représentation visuelle de l'utilisateur final, puis construit une récompense visuelle dense via la correspondance des caractéristiques dans cet espace de représentation aligné. Nous validons d'abord le RAPL à travers des expériences de simulation dans le benchmark X-Magical et la manipulation robotique Franka Panda, démontrant qu'il peut apprendre des récompenses alignées avec les préférences humaines, utiliser plus efficacement les données de préférence et généraliser à travers les incarnations de robots. Enfin, nos expériences matérielles alignent des Politiques de Diffusion pré-entraînées pour trois tâches de manipulation d'objets. Nous constatons que le RAPL peut affiner ces politiques avec 5 fois moins de données de préférence humaine réelle, franchissant ainsi la première étape vers la réduction des retours humains tout en maximisant l'alignement des politiques de robot visuomoteur.