Articles de recherche en IA sélectionnés quotidiennement avec traductions
À l’ère des grands modèles de langage, l’architecture Mixture-of-Experts (MoE) représente une approche prometteuse pour gérer les coûts computationnels lors de la montée en échelle des paramètres du modèle. Cependant, les architectures MoE conventionnelles comme GShard, qui activent les K experts les plus pertinents parmi N, rencontrent des difficultés à garantir la spécialisation des experts, c’est-à-dire à ce que chaque expert acquière des connaissances non redondantes et ciblées. En réponse, nous proposons l’architecture DeepSeekMoE visant une spécialisation ultime des experts. Elle repose sur deux stratégies principales : (1) segmenter finement les experts en mN unités et en activer mK, permettant une combinaison plus flexible des experts activés ; (2) isoler K_s experts comme partagés, dans le but de capturer des connaissances communes et de réduire la redondance parmi les experts routés. En partant d’une échelle modeste avec 2 milliards de paramètres, nous démontrons que DeepSeekMoE 2B atteint des performances comparables à celles de GShard 2,9B, qui dispose de 1,5 fois plus de paramètres et de calculs dédiés aux experts. De plus, DeepSeekMoE 2B approche presque les performances de son équivalent dense avec le même nombre total de paramètres, qui représente la limite supérieure des modèles MoE. Par la suite, nous augmentons l’échelle de DeepSeekMoE à 16 milliards de paramètres et montrons qu’il atteint des performances comparables à celles de LLaMA2 7B, avec seulement environ 40 % des calculs. Enfin, nos efforts préliminaires pour monter en échelle DeepSeekMoE à 145 milliards de paramètres valident de manière constante ses avantages substantiels par rapport à l’architecture GShard, et montrent des performances comparables à celles de DeepSeek 67B, en utilisant seulement 28,5 % (voire même 18,2 %) des calculs.
Les créateurs de contenu visent souvent à produire des images personnalisées mettant en scène des sujets personnels qui dépassent les capacités des modèles classiques de génération d'image à partir de texte. De plus, ils peuvent souhaiter que l'image résultante intègre un lieu spécifique, un style, une ambiance, et bien plus encore. Les méthodes de personnalisation existantes peuvent compromettre soit la capacité de personnalisation, soit l'alignement avec des prompts textuels complexes. Ce compromis peut entraver la satisfaction des prompts utilisateurs et la fidélité au sujet. Nous proposons une nouvelle approche centrée sur les méthodes de personnalisation pour un seul prompt afin de résoudre ce problème. Nous nommons notre approche "personnalisation alignée au prompt". Bien que cela puisse sembler restrictif, notre méthode excelle à améliorer l'alignement textuel, permettant la création d'images avec des prompts complexes et détaillés, ce qui peut représenter un défi pour les techniques actuelles. En particulier, notre méthode maintient le modèle personnalisé aligné avec un prompt cible en utilisant un terme supplémentaire de distillation d'échantillonnage par score. Nous démontrons la polyvalence de notre méthode dans des configurations multi-shot et single-shot, et montrons en outre qu'elle peut composer plusieurs sujets ou s'inspirer d'images de référence, telles que des œuvres d'art. Nous comparons quantitativement et qualitativement notre approche avec les techniques de référence existantes et les méthodes de pointe.
L'apprentissage par renforcement à partir de retours humains (RLHF) est devenu une technologie cruciale pour aligner les modèles de langage sur les valeurs et intentions humaines, permettant aux modèles de produire des réponses plus utiles et inoffensives. Les modèles de récompense sont entraînés comme substituts des préférences humaines pour piloter l'optimisation de l'apprentissage par renforcement. Bien que les modèles de récompense soient souvent considérés comme centraux pour atteindre des performances élevées, ils rencontrent les défis suivants dans les applications pratiques : (1) Les paires de préférences incorrectes et ambiguës dans le jeu de données peuvent empêcher le modèle de récompense de capturer avec précision l'intention humaine. (2) Les modèles de récompense entraînés sur des données provenant d'une distribution spécifique ont souvent du mal à généraliser à des exemples hors de cette distribution et ne sont pas adaptés à l'entraînement itératif du RLHF. Dans ce rapport, nous tentons de résoudre ces deux problèmes. (1) D'un point de vue des données, nous proposons une méthode pour mesurer la force des préférences dans les données, basée sur un mécanisme de vote de plusieurs modèles de récompense. Les résultats expérimentaux confirment que les données avec des forces de préférence variables ont des impacts différents sur les performances du modèle de récompense. Nous introduisons une série de méthodes novatrices pour atténuer l'influence des préférences incorrectes et ambiguës dans le jeu de données et tirer pleinement parti des données de préférence de haute qualité. (2) D'un point de vue algorithmique, nous introduisons l'apprentissage contrastif pour améliorer la capacité des modèles de récompense à distinguer les réponses choisies et rejetées, améliorant ainsi la généralisation du modèle. De plus, nous utilisons le méta-apprentissage pour permettre au modèle de récompense de maintenir la capacité à différencier les différences subtiles dans les échantillons hors distribution, et cette approche peut être utilisée pour l'optimisation itérative du RLHF.
Le rendu de champs de radiance basé sur des points a démontré des résultats impressionnants pour la synthèse de nouvelles vues, offrant un mélange convaincant de qualité de rendu et d'efficacité computationnelle. Cependant, même les approches les plus récentes dans ce domaine ne sont pas sans défauts. La technique de *3D Gaussian Splatting* [Kerbl et Kopanas et al. 2023] rencontre des difficultés pour restituer des scènes hautement détaillées, en raison d'artefacts de flou et de nuages. D'autre part, *ADOP* [Rückert et al. 2022] permet d'obtenir des images plus nettes, mais le réseau de reconstruction neuronale réduit les performances, souffre d'instabilité temporelle et ne parvient pas à combler efficacement les grands vides dans le nuage de points. Dans cet article, nous présentons *TRIPS* (*Trilinear Point Splatting*), une approche qui combine des idées issues à la fois de *Gaussian Splatting* et d'*ADOP*. Le concept fondamental de notre nouvelle technique consiste à rastériser les points dans une pyramide d'images en espace écran, où la sélection de la couche de la pyramide est déterminée par la taille projetée du point. Cette approche permet de restituer des points de taille arbitrairement grande en utilisant une seule écriture trilinéaire. Un réseau neuronal léger est ensuite utilisé pour reconstruire une image sans trous, incluant des détails au-delà de la résolution des splats. Il est important de noter que notre pipeline de rendu est entièrement différentiable, permettant l'optimisation automatique à la fois des tailles et des positions des points. Notre évaluation démontre que *TRIPS* surpasse les méthodes état de l'art existantes en termes de qualité de rendu tout en maintenant un taux de rafraîchissement en temps réel de 60 images par seconde sur du matériel facilement accessible. Cette performance s'étend à des scénarios complexes, tels que des scènes présentant une géométrie intricate, des paysages expansifs et des séquences à exposition automatique.
Les travaux récents démontrent que l'utilisation de l'apprentissage par renforcement (RL) avec des récompenses de qualité peut améliorer la qualité des images générées dans la génération de texte à image (T2I). Cependant, une simple agrégation de multiples récompenses peut entraîner une sur-optimisation de certaines métriques et une dégradation d'autres, et il est difficile de trouver manuellement les poids optimaux. Une stratégie efficace pour optimiser conjointement plusieurs récompenses en RL pour la génération T2I est fortement souhaitable. Cet article présente Parrot, un nouveau cadre de RL multi-récompenses pour la génération T2I. Grâce à l'utilisation de la sélection Pareto optimale par lots, Parrot identifie automatiquement le compromis optimal entre différentes récompenses lors de l'optimisation RL de la génération T2I. De plus, Parrot emploie une approche d'optimisation conjointe pour le modèle T2I et le réseau d'expansion de prompts, facilitant la génération de prompts textuels conscients de la qualité, améliorant ainsi davantage la qualité finale de l'image. Pour contrer l'oubli catastrophique potentiel du prompt utilisateur original dû à l'expansion de prompt, nous introduisons un guidage centré sur le prompt original au moment de l'inférence, garantissant que l'image générée reste fidèle à l'entrée de l'utilisateur. Des expériences approfondies et une étude utilisateur démontrent que Parrot surpasse plusieurs méthodes de référence selon divers critères de qualité, incluant l'esthétique, la préférence humaine, le sentiment de l'image et l'alignement texte-image.
L'examen des informations encodées dans les représentations cachées des grands modèles de langage (LLM) peut expliquer le comportement des modèles et vérifier leur alignement avec les valeurs humaines. Compte tenu des capacités des LLM à générer du texte compréhensible par les humains, nous proposons d'exploiter le modèle lui-même pour expliquer ses représentations internes en langage naturel. Nous introduisons un cadre appelé Patchscopes et montrons comment il peut être utilisé pour répondre à un large éventail de questions de recherche sur le calcul d'un LLM. Nous démontrons que les méthodes d'interprétabilité antérieures, basées sur la projection des représentations dans l'espace du vocabulaire et l'intervention sur le calcul du LLM, peuvent être considérées comme des instances spécifiques de ce cadre. De plus, plusieurs de leurs limites, telles que l'échec dans l'inspection des couches précoces ou le manque d'expressivité, peuvent être atténuées par un Patchscope. Au-delà de l'unification des techniques d'inspection précédentes, Patchscopes ouvre également de nouvelles possibilités, comme l'utilisation d'un modèle plus performant pour expliquer les représentations d'un modèle plus petit, et débloque de nouvelles applications, telles que l'auto-correction dans le raisonnement multi-étapes.
Les grands modèles de langage entraînés sur des corpus massifs de données provenant du web peuvent mémoriser et reproduire des informations sensibles ou privées, soulevant des préoccupations à la fois juridiques et éthiques. Le désapprentissage, ou le réglage des modèles pour qu'ils oublient des informations présentes dans leurs données d'entraînement, nous offre un moyen de protéger les données privées après l'entraînement. Bien que plusieurs méthodes existent pour un tel désapprentissage, il n'est pas clair dans quelle mesure elles aboutissent à des modèles équivalents à ceux où les données à oublier n'auraient jamais été apprises en premier lieu. Pour relever ce défi, nous présentons TOFU, une Tâche de Désapprentissage Fictif, comme un benchmark visant à approfondir notre compréhension du désapprentissage. Nous proposons un ensemble de données de 200 profils d'auteurs synthétiques diversifiés, chacun composé de 20 paires question-réponse, ainsi qu'un sous-ensemble de ces profils appelé l'ensemble d'oubli qui sert de cible pour le désapprentissage. Nous compilons une suite de métriques qui, ensemble, fournissent une vision holistique de l'efficacité du désapprentissage. Enfin, nous présentons un ensemble de résultats de base provenant d'algorithmes de désapprentissage existants. Il est important de noter qu'aucun des algorithmes de base que nous considérons ne montre un désapprentissage efficace, ce qui motive la poursuite des efforts pour développer des approches de désapprentissage qui ajustent efficacement les modèles afin qu'ils se comportent véritablement comme s'ils n'avaient jamais été entraînés sur les données à oublier.
Au cœur de la médecine se trouve le dialogue entre le médecin et le patient, où une anamnèse habile ouvre la voie à un diagnostic précis, une prise en charge efficace et une confiance durable. Les systèmes d'Intelligence Artificielle (IA) capables de dialoguer pour établir un diagnostic pourraient améliorer l'accessibilité, la cohérence et la qualité des soins. Cependant, approcher l'expertise des cliniciens reste un défi majeur. Nous présentons ici AMIE (Articulate Medical Intelligence Explorer), un système d'IA basé sur un modèle de langage de grande taille (LLM) optimisé pour le dialogue diagnostique. AMIE utilise un environnement simulé innovant basé sur l'auto-apprentissage, doté de mécanismes de feedback automatisés pour élargir l'apprentissage à diverses conditions pathologiques, spécialités et contextes. Nous avons conçu un cadre pour évaluer des axes de performance cliniquement pertinents, incluant l'anamnèse, la précision diagnostique, le raisonnement thérapeutique, les compétences de communication et l'empathie. Nous avons comparé les performances d'AMIE à celles de médecins généralistes dans une étude randomisée en double aveugle et en crossover, basée sur des consultations textuelles avec des acteurs-patients validés, dans le style d'un Examen Clinique Objectif Structuré (ECOS). L'étude comprenait 149 scénarios cliniques fournis par des professionnels de santé au Canada, au Royaume-Uni et en Inde, 20 médecins généralistes pour la comparaison avec AMIE, ainsi que des évaluations par des médecins spécialistes et des acteurs-patients. AMIE a démontré une plus grande précision diagnostique et une performance supérieure sur 28 des 32 axes selon les médecins spécialistes, et sur 24 des 26 axes selon les acteurs-patients. Notre recherche présente plusieurs limites et doit être interprétée avec prudence. Les cliniciens étaient limités à des échanges textuels synchrones non familiers, ce qui permet des interactions à grande échelle entre LLM et patients mais ne reflète pas la pratique clinique habituelle. Bien que des recherches supplémentaires soient nécessaires avant qu'AMIE puisse être transposé dans des contextes réels, ces résultats représentent une étape importante vers une IA conversationnelle diagnostique.
Les modèles de langage multi-modaux de grande envergure ont démontré des performances impressionnantes dans diverses tâches impliquant différentes modalités. Cependant, les modèles multi-modaux existants mettent principalement l'accent sur la capture d'informations globales au sein de chaque modalité, tout en négligeant l'importance de percevoir les informations locales à travers les modalités. Par conséquent, ces modèles manquent de la capacité à comprendre efficacement les détails fins des données d'entrée, limitant ainsi leurs performances dans les tâches nécessitant une compréhension plus nuancée. Pour remédier à cette limitation, il est impératif de développer des modèles permettant une compréhension fine à travers plusieurs modalités, améliorant ainsi leur applicabilité à un large éventail de tâches. Dans cet article, nous proposons LEGO, un modèle d'ancrage multi-modal enrichi par le langage. Au-delà de la capture d'informations globales comme les autres modèles multi-modaux, notre modèle proposé excelle dans les tâches nécessitant une compréhension détaillée des informations locales au sein des entrées. Il démontre une identification et une localisation précises de régions spécifiques dans les images ou de moments dans les vidéos. Pour atteindre cet objectif, nous concevons un pipeline de construction de données diversifié, aboutissant à un ensemble de données multi-modal et multi-granularité pour l'entraînement du modèle. Le code, l'ensemble de données et la démonstration de notre modèle sont disponibles à l'adresse suivante : https://github.com/lzw-lzw/LEGO.
L'édition vidéo basée sur la diffusion a atteint une qualité impressionnante et peut transformer soit le style global, la structure locale, ou les attributs de vidéos données, en suivant des instructions textuelles d'édition. Cependant, ces solutions entraînent généralement des coûts élevés en mémoire et en calcul pour générer des images cohérentes dans le temps, que ce soit sous la forme d'inversion de diffusion et/ou d'attention inter-images. Dans cet article, nous analysons ces inefficacités et proposons des modifications simples mais efficaces permettant des accélérations significatives tout en maintenant la qualité. De plus, nous introduisons la Diffusion Centrée sur les Objets, appelée OCD, pour réduire davantage la latence en allouant les calculs principalement aux régions éditées de premier plan, qui sont sans doute plus importantes pour la qualité perceptuelle. Nous y parvenons grâce à deux propositions novatrices : i) l'Échantillonnage Centré sur les Objets, qui découple les étapes de diffusion consacrées aux régions saillantes ou à l'arrière-plan, en allouant la majeure partie de la capacité du modèle aux premières, et ii) la Fusion de Tokens 3D Centrée sur les Objets, qui réduit le coût de l'attention inter-images en fusionnant les tokens redondants dans les régions d'arrière-plan peu importantes. Ces deux techniques sont directement applicables à un modèle d'édition vidéo existant sans nécessiter de réentraînement, et peuvent réduire considérablement ses coûts en mémoire et en calcul. Nous évaluons nos propositions sur des pipelines d'édition basés sur l'inversion et sur des signaux de contrôle, et montrons une réduction de latence allant jusqu'à 10x pour une qualité de synthèse comparable.
La synthèse dynamique de nouvelles vues vise à capturer l'évolution temporelle du contenu visuel dans les vidéos. Les méthodes existantes peinent à distinguer entre le mouvement et la structure, en particulier dans des scénarios où les poses de la caméra sont soit inconnues, soit contraintes par rapport au mouvement des objets. De plus, avec des informations provenant uniquement d'images de référence, il est extrêmement difficile de générer des régions non vues qui sont occultées ou partiellement observées dans les vidéos données. Pour résoudre ces problèmes, nous affinons d'abord un modèle de diffusion RGB-D pré-entraîné sur les images vidéo en utilisant une technique de personnalisation. Ensuite, nous distillons les connaissances du modèle affiné vers des représentations 4D englobant à la fois des composants dynamiques et statiques de champs de radiance neuronaux (NeRF). La pipeline proposée assure une cohérence géométrique tout en préservant l'identité de la scène. Nous menons des expériences approfondies pour évaluer l'efficacité de la méthode proposée de manière qualitative et quantitative. Nos résultats démontrent la robustesse et l'utilité de notre approche dans des cas difficiles, faisant ainsi progresser la synthèse dynamique de nouvelles vues.
Nous montrons que le contenu sur le web est souvent traduit dans de nombreuses langues, et la faible qualité de ces traductions multidirectionnelles suggère qu'elles ont probablement été créées à l'aide de la Traduction Automatique (TA). Le contenu parallèle multidirectionnel généré par machine ne domine pas seulement les traductions dans les langues moins dotées en ressources ; il constitue également une grande partie du contenu web total dans ces langues. Nous trouvons également des preuves d'un biais de sélection dans le type de contenu traduit dans de nombreuses langues, ce qui est cohérent avec l'idée que du contenu anglais de faible qualité est traduit en masse dans de nombreuses langues moins dotées via la TA. Notre travail soulève de sérieuses préoccupations concernant l'entraînement de modèles tels que les grands modèles de langage multilingues sur des données monolingues et bilingues extraites du web.
Cet article présente les instructions d'alignement contrastif (AlignInstruct) pour aborder deux défis dans la traduction automatique (TA) sur les grands modèles de langage (LLM). Le premier concerne l'extension des langues prises en charge à des langues précédemment inexplorées. Le second est lié au manque de données dans les langues à ressources limitées. L'ajustement fin des modèles via des instructions de traduction automatique (MTInstruct) est une approche directe pour relever le premier défi. Cependant, MTInstruct est limité par les signaux interlinguistiques faibles inhérents au second défi. AlignInstruct met l'accent sur la supervision interlinguistique via un discriminateur interlinguistique construit à l'aide d'alignements de mots statistiques. Nos résultats, basés sur l'ajustement fin des modèles BLOOMZ (1b1, 3b et 7b1) dans jusqu'à 24 langues inexplorées, ont montré que : (1) les LLM peuvent traduire efficacement des langues inexplorées en utilisant MTInstruct ; (2) AlignInstruct a conduit à des améliorations constantes de la qualité de traduction dans 48 directions de traduction impliquant l'anglais ; (3) les instructions basées sur un discriminateur ont surpassé leurs homologues génératives en tant qu'instructions interlinguistiques ; (4) AlignInstruct a amélioré les performances dans 30 directions en zéro-shot.