Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'ajustement fin efficace est crucial pour adapter les grands modèles de langage (LLMs) à des tâches en aval. Cependant, la mise en œuvre de ces méthodes sur différents modèles nécessite des efforts non négligeables. Nous présentons LlamaFactory, un cadre unifié qui intègre une suite de méthodes d'entraînement efficaces de pointe. Il permet aux utilisateurs de personnaliser de manière flexible l'ajustement fin de plus de 100 LLMs sans avoir besoin de coder grâce à l'interface web intégrée LlamaBoard. Nous validons empiriquement l'efficacité et l'efficience de notre cadre sur des tâches de modélisation du langage et de génération de texte. Il a été publié à l'adresse https://github.com/hiyouga/LLaMA-Factory et a déjà reçu plus de 13 000 étoiles et 1 600 forks.
Sora est le premier modèle de génération vidéo généraliste à grande échelle ayant suscité une attention significative à travers la société. Depuis son lancement par OpenAI en février 2024, aucun autre modèle de génération vidéo n'a égalé les performances de Sora ou sa capacité à prendre en charge un large éventail de tâches de génération vidéo. De plus, il n'existe que quelques modèles de génération vidéo entièrement publiés, la majorité étant des systèmes propriétaires. Pour combler cette lacune, cet article propose un nouveau cadre multi-agent appelé Mora, qui intègre plusieurs agents d'IA visuelle avancés pour reproduire la génération vidéo généraliste démontrée par Sora. En particulier, Mora peut exploiter plusieurs agents visuels et réussir à imiter les capacités de génération vidéo de Sora dans diverses tâches, telles que (1) la génération de texte à vidéo, (2) la génération de vidéo à partir d'images conditionnées par du texte, (3) l'extension de vidéos générées, (4) l'édition de vidéo à vidéo, (5) la connexion de vidéos et (6) la simulation de mondes numériques. Nos résultats expérimentaux approfondis montrent que Mora atteint des performances proches de celles de Sora dans diverses tâches. Cependant, il existe un écart de performance évident entre notre travail et Sora lorsqu'ils sont évalués de manière globale. En résumé, nous espérons que ce projet pourra orienter la trajectoire future de la génération vidéo grâce à la collaboration d'agents d'IA.
Nous présentons une nouvelle application des algorithmes évolutionnaires pour automatiser la création de modèles de base puissants. Bien que la fusion de modèles soit apparue comme une approche prometteuse pour le développement de LLM en raison de son rapport coût-efficacité, elle repose actuellement sur l'intuition humaine et les connaissances du domaine, limitant ainsi son potentiel. Ici, nous proposons une approche évolutionnaire qui surmonte cette limitation en découvrant automatiquement des combinaisons efficaces de divers modèles open-source, exploitant leur intelligence collective sans nécessiter de données d'entraînement supplémentaires ou de puissance de calcul importante. Notre approche opère à la fois dans l'espace des paramètres et dans l'espace des flux de données, permettant une optimisation allant au-delà des simples poids des modèles individuels. Cette approche facilite même la fusion interdomaines, générant des modèles tels qu'un LLM japonais doté de capacités de raisonnement mathématique. Étonnamment, notre LLM japonais pour les mathématiques a atteint des performances de pointe sur une variété de benchmarks établis pour les LLM japonais, surpassant même des modèles avec un nombre de paramètres significativement plus élevé, bien qu'il n'ait pas été explicitement entraîné pour de telles tâches. De plus, un VLM japonais sensible à la culture, généré grâce à notre approche, démontre son efficacité à décrire du contenu spécifique à la culture japonaise, surpassant les précédents VLM japonais. Ce travail contribue non seulement à la communauté open-source en fournissant de nouveaux modèles de pointe, mais introduit également un nouveau paradigme pour la composition automatisée de modèles, ouvrant la voie à l'exploration d'approches alternatives et efficaces pour le développement de modèles de base.
Nous présentons SceneScript, une méthode qui produit directement des modèles complets de scènes sous la forme d'une séquence de commandes structurées en langage, en utilisant une approche autoregressive basée sur des tokens. Notre représentation de scène proposée s'inspire des récents succès des transformers et des grands modèles de langage (LLMs), et s'écarte des méthodes plus traditionnelles qui décrivent généralement les scènes sous forme de maillages, de grilles voxel, de nuages de points ou de champs de radiance. Notre méthode déduit l'ensemble des commandes structurées en langage directement à partir de données visuelles encodées, en utilisant une architecture encodeur-décodeur de langage de scène. Pour entraîner SceneScript, nous générons et publions un vaste ensemble de données synthétiques appelé Aria Synthetic Environments, composé de 100 000 scènes intérieures de haute qualité, avec des rendus photoréalistes et annotés de manière précise de parcours de scènes égocentriques. Notre méthode obtient des résultats de pointe dans l'estimation de la disposition architecturale et des résultats compétitifs en détection d'objets 3D. Enfin, nous explorons un avantage de SceneScript, qui est la capacité de s'adapter facilement à de nouvelles commandes via de simples ajouts au langage structuré, ce que nous illustrons pour des tâches telles que la reconstruction grossière de parties d'objets 3D.
L'augmentation de la taille des modèles de vision a été la norme de facto pour obtenir des représentations visuelles plus puissantes. Dans ce travail, nous discutons du point au-delà duquel des modèles de vision plus grands ne sont plus nécessaires. Tout d'abord, nous démontrons la puissance de la mise à l'échelle sur les échelles (Scaling on Scales, S^2), selon laquelle un modèle de vision plus petit pré-entraîné et figé (par exemple, ViT-B ou ViT-L), exécuté sur plusieurs échelles d'images, peut surpasser des modèles plus grands (par exemple, ViT-H ou ViT-G) dans des tâches de classification, de segmentation, d'estimation de profondeur, de benchmarks de modèles de langage multimodaux (MLLM) et de manipulation robotique. Notamment, S^2 atteint des performances de pointe dans la compréhension détaillée des MLLM sur le benchmark V*, surpassant des modèles tels que GPT-4V. Nous examinons les conditions dans lesquelles S^2 est une approche de mise à l'échelle préférable par rapport à l'augmentation de la taille du modèle. Bien que les modèles plus grands aient l'avantage d'une meilleure généralisation sur des exemples difficiles, nous montrons que les caractéristiques des modèles de vision plus grands peuvent être bien approximées par celles de modèles plus petits multi-échelles. Cela suggère que la plupart, sinon toutes, des représentations apprises par les grands modèles pré-entraînés actuels peuvent également être obtenues à partir de modèles plus petits multi-échelles. Nos résultats montrent qu'un modèle plus petit multi-échelles a une capacité d'apprentissage comparable à celle d'un modèle plus grand, et que le pré-entraînement de modèles plus petits avec S^2 peut égaler voire dépasser l'avantage des modèles plus grands. Nous publions un package Python qui peut appliquer S^2 à n'importe quel modèle de vision avec une seule ligne de code : https://github.com/bfshi/scaling_on_scales.
L'utilisation de Stable Diffusion pour la génération de portraits personnalisés s'est imposée comme un outil puissant et remarquable, permettant aux utilisateurs de créer des avatars de personnages personnalisés de haute fidélité à partir de leurs instructions spécifiques. Cependant, les méthodes de personnalisation existantes rencontrent des défis, notamment le réglage au moment du test, la nécessité de plusieurs images d'entrée, une faible préservation de l'identité et une diversité limitée dans les résultats générés. Pour surmonter ces défis, nous présentons IDAdapter, une approche sans réglage qui améliore la diversité et la préservation de l'identité dans la génération d'images personnalisées à partir d'une seule image de visage. IDAdapter intègre un concept personnalisé dans le processus de génération grâce à une combinaison d'injections textuelles et visuelles ainsi qu'une perte d'identité faciale. Pendant la phase d'entraînement, nous incorporons des caractéristiques mixtes provenant de plusieurs images de référence d'une identité spécifique pour enrichir les détails liés à l'identité, guidant ainsi le modèle à générer des images avec des styles, des expressions et des angles plus variés par rapport aux travaux précédents. Des évaluations approfondies démontrent l'efficacité de notre méthode, atteignant à la fois la diversité et la fidélité de l'identité dans les images générées.
Les modèles de récompense (RMs) sont au cœur du succès du RLHF (Reinforcement Learning from Human Feedback) pour aligner les modèles pré-entraînés sur les préférences humaines, mais il existe relativement peu d'études qui se concentrent sur l'évaluation de ces modèles de récompense. Évaluer les modèles de récompense offre une opportunité de comprendre les technologies opaques utilisées pour l'alignement des modèles de langage et les valeurs qui y sont intégrées. À ce jour, il existe très peu de descriptions des capacités, des méthodes d'entraînement ou de modèles de récompense open-source. Dans cet article, nous présentons RewardBench, un ensemble de données de référence et une base de code pour l'évaluation, afin d'améliorer la compréhension scientifique des modèles de récompense. Le jeu de données RewardBench est une collection de trios prompt-gagnant-perdant couvrant le chat, le raisonnement et la sécurité, pour évaluer la performance des modèles de récompense sur des requêtes difficiles, structurées et hors distribution. Nous avons créé des ensembles de données de comparaison spécifiques pour les RMs qui contiennent des raisons subtiles mais vérifiables (par exemple, des bugs, des faits incorrects) pour lesquelles une réponse devrait être préférée à une autre. Sur le tableau des leaders de RewardBench, nous évaluons des modèles de récompense entraînés avec diverses méthodes, telles que l'entraînement MLE direct de classificateurs et la modélisation implicite des récompenses de l'Optimisation Directe des Préférences (DPO), et sur un spectre de jeux de données. Nous présentons de nombreuses découvertes sur la propension au refus, les limitations de raisonnement et les lacunes dans le suivi des instructions de divers modèles de récompense, dans le but de mieux comprendre le processus RLHF.
Les avancées récentes indiquent que l'augmentation de l'échelle des Modèles de Langage Multimodaux de Grande Taille (MLLMs) améliore efficacement les performances sur les tâches multimodales en aval. Le paradigme dominant des MLLMs, par exemple LLaVA, transforme les caractéristiques visuelles en tokens de type texte à l'aide d'un mappeur vision-langage statique, permettant ainsi aux LLMs statiques de développer la capacité à comprendre les informations visuelles grâce à un réglage par instructions visuelles. Bien que prometteuse, la stratégie de réglage statique ~Le réglage statique fait référence au modèle entraîné avec des paramètres statiques. qui partage les mêmes paramètres peut limiter les performances sur différentes tâches multimodales en aval. Dans cette optique, nous introduisons HyperLLaVA, qui implique un réglage adaptatif des paramètres du projecteur et du LLM, en conjonction avec un expert visuel dynamique et un expert linguistique, respectivement. Ces experts sont dérivés de HyperNetworks, qui génère des décalages de paramètres adaptatifs grâce à des guidages visuels et linguistiques, permettant une modélisation dynamique du projecteur et du LLM dans un entraînement en deux étapes. Nos expériences démontrent que notre solution surpasse significativement LLaVA sur les benchmarks MLLM existants, notamment MME, MMBench, SEED-Bench et LLaVA-Bench. ~Notre projet est disponible sur le lien https://github.com/DCDmllm/HyperLLaVA.
Les récents progrès en synthèse de vues et rendu en temps réel ont permis d'atteindre une qualité photoréaliste à des vitesses de rendu impressionnantes. Alors que les méthodes basées sur les champs de radiance atteignent une qualité de pointe dans des scénarios complexes comme les captures en conditions réelles et les scènes à grande échelle, elles souffrent souvent de besoins de calcul excessivement élevés liés au rendu volumétrique. Les méthodes basées sur le splatting gaussien, quant à elles, reposent sur la rasterisation et atteignent naturellement un rendu en temps réel, mais souffrent d'heuristiques d'optimisation fragiles qui sous-performent sur des scènes plus complexes. Dans ce travail, nous présentons RadSplat, une méthode légère pour le rendu robuste en temps réel de scènes complexes. Nos principales contributions sont triples. Premièrement, nous utilisons les champs de radiance comme a priori et signal de supervision pour optimiser les représentations de scènes basées sur des points, conduisant à une qualité améliorée et une optimisation plus robuste. Ensuite, nous développons une nouvelle technique d'élagage réduisant le nombre total de points tout en maintenant une haute qualité, aboutissant à des représentations de scènes plus petites et plus compactes avec des vitesses d'inférence plus rapides. Enfin, nous proposons une nouvelle approche de filtrage au moment du test qui accélère encore le rendu et permet de s'adapter à des scènes plus grandes, de la taille d'une maison. Nous constatons que notre méthode permet une synthèse de pointe de captures complexes à plus de 900 FPS.
Le modèle de diffusion a longtemps été confronté à des problèmes d'évolutivité et de complexité quadratique, en particulier au sein des architectures basées sur les transformers. Dans cette étude, nous cherchons à exploiter la capacité de modélisation de longues séquences d'un modèle d'état appelé Mamba pour étendre son applicabilité à la génération de données visuelles. Tout d'abord, nous identifions une lacune critique dans la plupart des méthodes visuelles actuelles basées sur Mamba, à savoir l'absence de prise en compte de la continuité spatiale dans le schéma de balayage de Mamba. Ensuite, en nous appuyant sur cette observation, nous introduisons une méthode simple, prête à l'emploi et sans paramètre, nommée Zigzag Mamba, qui surpasse les modèles de référence basés sur Mamba et démontre une amélioration de la vitesse et de l'utilisation de la mémoire par rapport aux modèles de référence basés sur les transformers. Enfin, nous intégrons Zigzag Mamba avec le cadre d'interpolation stochastique pour étudier l'évolutivité du modèle sur des ensembles de données visuelles à haute résolution, tels que FacesHQ 1024 × 1024, UCF101, MultiModal-CelebA-HQ et MS COCO 256 × 256. Le code sera disponible à l'adresse suivante : https://taohu.me/zigma/
L'estimation de la profondeur monoculaire est cruciale pour de nombreuses tâches et applications en vision par ordinateur. Les approches discriminatives actuelles pour ce problème sont limitées par des artefacts flous, tandis que les méthodes génératives de pointe souffrent d'un échantillonnage lent en raison de leur nature basée sur des équations différentielles stochastiques (SDE). Plutôt que de partir du bruit, nous cherchons une correspondance directe entre l'image d'entrée et la carte de profondeur. Nous observons que cela peut être efficacement formulé en utilisant le "flow matching", car ses trajectoires directes à travers l'espace des solutions offrent à la fois efficacité et haute qualité. Notre étude démontre qu'un modèle de diffusion d'images pré-entraîné peut servir de prior adéquat pour un modèle de profondeur basé sur le "flow matching", permettant un entraînement efficace sur des données synthétiques uniquement tout en généralisant aux images réelles. Nous constatons qu'une perte auxiliaire sur les normales de surface améliore encore les estimations de profondeur. Grâce à la nature générative de notre approche, notre modèle prédit de manière fiable la confiance de ses estimations de profondeur. Sur des benchmarks standards de scènes naturelles complexes, notre approche légère atteint des performances de pointe avec un faible coût computationnel, malgré un entraînement sur peu de données synthétiques.
Nous proposons un modèle génératif qui, étant donné une image grossièrement éditée, synthétise une sortie photoréaliste respectant la disposition prescrite. Notre méthode transfère les détails fins de l'image originale et préserve l'identité de ses parties. Pourtant, elle l'adapte à l'éclairage et au contexte définis par la nouvelle disposition. Notre idée clé est que les vidéos constituent une source puissante de supervision pour cette tâche : les objets et les mouvements de caméra fournissent de nombreuses observations sur la manière dont le monde change avec le point de vue, l'éclairage et les interactions physiques. Nous construisons un ensemble de données d'images dans lequel chaque échantillon est une paire de trames source et cible extraites de la même vidéo à des intervalles de temps choisis aléatoirement. Nous déformons la trame source vers la cible en utilisant deux modèles de mouvement qui imitent les modifications utilisateur attendues lors des tests. Nous supervisons notre modèle pour traduire l'image déformée en la vérité terrain, en partant d'un modèle de diffusion pré-entraîné. La conception de notre modèle permet explicitement le transfert de détails fins de la trame source à l'image générée, tout en suivant de près la disposition spécifiée par l'utilisateur. Nous montrons qu'en utilisant des segmentations simples et des manipulations 2D grossières, nous pouvons synthétiser une édition photoréaliste fidèle à l'entrée de l'utilisateur tout en traitant des effets de second ordre comme l'harmonisation de l'éclairage et les interactions physiques entre les objets édités.
Les grands modèles de langage (LLM) présentent un échec surprenant : lorsqu'ils sont entraînés sur "A possède une caractéristique B", ils ne généralisent pas à "B est une caractéristique de A", ce que l'on appelle la Malédiction de l'Inversion. Même avec un entraînement sur des milliers de milliards de tokens, ce problème persiste en raison de la loi de Zipf - et ce, même si l'on entraîne sur l'intégralité d'Internet. Ce travail propose un schéma d'entraînement alternatif, appelé entraînement inversé, où tous les mots sont utilisés deux fois, doublant ainsi la quantité de tokens disponibles. Le LLM est entraîné à la fois dans le sens normal et inversé en inversant les chaînes d'entraînement tout en préservant (c'est-à-dire sans inverser) certaines sous-chaînes choisies, comme les entités. Nous montrons que les modèles entraînés en inversion avec des données adaptées offrent des performances supérieures aux modèles standards sur des tâches classiques, et que les modèles entraînés en inversion avec un budget de calcul équivalent offrent des performances bien supérieures sur les tâches d'inversion, contribuant ainsi à résoudre le problème de la malédiction de l'inversion.
L'extrapolation vidéo est une tâche complexe qui vise à générer du contenu vidéo en dehors du cadre de la vidéo d'entrée tout en maintenant une cohérence inter-image et intra-image. Les méthodes existantes présentent des lacunes soit en termes de qualité de génération, soit en termes de flexibilité. Nous présentons MOTIA (Mastering Video Outpainting Through Input-Specific Adaptation), un pipeline basé sur la diffusion qui exploite à la fois les motifs spécifiques aux données de la vidéo source et les connaissances préalables en génération d'images/vidéos pour une extrapolation efficace. MOTIA se compose de deux phases principales : l'adaptation spécifique à l'entrée et l'extrapolation consciente des motifs. La phase d'adaptation spécifique à l'entrée consiste à effectuer un apprentissage efficace et pertinent de pseudo-extrapolation sur la vidéo source en un seul plan. Ce processus encourage le modèle à identifier et à apprendre les motifs présents dans la vidéo source, tout en comblant l'écart entre les processus génératifs standards et l'extrapolation. La phase suivante, l'extrapolation consciente des motifs, est dédiée à la généralisation de ces motifs appris pour produire des résultats d'extrapolation. Des stratégies supplémentaires, incluant l'insertion spatialement consciente et le voyage du bruit, sont proposées pour mieux exploiter les connaissances génératives du modèle de diffusion et les motifs vidéo acquis à partir des vidéos sources. Des évaluations approfondies mettent en évidence la supériorité de MOTIA, surpassant les méthodes de pointe existantes sur des benchmarks largement reconnus. Il est à noter que ces avancées sont réalisées sans nécessiter un réglage extensif spécifique à la tâche.
Malgré les progrès considérables dans le domaine de la synthèse texte-vidéo (T2V), les modèles de diffusion T2V open source peinent à générer des vidéos plus longues avec un contenu dynamiquement varié et évolutif. Ils ont tendance à synthétiser des vidéos quasi statiques, ignorant les changements visuels nécessaires au fil du temps suggérés par l'invite textuelle. Parallèlement, la mise à l'échelle de ces modèles pour permettre la synthèse de vidéos plus longues et plus dynamiques reste souvent irréalisable sur le plan computationnel. Pour relever ce défi, nous introduisons le concept de Nursing Temporel Génératif (GTN), où nous visons à modifier le processus génératif à la volée pendant l'inférence pour améliorer le contrôle des dynamiques temporelles et permettre la génération de vidéos plus longues. Nous proposons une méthode pour le GTN, appelée VSTAR, qui repose sur deux éléments clés : 1) l'Invite de Synopsis Vidéo (VSP) - la génération automatique d'un synopsis vidéo basé sur l'invite unique originale en exploitant les LLM, fournissant une guidance textuelle précise pour différents états visuels de vidéos plus longues, et 2) la Régularisation de l'Attention Temporelle (TAR) - une technique de régularisation pour affiner les unités d'attention temporelle des modèles de diffusion T2V pré-entraînés, permettant un contrôle sur la dynamique vidéo. Nous démontrons expérimentalement la supériorité de l'approche proposée pour générer des vidéos plus longues et visuellement attrayantes par rapport aux modèles T2V open source existants. Nous analysons également les cartes d'attention temporelle obtenues avec et sans VSTAR, mettant en évidence l'importance d'appliquer notre méthode pour atténuer la négligence des changements visuels souhaités au fil du temps.
Les modèles de langage (LMs) ont grandement influencé divers domaines. Cependant, leur limitation inhérente à comprendre les structures moléculaires 3D a considérablement restreint leur potentiel dans le domaine biomoléculaire. Pour combler cette lacune, nous nous concentrons sur l'interprétation texte-molécule 3D et proposons 3D-MoLM : 3D-Molecular Language Modeling. Plus précisément, 3D-MoLM permet à un LM d'interpréter et d'analyser des molécules 3D en équipant le LM d'un encodeur moléculaire 3D. Cette intégration est réalisée par un projecteur texte-molécule 3D, reliant l'espace de représentation de l'encodeur moléculaire 3D et l'espace d'entrée du LM. De plus, pour améliorer la capacité de 3D-MoLM à comprendre les molécules de manière intermodale et à suivre des instructions, nous avons soigneusement constitué un jeu de données d'ajustement d'instructions centré sur les molécules 3D -- 3D-MoIT. Grâce à l'alignement texte-molécule 3D et à l'ajustement d'instructions centré sur les molécules 3D, 3D-MoLM établit une intégration de l'encodeur moléculaire 3D et du LM. Il surpasse significativement les bases de référence existantes sur les tâches en aval, y compris la récupération texte-molécule, la description de molécules et les tâches plus complexes de questions-réponses moléculaires en texte libre, en se concentrant particulièrement sur les propriétés dépendantes de la 3D.
La génération 3D a connu des avancées significatives, mais la production efficace d'actifs 3D de haute qualité à partir d'une seule image reste un défi. Dans cet article, nous présentons un autoencodeur triplan, qui encode des modèles 3D dans un espace latent triplan compact pour compresser efficacement à la fois la géométrie 3D et les informations de texture. Au sein du cadre de l'autoencodeur, nous introduisons un mécanisme d'attention croisée 3D, qui utilise des représentations latentes à basse résolution pour interroger des caractéristiques à partir d'un volume de caractéristiques 3D à haute résolution, améliorant ainsi la capacité de représentation de l'espace latent. Par la suite, nous entraînons un modèle de diffusion sur cet espace latent raffiné. Contrairement à une dépendance exclusive à l'incorporation d'images pour la génération 3D, notre méthode propose l'utilisation simultanée de l'incorporation d'images et de l'incorporation de formes comme conditions. Plus précisément, l'incorporation de formes est estimée via un modèle de diffusion prioritaire conditionné sur l'incorporation d'images. À travers des expériences approfondies, nous démontrons que notre méthode surpasse les algorithmes de pointe, obtenant des performances supérieures tout en nécessitant moins de données et de temps d'entraînement. Notre approche permet la génération d'actifs 3D de haute qualité en seulement 7 secondes sur une seule GPU A100.
Pour comprendre les risques posés par un nouveau système d'IA, nous devons comprendre ce qu'il peut et ne peut pas faire. En nous appuyant sur des travaux antérieurs, nous introduisons un programme de nouvelles évaluations des "capacités dangereuses" et les testons sur les modèles Gemini 1.0. Nos évaluations couvrent quatre domaines : (1) la persuasion et la tromperie ; (2) la cybersécurité ; (3) l'auto-prolifération ; et (4) l'auto-raisonnement. Nous ne trouvons pas de preuve de capacités dangereuses marquées dans les modèles évalués, mais nous signalons des signes avant-coureurs. Notre objectif est de contribuer à faire progresser une science rigoureuse de l'évaluation des capacités dangereuses, en préparation des futurs modèles.