Articles de recherche en IA sélectionnés quotidiennement avec traductions
Ce rapport présente xGen-MM (également connu sous le nom de BLIP-3), un cadre pour le développement de modèles multimodaux de grande taille (LMMs). Le cadre comprend des ensembles de données soigneusement sélectionnés, une recette d'entraînement, des architectures de modèles et une suite résultante de LMMs. xGen-MM, abréviation de xGen-MultiModal, étend l'initiative xGen de Salesforce sur les modèles d'IA de base. Nos modèles sont soumis à une évaluation rigoureuse sur une gamme de tâches, incluant des benchmarks sur une seule image et sur plusieurs images. Notre modèle de base pré-entraîné montre de solides capacités d'apprentissage en contexte, et le modèle ajusté aux instructions démontre des performances compétitives parmi les LMMs open-source de tailles similaires. De plus, nous introduisons un modèle ajusté pour la sécurité avec DPO, visant à atténuer les comportements nuisibles tels que les hallucinations et à améliorer la sécurité. Nous rendons open-source nos modèles, les ensembles de données à grande échelle sélectionnés, ainsi que notre base de code de fine-tuning pour faciliter les avancées dans la recherche sur les LMMs. Les ressources associées seront disponibles sur notre page de projet mentionnée ci-dessus.
Les travaux récents en génération d'images et de vidéos adoptent de plus en plus l'architecture autoregressive des LLM (modèles de langage de grande taille) en raison de sa généralité et de son intégration potentiellement aisée dans des systèmes multimodaux. L'élément clé de l'application de l'entraînement autoregressif, utilisé en génération de langage, à la génération visuelle est la discrétisation — la représentation de données continues comme les images et les vidéos sous forme de tokens discrets. Les méthodes courantes de discrétisation des images et des vidéos incluent la modélisation des valeurs de pixels bruts, qui sont excessivement longues, ou la quantification vectorielle, qui nécessite un entraînement préalable complexe. Dans ce travail, nous proposons de modéliser directement les images et les vidéos comme des fichiers compressés enregistrés sur des ordinateurs via des codecs standards (par exemple, JPEG, AVC/H.264). En utilisant l'architecture par défaut de Llama sans aucune modification spécifique à la vision, nous pré-entraînons JPEG-LM à partir de zéro pour générer des images (et AVC-LM pour générer des vidéos à titre de preuve de concept), en produisant directement les octets des fichiers compressés aux formats JPEG et AVC. L'évaluation de la génération d'images montre que cette approche simple et directe est plus efficace que la modélisation basée sur les pixels et les bases de référence sophistiquées de quantification vectorielle (notre méthode réduit le FID de 31 %). Notre analyse montre que JPEG-LM présente un avantage particulier par rapport aux modèles de quantification vectorielle dans la génération d'éléments visuels à longue traîne. Globalement, nous démontrons que l'utilisation de représentations de codecs standards peut aider à réduire les barrières entre la génération de langage et la génération visuelle, facilitant ainsi les recherches futures sur les LLM multimodaux langage/image/vidéo.
Les chercheurs consacrent des efforts considérables au développement d'agents polyvalents puissants, où les modèles de base (Foundation Models) sont utilisés comme modules au sein de systèmes agentiques (par exemple, Chain-of-Thought, Self-Reflection, Toolformer). Cependant, l'histoire de l'apprentissage automatique nous enseigne que les solutions conçues manuellement finissent par être remplacées par des solutions apprises. Nous formulons un nouveau domaine de recherche, la Conception Automatisée de Systèmes Agentiques (ADAS), qui vise à créer automatiquement des conceptions de systèmes agentiques puissants, incluant l'invention de nouveaux blocs de construction et/ou leur combinaison de manière innovante. Nous démontrons en outre qu'il existe une approche inexplorée mais prometteuse au sein de l'ADAS où les agents peuvent être définis en code et où de nouveaux agents peuvent être automatiquement découverts par un méta-agent programmant des agents toujours plus performants en code. Étant donné que les langages de programmation sont Turing-complets, cette approche permet théoriquement l'apprentissage de tout système agentique possible : y compris des invites novatrices, l'utilisation d'outils, des flux de contrôle et leurs combinaisons. Nous présentons un algorithme simple mais efficace nommé Meta Agent Search pour illustrer cette idée, où un méta-agent programme itérativement de nouveaux agents intéressants en s'appuyant sur une archive en constante expansion des découvertes précédentes. À travers des expériences approfondies dans plusieurs domaines, notamment le codage, les sciences et les mathématiques, nous montrons que notre algorithme peut progressivement inventer des agents avec des conceptions novatrices qui surpassent largement les agents conçus manuellement à la pointe de la technologie. Fait important, nous observons systématiquement le résultat surprenant que les agents inventés par Meta Agent Search maintiennent une performance supérieure même lorsqu'ils sont transférés entre domaines et modèles, démontrant ainsi leur robustesse et leur généralité. À condition de le développer de manière sûre, notre travail illustre le potentiel d'une nouvelle direction de recherche passionnante vers la conception automatique de systèmes agentiques toujours plus puissants pour le bénéfice de l'humanité.
La segmentation vidéo chirurgicale est une tâche cruciale en chirurgie assistée par ordinateur et joue un rôle essentiel dans l'amélioration de la qualité des interventions et des résultats pour les patients. Récemment, le modèle Segment Anything Model 2 (SAM2) a montré des avancées significatives dans la segmentation d'images et de vidéos. Cependant, SAM2 rencontre des difficultés en termes d'efficacité en raison des exigences computationnelles élevées pour traiter des images haute résolution et des dynamiques temporelles complexes et à long terme dans les vidéos chirurgicales. Pour relever ces défis, nous présentons Surgical SAM 2 (SurgSAM-2), un modèle avancé qui exploite SAM2 avec un mécanisme de sélection efficace des images (Efficient Frame Pruning, EFP), afin de faciliter la segmentation vidéo chirurgicale en temps réel. Le mécanisme EFP gère dynamiquement la mémoire en conservant uniquement les images les plus informatives, réduisant ainsi l'utilisation de la mémoire et les coûts computationnels tout en maintenant une précision de segmentation élevée. Nos expériences approfondies démontrent que SurgSAM-2 améliore significativement à la fois l'efficacité et la précision de segmentation par rapport à la version standard de SAM2. De manière remarquable, SurgSAM-2 atteint un taux de 3 fois plus d'images par seconde (FPS) que SAM2, tout en offrant des performances de pointe après un ajustement fin avec des données de résolution inférieure. Ces avancées positionnent SurgSAM-2 comme un modèle de référence pour l'analyse vidéo chirurgicale, rendant la segmentation vidéo chirurgicale en temps réel dans des environnements à ressources limitées une réalité réalisable.
Nous abordons les défis de l'inversion précise d'images et de l'édition d'images désentrelacées dans le contexte des modèles de diffusion à faible nombre d'étapes. Nous introduisons une technique d'inversion itérative basée sur un encodeur. Le réseau d'inversion est conditionné sur l'image d'entrée et l'image reconstruite à l'étape précédente, permettant ainsi de corriger la prochaine reconstruction vers l'image d'entrée. Nous démontrons que des contrôles désentrelacés peuvent être facilement obtenus dans le modèle de diffusion à faible nombre d'étapes en conditionnant sur une invite textuelle détaillée (générée automatiquement). Pour manipuler l'image inversée, nous gelons les cartes de bruit et modifions un attribut dans l'invite textuelle (soit manuellement, soit via une édition basée sur des instructions pilotée par un LLM), ce qui entraîne la génération d'une nouvelle image similaire à l'image d'entrée avec un seul attribut modifié. Notre approche permet en outre de contrôler la force de l'édition et d'accepter des invites textuelles instructives. Notre méthode facilite des éditions d'images guidées par texte en temps réel, nécessitant seulement 8 évaluations fonctionnelles (NFEs) pour l'inversion (coût unique) et 4 NFEs par édition. Notre méthode est non seulement rapide, mais surpasse également de manière significative les techniques d'édition par diffusion multi-étapes de pointe.
L'entraînement des grands modèles de langage (LLMs) engendre des coûts substantiels liés aux données, ce qui motive le développement de méthodes d'entraînement efficaces en termes de données grâce à l'optimisation de l'ordonnancement et de la sélection des données. Les stratégies d'apprentissage inspirées de l'humain, telles que l'apprentissage curriculaire, offrent des possibilités pour un entraînement efficace en organisant les données selon les pratiques courantes d'apprentissage humain. Bien que des preuves montrent que le fine-tuning avec l'apprentissage curriculaire améliore les performances des LLMs pour les tâches de compréhension du langage naturel, son efficacité est généralement évaluée à l'aide d'un seul modèle. Dans ce travail, nous étendons les recherches précédentes en évaluant à la fois les stratégies d'apprentissage basées sur un curriculum et celles qui n'en utilisent pas, à travers plusieurs LLMs, en utilisant des étiquettes de données définies par l'humain et automatisées pour la réponse à des questions médicales. Nos résultats indiquent un impact modéré de l'utilisation de stratégies d'apprentissage inspirées de l'humain pour le fine-tuning des LLMs, avec des gains de précision maximaux de 1,77 % par modèle et 1,81 % par jeu de données. De manière cruciale, nous démontrons que l'efficacité de ces stratégies varie considérablement selon les différentes combinaisons modèle-jeu de données, soulignant que les avantages d'une stratégie spécifique inspirée de l'humain pour le fine-tuning des LLMs ne se généralisent pas. De plus, nous trouvons des preuves que l'apprentissage curriculaire utilisant la difficulté des questions définie par le LLM surpasse celle définie par l'humain, mettant en lumière le potentiel de l'utilisation de mesures générées par le modèle pour une conception optimale du curriculum.
Les algorithmes d'apprentissage par renforcement hors ligne (offline RL) offrent la promesse de méthodes RL pilotées par les données qui ne nécessitent pas d'exploration coûteuse ou dangereuse dans le monde réel et qui bénéficient de grands ensembles de données pré-collectées. Cela peut à son tour faciliter les applications dans le monde réel, ainsi qu'une approche plus standardisée de la recherche en RL. De plus, les méthodes de RL hors ligne peuvent fournir des initialisations efficaces pour un affinage en ligne (online fine-tuning) afin de surmonter les défis liés à l'exploration. Cependant, évaluer les progrès des algorithmes de RL hors ligne nécessite des benchmarks efficaces et stimulants qui capturent les propriétés des tâches du monde réel, offrent une gamme de difficultés de tâches, et couvrent une variété de défis tant en termes de paramètres du domaine (par exemple, la longueur de l'horizon, la rareté des récompenses) que des paramètres des données (par exemple, des données de démonstration étroites ou des données d'exploration larges). Bien que des progrès considérables en RL hors ligne ces dernières années aient été permis par des tâches de benchmark plus simples, les ensembles de données les plus utilisés atteignent de plus en plus un plafond de performance et peuvent ne pas refléter les propriétés des tâches réalistes. Nous proposons un nouveau benchmark pour le RL hors ligne qui se concentre sur des simulations réalistes d'environnements de manipulation et de locomotion robotiques, basées sur des modèles de systèmes robotiques du monde réel, et comprenant une variété de sources de données, y compris des données scriptées, des données de style "play" collectées par des téléopérateurs humains, et d'autres sources de données. Notre benchmark proposé couvre des domaines basés sur l'état et sur l'image, et supporte à la fois l'évaluation du RL hors ligne et de l'affinage en ligne, certaines tâches étant spécifiquement conçues pour nécessiter à la fois un pré-entraînement et un affinage. Nous espérons que notre benchmark proposé facilitera de nouveaux progrès à la fois sur les algorithmes de RL hors ligne et d'affinage. Un site web avec le code, des exemples, des tâches et des données est disponible à l'adresse suivante : https://sites.google.com/view/d5rl/