papers.description
Cet article aborde un problème important d'ajout d'objets dans des images avec uniquement un guidage textuel. Cette tâche est complexe car le nouvel objet doit être intégré de manière fluide dans l'image avec un contexte visuel cohérent, tel que l'éclairage, la texture et l'emplacement spatial. Bien que les méthodes existantes de réparation d'images guidées par texte puissent ajouter des objets, elles échouent soit à préserver la cohérence de l'arrière-plan, soit nécessitent une intervention humaine fastidieuse pour spécifier des boîtes englobantes ou des masques dessinés par l'utilisateur. Pour relever ce défi, nous présentons Diffree, un modèle de Texte à Image (T2I) qui facilite l'ajout d'objets guidé par texte avec uniquement un contrôle textuel. À cette fin, nous avons constitué OABench, un ensemble de données synthétiques raffiné en supprimant des objets à l'aide de techniques avancées de réparation d'images. OABench comprend 74K tuples du monde réel composés d'une image originale, d'une image réparée avec l'objet supprimé, d'un masque d'objet et de descriptions d'objets. Entraîné sur OABench en utilisant le modèle Stable Diffusion avec un module supplémentaire de prédiction de masque, Diffree prédit de manière unique la position du nouvel objet et réalise l'ajout d'objets avec uniquement un guidage textuel. Des expériences approfondies démontrent que Diffree excelle dans l'ajout de nouveaux objets avec un taux de réussite élevé tout en maintenant la cohérence de l'arrière-plan, l'adéquation spatiale, ainsi que la pertinence et la qualité des objets.
Nous présentons « LAMBDA », un nouveau système d'analyse de données multi-agent open-source et sans code, qui exploite la puissance des grands modèles. LAMBDA est conçu pour relever les défis de l'analyse de données dans des applications complexes basées sur les données, grâce à l'utilisation d'agents de données innovants qui opèrent de manière itérative et générative en utilisant le langage naturel. Au cœur de LAMBDA se trouvent deux rôles clés d'agents : le programmeur et l'inspecteur, conçus pour fonctionner ensemble de manière fluide. Plus précisément, le programmeur génère du code en fonction des instructions de l'utilisateur et des connaissances spécifiques au domaine, enrichies par des modèles avancés. Pendant ce temps, l'inspecteur débogue le code si nécessaire. Pour garantir la robustesse et gérer les scénarios défavorables, LAMBDA dispose d'une interface utilisateur qui permet une intervention directe de l'utilisateur dans la boucle opérationnelle. De plus, LAMBDA peut intégrer de manière flexible des modèles et algorithmes externes grâce à notre mécanisme d'intégration de connaissances, répondant ainsi aux besoins d'analyse de données personnalisées. LAMBDA a démontré de solides performances sur divers ensembles de données d'apprentissage automatique. Il a le potentiel d'améliorer la pratique et le paradigme de l'analyse en science des données en intégrant de manière fluide l'intelligence humaine et artificielle, le rendant plus accessible, efficace et efficient pour des individus issus de divers horizons. Les solides performances de LAMBDA dans la résolution de problèmes de science des données sont illustrées dans plusieurs études de cas, présentées à l'adresse suivante : https://www.polyu.edu.hk/ama/cmfai/lambda.html.
Les récentes avancées dans les modèles de langage à grande échelle (LLMs) ont ouvert de nouvelles perspectives pour l'application des systèmes multi-agents dans des simulations à très grande échelle. Cependant, plusieurs défis subsistent lors de la réalisation de simulations multi-agents avec les plateformes existantes, tels qu'une scalabilité limitée, une faible efficacité, une diversité d'agents insatisfaisante et des processus de gestion laborieux. Pour relever ces défis, nous développons plusieurs nouvelles fonctionnalités et composants pour AgentScope, une plateforme multi-agents conviviale, améliorant ainsi sa commodité et sa flexibilité pour supporter des simulations multi-agents à très grande échelle. Plus précisément, nous proposons un mécanisme distribué basé sur les acteurs comme infrastructure technologique sous-jacente pour une grande scalabilité et une haute efficacité, et fournissons un support flexible pour simuler divers scénarios du monde réel, permettant l'exécution parallèle de multiples agents, l'orchestration centralisée des workflows, ainsi que les interactions inter-agents et agent-environnement. De plus, nous intégrons dans AgentScope un outil configurable facile à utiliser et un pipeline de génération automatique de contextes, simplifiant ainsi le processus de création d'agents avec des paramètres de contexte diversifiés et détaillés. Enfin et surtout, nous proposons une interface web pour surveiller et gérer commodément un grand nombre d'agents pouvant être déployés sur plusieurs appareils. Nous menons une simulation complète pour démontrer l'efficacité des améliorations proposées dans AgentScope, et fournissons des observations et discussions détaillées pour mettre en lumière le grand potentiel des systèmes multi-agents dans les simulations à grande échelle. Le code source est publié sur GitHub à l'adresse https://github.com/modelscope/agentscope pour inspirer de nouvelles recherches et développements dans les simulations multi-agents à grande échelle.
En s'entraînant sur des ensembles de données à grande échelle, les méthodes d'estimation de profondeur monoculaire sans étiquettes (MDE) montrent des performances robustes dans des environnements variés, mais souffrent souvent d'un manque de précision dans les détails. Bien que les approches récentes basées sur la diffusion présentent une capacité attrayante d'extraction de détails, elles peinent encore dans des scènes géométriquement complexes en raison de la difficulté à obtenir des préconceptions géométriques robustes à partir de jeux de données diversifiés. Pour exploiter les avantages complémentaires de ces deux approches, nous proposons BetterDepth, qui permet d'atteindre efficacement des performances d'estimation de profondeur affine-invariante géométriquement correcte tout en capturant des détails fins. Concrètement, BetterDepth est un raffineur conditionnel basé sur la diffusion qui prend la prédiction des modèles MDE pré-entraînés comme conditionnement de profondeur, où le contexte global de la profondeur est bien capturé, et affine itérativement les détails en fonction de l'image d'entrée. Pour l'entraînement d'un tel raffineur, nous proposons des méthodes de pré-alignement global et de masquage local par patchs afin de garantir la fidélité de BetterDepth au conditionnement de profondeur tout en apprenant à capturer les détails fins de la scène. Grâce à un entraînement efficace sur des ensembles de données synthétiques de petite taille, BetterDepth atteint des performances de pointe en estimation de profondeur sans étiquettes sur divers jeux de données publics et dans des scènes réelles. De plus, BetterDepth peut améliorer les performances d'autres modèles MDE de manière plug-and-play sans nécessiter de ré-entraînement supplémentaire.
Les agents IA ont suscité une attention croissante, principalement en raison de leur capacité à percevoir des environnements, à comprendre des tâches et à atteindre des objectifs de manière autonome. Pour faire progresser la recherche sur les agents IA dans des scénarios mobiles, nous présentons l'Android Multi-annotation EXpo (AMEX), un ensemble de données complet et à grande échelle conçu pour des agents généralistes de contrôle d'interface graphique (GUI) mobiles. Leurs capacités à accomplir des tâches complexes en interagissant directement avec l'interface graphique sur des appareils mobiles sont entraînées et évaluées à l'aide de cet ensemble de données proposé. AMEX comprend plus de 104 000 captures d'écran haute résolution provenant de 110 applications mobiles populaires, annotées à plusieurs niveaux. Contrairement aux ensembles de données existants pour le contrôle d'appareils mobiles, tels que MoTIF, AitW, etc., AMEX inclut trois niveaux d'annotations : la localisation des éléments interactifs de l'interface graphique, les descriptions fonctionnelles des écrans et des éléments de l'interface graphique, et des instructions complexes en langage naturel, chacune comprenant en moyenne 13 étapes avec des chaînes d'actions d'interface graphique étape par étape. Nous avons développé cet ensemble de données dans une perspective plus instructive et détaillée, complétant ainsi les configurations générales des ensembles de données existants. De plus, nous avons développé un modèle de référence, SPHINX Agent, et comparé ses performances avec celles des agents de pointe entraînés sur d'autres ensembles de données. Pour faciliter des recherches ultérieures, nous mettons à disposition en open source notre ensemble de données, nos modèles et les outils d'évaluation pertinents. Le projet est disponible à l'adresse suivante : https://yuxiangchai.github.io/AMEX/
Le risque de contenu nuisible généré par les grands modèles de langage (LLMs) devient une préoccupation majeure. Cet article présente une étude systématique sur l'évaluation et l'amélioration de la capacité des LLMs à effectuer la tâche de correction de trajectoire, c'est-à-dire la capacité du modèle à éviter de générer du contenu nuisible de manière autonome. Pour commencer, nous introduisons le benchmark C^2-Eval pour une évaluation quantitative et analysons 10 LLMs populaires, révélant des niveaux de compétence variables des LLMs actuels optimisés pour la sécurité en matière de correction de trajectoire. Pour améliorer cette capacité, nous proposons de fine-tuner les LLMs avec un apprentissage par préférence, en mettant l'accent sur la préférence pour une correction de trajectoire opportune. En utilisant un pipeline automatisé, nous créons C^2-Syn, un ensemble de données synthétiques contenant 750 000 paires de préférences, pour enseigner aux modèles le concept de correction de trajectoire opportune à travers un apprentissage par préférence basé sur les données. Les expériences menées sur deux LLMs, Llama2-Chat 7B et Qwen2 7B, montrent que notre méthode améliore efficacement les compétences en correction de trajectoire sans affecter les performances générales. De plus, elle améliore significativement la sécurité des LLMs, en particulier en résistant aux attaques de jailbreak.
Les données de pré-entraînement des modèles de langage les plus performants actuels sont opaques. En particulier, on sait peu de choses sur les proportions des différents domaines ou langues représentés. Dans ce travail, nous abordons une tâche que nous appelons l'inférence de mélange de données, qui vise à découvrir la composition distributionnelle des données d'entraînement. Nous introduisons une nouvelle attaque basée sur une source d'information jusqu'ici négligée : les tokenizers utilisant l'encodage par paires d'octets (BPE), employés par la grande majorité des modèles de langage modernes. Notre idée clé est que la liste ordonnée des règles de fusion apprises par un tokenizer BPE révèle naturellement des informations sur les fréquences des tokens dans ses données d'entraînement : la première fusion correspond à la paire d'octets la plus fréquente, la seconde à la paire la plus fréquente après la fusion du premier token, et ainsi de suite. Étant donné la liste de fusion d'un tokenizer ainsi que des échantillons de données pour chaque catégorie d'intérêt, nous formulons un programme linéaire qui résout la proportion de chaque catégorie dans l'ensemble d'entraînement du tokenizer. De manière cruciale, dans la mesure où les données d'entraînement du tokenizer sont représentatives des données de pré-entraînement, nous apprenons indirectement sur les données de pré-entraînement. Dans des expériences contrôlées, nous montrons que notre attaque retrouve les ratios de mélange avec une grande précision pour les tokenizers entraînés sur des mélanges connus de langues naturelles, de langages de programmation et de sources de données. Nous appliquons ensuite notre approche aux tokenizers disponibles publiquement, livrés avec des modèles de langage récents. Nous confirmons de nombreuses informations publiquement divulguées sur ces modèles, et faisons également plusieurs nouvelles inférences : le tokenizer de GPT-4 est beaucoup plus multilingue que ses prédécesseurs, avec 39 % de données non anglaises ; Llama3 étend principalement le tokenizer de GPT-3.5 pour un usage multilingue (48 %) ; les tokenizers de GPT-3.5 et de Claude sont entraînés principalement sur du code (~60 %). Nous espérons que notre travail éclaire les pratiques actuelles de conception des données de pré-entraînement et inspire des recherches continues sur l'inférence de mélange de données pour les modèles de langage.
Dans le domaine des grands modèles vision-langage (LVLMs) suivant des instructions, le déploiement efficace de ces modèles rencontre des défis, notamment en raison des exigences élevées en mémoire de leurs caches clé-valeur (KV). Les stratégies conventionnelles de gestion des caches pour les LLM se concentrent sur l'éviction des caches, ce qui ne répond souvent pas aux besoins spécifiques des modèles multimodaux suivant des instructions. Conscients de cette lacune, nous introduisons dans cet article Elastic Cache, une approche novatrice qui tire parti de l'application de méthodes d'accélération distinctes pour les étapes d'encodage des instructions et de génération de sortie. Nous étudions les métriques d'importance à différentes étapes et proposons une stratégie de fusion de caches basée sur l'importance pour éliminer les caches redondants. Au lieu de supprimer les caches moins importants, notre stratégie identifie les vecteurs clé/valeur importants comme points d'ancrage. Les caches moins importants environnants sont ensuite fusionnés avec ces ancres, améliorant la préservation des informations contextuelles dans les caches KV tout en offrant un ratio d'accélération arbitraire. Pour l'encodage des instructions, nous utilisons la fréquence pour évaluer l'importance des caches. Concernant la génération de sortie, nous priorisons les tokens en fonction de leur distance avec un décalage, ce qui permet de conserver à la fois les tokens initiaux et les plus récents. Les résultats sur une gamme de LVLMs démontrent qu'Elastic Cache non seulement améliore l'efficacité, mais surpasse également notablement les méthodes d'élagage existantes dans la génération de langage à travers diverses tâches. Le code est disponible à l'adresse https://github.com/liuzuyan/ElasticCache.
Les récents progrès ont considérablement amélioré les capacités des modèles de langage multimodaux de grande taille (MLLMs) à générer et à comprendre le contenu image-texte. Malgré ces succès, les avancées sont principalement limitées à l'anglais en raison de la rareté de ressources multimodales de haute qualité dans d'autres langues. Cette limitation entrave le développement de modèles compétitifs dans des langues telles que l'arabe. Pour remédier à cette situation, nous présentons un assistant multimodal arabe efficace, baptisé Dallah, qui utilise un modèle de langage avancé basé sur LLaMA-2 pour faciliter les interactions multimodales. Dallah démontre des performances de pointe parmi les MLLMs arabes. Grâce au fine-tuning de six dialectes arabes, Dallah montre sa capacité à gérer des interactions dialectales complexes intégrant à la fois des éléments textuels et visuels. Le modèle excelle dans deux tests de référence : l'un évaluant ses performances en arabe standard moderne (MSA) et l'autre spécifiquement conçu pour évaluer les réponses dialectales. Au-delà de ses performances robustes dans les tâches d'interaction multimodale, Dallah a le potentiel de tracer la voie pour le développement ultérieur de MLLMs arabes sensibles aux dialectes.
La segmentation des noyaux cellulaires dans les images de tissus colorées avec les teintures hématoxyline et éosine (H&E) est essentielle pour diverses applications cliniques et analyses. En raison des caractéristiques complexes de la morphologie cellulaire, un champ réceptif étendu est considéré comme crucial pour générer une segmentation de haute qualité. Cependant, les méthodes précédentes rencontrent des difficultés à atteindre un équilibre entre le champ réceptif et la charge de calcul. Pour résoudre ce problème, nous proposons LKCell, une méthode de segmentation cellulaire à la fois précise et efficace. Son idée centrale consiste à exploiter le potentiel des grands noyaux de convolution pour obtenir des champs réceptifs étendus tout en restant économes en calcul. Plus précisément, (1) nous transférons pour la première fois des modèles pré-entraînés utilisant de grands noyaux de convolution au domaine médical, démontrant leur efficacité dans la segmentation cellulaire. (2) Nous analysons la redondance des méthodes précédentes et concevons un nouveau décodeur de segmentation basé sur de grands noyaux de convolution. Celui-ci atteint des performances supérieures tout en réduisant significativement le nombre de paramètres. Nous évaluons notre méthode sur le benchmark le plus exigeant et obtenons des résultats de pointe (0,5080 mPQ) dans la segmentation d'instances de noyaux cellulaires, avec seulement 21,6 % des opérations flottantes (FLOPs) par rapport à la méthode leader précédente. Notre code source et nos modèles sont disponibles à l'adresse https://github.com/hustvl/LKCell.
Nous présentons un aperçu de la tâche partagée FIGNEWS, organisée dans le cadre de la conférence ArabicNLP 2024 co-localisée avec ACL 2024. Cette tâche partagée aborde l'annotation des biais et de la propagande dans des articles de presse multilingues. Nous nous concentrons sur les premiers jours de la guerre d'Israël à Gaza comme étude de cas. L'objectif de cette tâche est de favoriser la collaboration dans le développement de directives d'annotation pour des tâches subjectives en créant des cadres d'analyse des récits divers mettant en lumière les biais potentiels et la propagande. Dans un esprit de promotion et d'encouragement de la diversité, nous abordons le problème d'une perspective multilingue, à savoir dans cinq langues : l'anglais, le français, l'arabe, l'hébreu et l'hindi. Au total, 17 équipes ont participé à deux sous-tâches d'annotation : les biais (16 équipes) et la propagande (6 équipes). Les équipes ont concouru dans quatre pistes d'évaluation : développement des directives, qualité de l'annotation, quantité d'annotation et cohérence. Collectivement, les équipes ont produit 129 800 points de données. Les principales conclusions et implications pour le domaine sont discutées.
Identifier les références significatives au sein des interrelations complexes d'un graphe de connaissances de citations représente un défi, englobant les connexions via les citations, la paternité d'articles, les mots-clés et d'autres attributs relationnels. La tâche de traçage des sources d'articles (Paper Source Tracing, PST) vise à automatiser l'identification des références pivots pour des articles scientifiques donnés en utilisant des techniques avancées d'exploration de données. Dans le cadre du KDD CUP 2024, nous avons conçu un cadre de recommandation spécifiquement adapté à la tâche PST. Ce cadre utilise le modèle de filtrage collaboratif neuronal (Neural Collaborative Filtering, NCF) pour générer les prédictions finales. Pour traiter les attributs textuels des articles et extraire les caractéristiques d'entrée du modèle, nous utilisons SciBERT, un modèle de langage pré-entraîné. Selon les résultats expérimentaux, notre méthode a obtenu un score de 0,37814 sur la métrique de précision moyenne (Mean Average Precision, MAP), surpassant les modèles de référence et se classant 11e parmi toutes les équipes participantes. Le code source est disponible publiquement à l'adresse https://github.com/MyLove-XAB/KDDCupFinal.