Articles de recherche en IA sélectionnés quotidiennement avec traductions
De nombreuses entreprises d'IA entraînent leurs grands modèles de langage (GML) sur des données sans l'autorisation des détenteurs des droits d'auteur. La légalité de cette pratique varie selon les juridictions : dans des pays comme l'UE et le Japon, cela est autorisé sous certaines restrictions, tandis qu'aux États-Unis, le cadre légal est plus ambigu. Indépendamment du statut légal, les préoccupations des producteurs créatifs ont donné lieu à plusieurs poursuites pour violation du droit d'auteur très médiatisées, et la menace de litiges est souvent citée comme raison de la tendance récente à limiter les informations partagées sur les ensembles de données d'entraînement par les acteurs tant commerciaux que d'intérêt public. Cette tendance à limiter les informations sur les données nuit en entravant la transparence, la responsabilité et l'innovation dans l'écosystème global en privant les chercheurs, les auditeurs et les individus impactés de l'accès aux informations nécessaires pour comprendre les modèles d'IA. Bien que cela puisse être atténué en formant des modèles de langage sur des données en accès libre et du domaine public, au moment de la rédaction, il n'existe pas de tels modèles (formés à une échelle significative) en raison des défis techniques et sociologiques substantiels pour rassembler le corpus nécessaire. Ces défis incluent des métadonnées incomplètes et peu fiables, le coût et la complexité de la numérisation des documents physiques, ainsi que le large éventail de compétences juridiques et techniques requises pour garantir la pertinence et la responsabilité dans un paysage en évolution rapide. S'orienter vers un avenir où les systèmes d'IA pourront être formés sur des données sous licence ouverte qui sont gérées de manière responsable exige une collaboration entre les domaines juridique, technique et politique, ainsi que des investissements dans les normes de métadonnées, la numérisation et la promotion d'une culture de l'ouverture.
La recherche de documents multi-modaux est conçue pour identifier et extraire diverses formes de contenu multi-modal, tels que des figures, des tableaux, des graphiques et des informations de mise en page à partir de documents étendus. Malgré son importance, il existe un manque notable d'un banc d'essai robuste pour évaluer efficacement les performances des systèmes en matière de recherche de documents multi-modaux. Pour combler cette lacune, ce travail présente un nouveau banc d'essai, nommé MMDocIR, comprenant deux tâches distinctes : la recherche au niveau de la page et la recherche au niveau de la mise en page. La première se concentre sur la localisation des pages les plus pertinentes au sein d'un long document, tandis que la seconde vise la détection de mises en page spécifiques, offrant une granularité plus fine que l'analyse de la page entière. Une mise en page peut faire référence à divers éléments tels que des paragraphes textuels, des équations, des figures, des tableaux ou des graphiques. Le banc d'essai MMDocIR comprend un ensemble de données riche comprenant des étiquettes annotées par des experts pour 1 685 questions et des étiquettes bootstrap pour 173 843 questions, en faisant une ressource essentielle pour faire progresser la recherche de documents multi-modaux à la fois pour la formation et l'évaluation. À travers des expériences rigoureuses, nous révélons que (i) les récupérateurs visuels surpassent significativement leurs homologues textuels, (ii) l'ensemble d'entraînement MMDocIR peut bénéficier efficacement du processus de formation de la recherche de documents multi-modaux et (iii) les récupérateurs de texte exploitant le VLM-text performant bien mieux que ceux utilisant l'OCR-text. Ces conclusions soulignent les avantages potentiels de l'intégration d'éléments visuels pour la recherche de documents multi-modaux.
La génération de scènes en 3D a suscité un intérêt croissant ces dernières années et a réalisé des progrès significatifs. La génération de villes en 4D est plus complexe que celle des scènes en 3D en raison de la présence d'objets structurellement complexes et visuellement divers tels que les bâtiments et les véhicules, ainsi que de la sensibilité accrue des humains aux distorsions dans les environnements urbains. Pour relever ces défis, nous proposons CityDreamer4D, un modèle génératif compositionnel spécifiquement conçu pour générer des villes en 4D illimitées. Nos principales idées sont les suivantes : 1) la génération de villes en 4D devrait séparer les objets dynamiques (par exemple, les véhicules) des scènes statiques (par exemple, les bâtiments et les routes), et 2) tous les objets de la scène en 4D devraient être composés de différents types de champs neuronaux pour les bâtiments, les véhicules et les éléments de fond. Plus précisément, nous proposons un Générateur de Scénarios de Trafic et un Générateur de Disposition Illimitée pour produire des scénarios de trafic dynamiques et des agencements de ville statiques en utilisant une représentation BEV hautement compacte. Les objets dans les villes en 4D sont générés en combinant des champs neuronaux orientés vers les éléments de fond et orientés vers les instances pour les éléments de fond, les bâtiments et les véhicules. Pour s'adapter aux caractéristiques distinctes des éléments de fond et des instances, les champs neuronaux utilisent des grilles de hachage génératives personnalisées et des plongements positionnels périodiques en tant que paramétrisations de scène. De plus, nous proposons une gamme complète d'ensembles de données pour la génération de villes, comprenant OSM, GoogleEarth et CityTopia. L'ensemble de données OSM fournit une variété de tracés de ville du monde réel, tandis que les ensembles de données Google Earth et CityTopia offrent des images de ville à grande échelle et de haute qualité avec des annotations d'instances en 3D. Grâce à sa conception compositionnelle, CityDreamer4D prend en charge une gamme d'applications en aval, telles que l'édition d'instances, la stylisation de ville et la simulation urbaine, tout en offrant des performances de pointe dans la génération de villes en 4D réalistes.
La génération de vidéos a connu des progrès remarquables avec l'introduction des modèles de diffusion, qui ont considérablement amélioré la qualité des vidéos générées. Cependant, les recherches récentes se sont principalement concentrées sur l'augmentation de l'entraînement des modèles, tout en offrant des aperçus limités sur l'impact direct des représentations sur le processus de génération de vidéos. Dans cet article, nous examinons initialement les caractéristiques des éléments dans les couches intermédiaires, en trouvant des variations substantielles dans les cartes d'attention à travers différentes couches. Ces variations conduisent à des représentations sémantiques instables et contribuent aux différences cumulatives entre les éléments, ce qui réduit finalement la similarité entre les images adjacentes et affecte négativement la cohérence temporelle. Pour remédier à cela, nous proposons RepVideo, un cadre de représentation amélioré pour les modèles de diffusion texte-vidéo. En accumulant les éléments des couches voisines pour former des représentations enrichies, cette approche capture des informations sémantiques plus stables. Ces représentations améliorées sont ensuite utilisées comme entrées pour le mécanisme d'attention, améliorant ainsi l'expressivité sémantique tout en assurant la cohérence des éléments entre les images adjacentes. Des expériences approfondies démontrent que notre RepVideo améliore significativement la capacité de générer des apparences spatiales précises, telles que la capture de relations spatiales complexes entre plusieurs objets, tout en améliorant la cohérence temporelle dans la génération de vidéos.
La diffusion vidéo selon le principe du premier entré, premier sorti (FIFO), basée sur un modèle pré-entraîné de texte à vidéo, a récemment émergé comme une approche efficace pour la génération de vidéos longues sans réglage. Cette technique maintient une file de trames vidéo avec un bruit augmentant progressivement, produisant continuellement des trames propres à la tête de la file tandis que du bruit gaussien est ajouté à la queue. Cependant, la diffusion FIFO a souvent du mal à maintenir une cohérence temporelle à long terme dans les vidéos générées en raison du manque de modélisation de la correspondance entre les trames. Dans cet article, nous proposons Ouroboros-Diffusion, un nouveau cadre de débruitage vidéo conçu pour améliorer la cohérence structurelle et de contenu (sujet), permettant la génération de vidéos cohérentes de longueur arbitraire. Plus précisément, nous introduisons une nouvelle technique d'échantillonnage latent à la queue pour améliorer la cohérence structurelle, assurant des transitions perceptuellement fluides entre les trames. Pour améliorer la cohérence du sujet, nous concevons un mécanisme d'attention inter-trames conscient du sujet (SACFA), qui aligne les sujets à travers les trames au sein de courts segments pour obtenir une meilleure cohérence visuelle. De plus, nous introduisons un guidage auto-récurrent. Cette technique exploite les informations de toutes les trames plus propres précédentes à l'avant de la queue pour guider le débruitage des trames plus bruyantes à la fin, favorisant une interaction riche et contextuelle des informations globales. Des expériences approfondies de génération de vidéos longues sur le banc d'essai VBench démontrent la supériorité de notre Ouroboros-Diffusion, notamment en termes de cohérence du sujet, de fluidité du mouvement et de cohérence temporelle.
Nous présentons la première étude sur la manière dont la capacité de raisonnement des Modèles de Langage Multimodaux (MLLMs) doit être sollicitée pour évaluer l'esthétique des œuvres d'art. Pour faciliter cette investigation, nous construisons MM-StyleBench, un nouvel ensemble de données de haute qualité pour l'évaluation de la stylisation artistique. Nous développons ensuite une méthode fondée pour la modélisation des préférences humaines et réalisons une analyse de corrélation systématique entre les réponses des MLLMs et les préférences humaines. Nos expériences révèlent un problème inhérent d'hallucination des MLLMs dans l'évaluation artistique, associé à la subjectivité des réponses. ArtCoT est proposé, démontrant que la décomposition des tâches spécifiques à l'art et l'utilisation d'un langage concret renforcent la capacité de raisonnement des MLLMs pour l'esthétique. Nos résultats offrent des perspectives précieuses sur les MLLMs pour l'art et peuvent bénéficier à une large gamme d'applications ultérieures, telles que le transfert de style et la génération d'images artistiques. Code disponible sur https://github.com/songrise/MLLM4Art.
Ces dernières années, d'importants progrès ont été réalisés dans le domaine de la génération de contenu par intelligence artificielle (IA) dans les domaines de la synthèse d'images et de la génération de texte, produisant des contenus comparables à ceux produits par les humains. Cependant, la qualité de la musique générée par IA n'a pas encore atteint cette norme, principalement en raison du défi de contrôler efficacement les émotions musicales et d'assurer des sorties de haute qualité. Cet article présente un cadre généralisé de génération de musique symbolique, XMusic, qui prend en charge des instructions flexibles (c'est-à-dire des images, des vidéos, des textes, des tags et des fredonnements) pour générer de la musique symbolique émotionnellement contrôlable et de haute qualité. XMusic se compose de deux composants principaux, XProjector et XComposer. XProjector analyse les instructions de différentes modalités en éléments de musique symbolique (c'est-à-dire des émotions, des genres, des rythmes et des notes) dans l'espace de projection pour générer une musique correspondante. XComposer contient un Générateur et un Sélecteur. Le Générateur produit de la musique émotionnellement contrôlable et mélodieuse basée sur notre représentation novatrice de la musique symbolique, tandis que le Sélecteur identifie de la musique symbolique de haute qualité en construisant un schéma d'apprentissage multi-tâches impliquant des tâches d'évaluation de la qualité, de reconnaissance des émotions et de reconnaissance des genres. De plus, nous avons créé XMIDI, un ensemble de données de musique symbolique à grande échelle contenant 108 023 fichiers MIDI annotés avec des étiquettes d'émotion et de genre précises. Les évaluations objectives et subjectives montrent que XMusic surpasse significativement les méthodes actuelles de pointe en matière de qualité musicale impressionnante. Notre XMusic a été récompensé comme l'un des neuf points forts des objets de collection à la WAIC 2023. La page d'accueil du projet XMusic est https://xmusic-project.github.io.
Les pyramides d'images sont largement adoptées dans les méthodes les plus performantes pour obtenir des caractéristiques multi-échelles permettant une perception visuelle et une compréhension précises. Cependant, les pyramides d'images actuelles utilisent le même modèle à grande échelle pour traiter plusieurs résolutions d'images, entraînant un coût computationnel significatif. Pour relever ce défi, nous proposons une nouvelle architecture de réseau, appelée Réseaux de Pyramide d'Images à Paramètres Inversés (PIIP). Plus précisément, PIIP utilise des modèles pré-entraînés (ViTs ou CNNs) comme branches pour traiter des images multi-échelles, où les images de résolutions plus élevées sont traitées par des branches de réseau plus petites pour équilibrer le coût computationnel et les performances. Pour intégrer les informations de différentes échelles spatiales, nous proposons en outre un nouveau mécanisme d'interaction de caractéristiques entre branches. Pour valider PIIP, nous l'appliquons à divers modèles de perception et à un modèle de langage multimodal représentatif appelé LLaVA, et menons des expériences approfondies sur diverses tâches telles que la détection d'objets, la segmentation, la classification d'images et la compréhension multimodale. PIIP obtient des performances supérieures par rapport aux approches à une seule branche et aux approches multi-résolutions existantes avec un coût computationnel inférieur. Lorsqu'appliqué à InternViT-6B, un modèle de vision à grande échelle, PIIP peut améliorer ses performances de 1 % à 2 % en détection et segmentation avec seulement 40 % à 60 % du calcul original, atteignant enfin 60,0 AP en boîte sur MS COCO et 59,7 mIoU sur ADE20K. Pour la compréhension multimodale, notre PIIP-LLaVA obtient une précision de 73,0 % sur TextVQA et de 74,5 % sur MMBench avec seulement 2,8 millions de données d'entraînement. Notre code est disponible sur https://github.com/OpenGVLab/PIIP.
Nous interagissons souvent avec des parties non dignes de confiance. La priorisation de la confidentialité peut limiter l'efficacité de ces interactions, car la réalisation de certains objectifs nécessite le partage de données privées. Traditionnellement, pour relever ce défi, on a soit cherché des intermédiaires de confiance, soit construit des protocoles cryptographiques qui restreignent la quantité de données divulguées, tels que les calculs multipartites ou les preuves de connaissance nulle. Bien que des progrès significatifs aient été réalisés dans le dimensionnement des approches cryptographiques, elles restent limitées en termes de taille et de complexité des applications pour lesquelles elles peuvent être utilisées. Dans cet article, nous soutenons que des modèles de machine learning performants peuvent remplir le rôle d'un tiers de confiance, permettant ainsi des calculs sécurisés pour des applications qui étaient auparavant irréalisables. En particulier, nous décrivons les Environnements de Modèles Capables de Confiance (EMCC) comme une approche alternative pour le dimensionnement des calculs sécurisés, où des modèles de machine learning performants interagissent sous contraintes d'entrée/sortie, avec un contrôle explicite du flux d'informations et une absence d'état explicite. Cette approche vise à trouver un équilibre entre la confidentialité et l'efficacité computationnelle, permettant des inférences privées là où les solutions cryptographiques classiques sont actuellement irréalisables. Nous décrivons plusieurs cas d'utilisation rendus possibles par les EMCC, et montrons que même certains problèmes cryptographiques classiques simples peuvent déjà être résolus avec les EMCC. Enfin, nous détaillons les limitations actuelles et discutons des étapes à suivre pour les mettre en œuvre.
La correspondance d'images pour les vues croisées et les modalités croisées joue un rôle crucial dans la perception multimodale. En pratique, l'écart de modalité causé par les différents systèmes/styles d'imagerie pose de grands défis à la tâche de correspondance. Les travaux existants tentent d'extraire des caractéristiques invariantes pour des modalités spécifiques et de s'entraîner sur des ensembles de données limités, montrant une faible généralisation. Dans cet article, nous présentons MINIMA, un cadre unifié de correspondance d'images pour plusieurs cas croisés de modalités. Sans rechercher des modules sophistiqués, notre MINIMA vise à améliorer les performances universelles du point de vue de l'augmentation des données. Dans ce but, nous proposons un moteur de données simple mais efficace qui peut librement produire un grand ensemble de données contenant plusieurs modalités, des scénarios riches et des étiquettes de correspondance précises. Plus précisément, nous augmentons les modalités à partir de données de correspondance RGB uniquement bon marché mais riches, au moyen de modèles génératifs. Dans ce cadre, les étiquettes de correspondance et la diversité riche de l'ensemble de données RGB sont bien héritées par les données multimodales générées. En tirant parti de cela, nous construisons MD-syn, un nouvel ensemble de données complet qui comble le fossé de données pour la correspondance d'images multimodale générale. Avec MD-syn, nous pouvons entraîner directement n'importe quel pipeline de correspondance avancé sur des paires de modalités sélectionnées de manière aléatoire pour obtenir une capacité croisée des modalités. Des expériences approfondies sur des tâches de correspondance dans le domaine et de correspondance à zéro, comprenant 19 cas croisés de modalités, démontrent que notre MINIMA peut surpasser significativement les bases et même dépasser les méthodes spécifiques aux modalités. L'ensemble de données et le code sont disponibles sur https://github.com/LSXI7/MINIMA.
Interagir avec le monde est une expérience multi-sensorielle : parvenir à une interaction généraliste efficace nécessite d'utiliser toutes les modalités disponibles - y compris la vision, le toucher et l'audio - pour combler les lacunes de l'observation partielle. Par exemple, lorsque la vision est obstruée en plongeant la main dans un sac, un robot devrait se fier à ses sens du toucher et du son. Cependant, les politiques de robot généralistes de pointe sont généralement entraînées sur de grands ensembles de données pour prédire les actions du robot uniquement à partir d'observations visuelles et proprioceptives. Dans ce travail, nous proposons FuSe, une approche novatrice qui permet de peaufiner les politiques généralistes visuo-motrices sur des modalités sensorielles hétérogènes pour lesquelles de grands ensembles de données ne sont pas facilement disponibles en exploitant le langage naturel comme base croisée modale commune. Nous combinons une perte contrastive multimodale avec une perte de génération de langage ancrée dans les sensations pour encoder des sémantiques de haut niveau. Dans le contexte de la manipulation robotique, nous montrons que FuSe permet d'accomplir des tâches difficiles qui nécessitent un raisonnement conjoint sur des modalités telles que la vision, le toucher et le son dans un cadre de zéro-shot, tel que la sollicitation multimodale, la sollicitation croisée compositionnelle et les descriptions des objets avec lesquels il interagit. Nous montrons que la même recette est applicable à des politiques généralistes largement différentes, y compris les politiques généralistes basées sur la diffusion et les grands modèles vision-langage-action (VLA). Des expériences approfondies dans le monde réel montrent que FuSe est capable d'augmenter les taux de réussite de plus de 20% par rapport à toutes les lignes de base considérées.