Articles de recherche en IA sélectionnés quotidiennement avec traductions
Étendre la longueur du contexte des Modèles de Langage (LMs) en améliorant l'Incrustation de Position Rotative (RoPE) est devenu une tendance. Alors que les travaux existants abordent principalement les limitations de RoPE au sein du mécanisme d'attention, cet article fournit une analyse sur presque toutes les parties des LMs, mettant en lumière leurs effets néfastes sur la généralisation de longueur pour l'attention basée sur RoPE. En utilisant la théorie du Traitement du Signal Discret, nous montrons que RoPE permet une attention périodique en réalisant implicitement une Transformée de Fourier Discrète Non-Uniforme. Cependant, cette périodicité est compromise par les dommages spectraux causés par : 1) les couches linéaires et les fonctions d'activation en dehors de l'attention ; 2) les composantes de fréquence insuffisamment entraînées induites par la troncature dans le domaine temporel. S'appuyant sur nos observations, nous proposons l'Incrustation de Position Fourier (FoPE), qui améliore les propriétés du domaine fréquentiel de l'attention pour améliorer à la fois son extension périodique et sa généralisation de longueur. FoPE construit des Séries de Fourier et annule les composantes de fréquence destructrices, augmentant la robustesse du modèle contre les dommages spectraux. Des expériences sur diverses échelles de modèle montrent que, dans des fenêtres de contexte variables, FoPE peut maintenir une perplexité plus stable et une précision plus cohérente dans une tâche de recherche d'aiguille dans une botte de foin par rapport à RoPE et ALiBi. Plusieurs analyses et ablations apportent un soutien supplémentaire à notre méthode et à notre modélisation théorique.
Un graphe de scène 3D représente un modèle de scène compact, stockant des informations sur les objets et les relations sémantiques entre eux, ce qui le rend prometteur pour les tâches robotiques. Lors de l'interaction avec un utilisateur, un agent intelligent incarné doit être capable de répondre à diverses requêtes sur la scène formulées en langage naturel. Les grands modèles de langage (LLMs) sont des solutions bénéfiques pour l'interaction homme-robot en raison de leurs capacités de compréhension et de raisonnement en langage naturel. Les méthodes récentes de création de représentations apprenables de scènes 3D ont démontré le potentiel d'améliorer la qualité des réponses des LLMs en s'adaptant au monde 3D. Cependant, les méthodes existantes n'utilisent pas explicitement les informations sur les relations sémantiques entre les objets, se limitant aux informations sur leurs coordonnées. Dans ce travail, nous proposons une méthode 3DGraphLLM pour construire une représentation apprenable d'un graphe de scène 3D. La représentation apprenable est utilisée en entrée pour les LLMs afin d'effectuer des tâches de vision-langage 3D. Dans nos expériences sur les ensembles de données populaires ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D et Scan2cap, nous démontrons l'avantage de cette approche par rapport aux méthodes de base qui n'utilisent pas les informations sur les relations sémantiques entre les objets. Le code est publiquement disponible sur https://github.com/CognitiveAISystems/3DGraphLLM.
Les valeurs manquantes restent un défi courant pour les données de profondeur dans une large gamme d'applications, provenant de diverses causes telles que l'acquisition de données incomplète et l'altération de la perspective. Ce travail comble cette lacune avec DepthLab, un modèle de complétion de profondeur fondamental alimenté par des priorités de diffusion d'image. Notre modèle présente deux forces notables : (1) il démontre une résilience aux régions à faible profondeur, offrant une complétion fiable à la fois pour les zones continues et les points isolés, et (2) il préserve fidèlement la cohérence d'échelle avec la profondeur connue conditionnée lors du remplissage des valeurs manquantes. En tirant parti de ces avantages, notre approche prouve sa valeur dans diverses tâches ultérieures, notamment la complétion de scènes 3D, la génération de scènes 3D à partir de texte, la reconstruction à vue clairsemée avec DUST3R, et la complétion de profondeur LiDAR, dépassant les solutions actuelles à la fois en performances numériques et en qualité visuelle. Notre page de projet avec le code source est disponible sur https://johanan528.github.io/depthlab_web/.
Les modèles de génération vidéo de type Sora ont réalisé des progrès remarquables avec une architecture Multi-Modal Diffusion Transformer (MM-DiT). Cependant, les modèles actuels de génération vidéo se concentrent principalement sur une seule instruction, ayant du mal à générer des scènes cohérentes avec plusieurs instructions séquentielles qui reflètent mieux les scénarios dynamiques du monde réel. Alors que certaines œuvres pionnières ont exploré la génération vidéo multi-instructions, elles rencontrent des défis significatifs, notamment des exigences strictes en données d'entraînement, un suivi faible des instructions et des transitions non naturelles. Pour résoudre ces problèmes, nous proposons DiTCtrl, une méthode de génération vidéo multi-instructions sans entraînement sous des architectures MM-DiT pour la première fois. Notre idée clé est de considérer la tâche de génération vidéo multi-instructions comme un montage vidéo temporel avec des transitions fluides. Pour atteindre cet objectif, nous analysons d'abord le mécanisme d'attention de MM-DiT, constatant que l'attention complète en 3D se comporte de manière similaire à celle des blocs d'attention croisée/auto-attention dans les modèles de diffusion de type UNet, permettant un contrôle sémantique précis guidé par des masques à travers différentes instructions avec un partage d'attention pour la génération vidéo multi-instructions. Sur la base de notre conception soigneuse, la vidéo générée par DiTCtrl présente des transitions fluides et un mouvement d'objets cohérents étant donné plusieurs instructions séquentielles sans entraînement supplémentaire. De plus, nous présentons également MPVBench, un nouvel banc d'essai spécialement conçu pour la génération vidéo multi-instructions afin d'évaluer les performances de la génération multi-instructions. Des expériences approfondies démontrent que notre méthode atteint des performances de pointe sans entraînement supplémentaire.
Les générateurs de 3D à partir de texte ou d'image et les scanners 3D peuvent désormais produire des ressources 3D avec des formes et des textures de haute qualité. Ces ressources se composent généralement d'une représentation unique fusionnée, comme un champ neuronal implicite, un mélange gaussien ou un maillage, sans aucune structure utile. Cependant, la plupart des applications et des flux de travail créatifs nécessitent que les ressources soient constituées de plusieurs parties significatives pouvant être manipulées indépendamment. Pour combler cette lacune, nous introduisons PartGen, une nouvelle approche qui génère des objets 3D composés de parties significatives à partir de texte, d'une image ou d'un objet 3D non structuré. Tout d'abord, en utilisant plusieurs vues d'un objet 3D, générées ou rendues, un modèle de diffusion multi-vues extrait un ensemble de segmentations de parties plausibles et cohérentes avec les vues, divisant ainsi l'objet en parties. Ensuite, un deuxième modèle de diffusion multi-vues prend chaque partie séparément, comble les occlusions et utilise ces vues complétées pour la reconstruction 3D en les alimentant à un réseau de reconstruction 3D. Ce processus de complétion prend en compte le contexte de l'objet entier pour garantir l'intégration cohésive des parties. Le modèle de complétion génératif peut compenser les informations manquantes dues aux occlusions ; dans les cas extrêmes, il peut même halluciner des parties entièrement invisibles basées sur la ressource 3D en entrée. Nous évaluons notre méthode sur des ressources 3D générées et réelles et montrons qu'elle surpasse largement les références en matière de segmentation et d'extraction de parties. Nous présentons également des applications en aval telles que l'édition de parties 3D.
Malgré les récentes avancées dans les grands modèles de langage, les modèles open-source ont souvent du mal à performer de manière cohérente sur des tâches de raisonnement complexe. Les méthodes d'ensemble existantes, qu'elles soient appliquées au niveau du jeton ou de la sortie, échouent à relever ces défis. En réponse, nous présentons Language model Ensemble with Monte Carlo Tree Search (LE-MCTS), un nouveau cadre pour l'ensemencement au niveau du processus des modèles de langage. LE-MCTS formule le raisonnement étape par étape avec un ensemble de modèles de langage comme un processus de décision markovien. Dans ce cadre, les états représentent des chemins de raisonnement intermédiaires, tandis que les actions consistent à générer l'étape de raisonnement suivante en utilisant l'un des modèles de langage sélectionnés dans un pool prédéfini. Guidé par un modèle de récompense basé sur le processus, LE-MCTS effectue une recherche arborescente sur les étapes de raisonnement générées par différents modèles de langage, identifiant la chaîne de raisonnement la plus précise. Les résultats expérimentaux sur cinq bancs d'essai de raisonnement mathématique démontrent que notre approche surpasse à la fois les algorithmes de décodage de modèles de langage individuels et les méthodes d'ensemble de modèles de langage. Notamment, LE-MCTS améliore les performances de 3,6% et 4,3% respectivement sur les ensembles de données MATH et MQA, mettant en évidence son efficacité dans la résolution de problèmes de raisonnement complexes.
Le défi ARC Challenge semble plus difficile que ARC Easy pour les LLM modernes principalement en raison d'une configuration d'évaluation qui empêche la comparaison directe des choix de réponses plutôt que d'une complexité inhérente. Bien que certains chercheurs aient discrètement basculé vers un schéma plus approprié au cours de l'année écoulée, les implications de ce changement n'ont pas encore été largement reconnues. Nous mettons en lumière cette transition négligée, montrons comment des pratiques d'évaluation similaires laissent faussement entendre des déficits de raisonnement dans d'autres référentiels, et démontrons que des méthodes plus équitables réduisent considérablement les écarts de performance (par exemple, sur SIQA) et produisent même des résultats surhumains (OpenBookQA). Ce faisant, nous révélons comment l'évaluation façonne la perception de la difficulté et proposons des lignes directrices pour garantir que les évaluations à choix multiples reflètent précisément les capacités réelles des modèles.
Les modèles Mixture-of-Experts (MoE) activés de manière éparses sont largement adoptés pour augmenter la capacité du modèle sans augmenter le budget de calcul. Cependant, les routeurs TopK classiques sont entraînés de manière discontinue et non différentiable, limitant leurs performances et leur extensibilité. Pour résoudre ce problème, nous proposons ReMoE, une architecture MoE entièrement différentiable qui offre un remplacement simple mais efficace pour le routage conventionnel TopK+Softmax, en utilisant ReLU comme routeur à la place. Nous proposons également des méthodes pour réguler la parcimonie du routeur tout en équilibrant la charge entre les experts. La nature continue de ReMoE permet une allocation dynamique efficace des calculs entre les jetons et les couches, tout en présentant une spécialisation de domaine. Nos expériences démontrent que ReMoE surpasse de manière constante les MoE routés en TopK classiques sur diverses tailles de modèles, nombres d'experts et niveaux de granularité. De plus, ReMoE présente une extensibilité supérieure en ce qui concerne le nombre d'experts, dépassant les architectures MoE traditionnelles. L'implémentation basée sur Megatron-LM est disponible sur https://github.com/thu-ml/ReMoE.
Les systèmes de Génération Augmentée par Récupération (RAG) sont devenus essentiels pour exploiter de vastes corpus afin de générer des réponses informées et contextuellement pertinentes, réduisant notablement les hallucinations dans les Grands Modèles de Langage. Malgré des avancées significatives, ces systèmes peinent à traiter efficacement et récupérer des informations à partir de vastes ensembles de données tout en maintenant une compréhension globale du contexte. Cet article présente SKETCH, une méthodologie novatrice qui améliore le processus de récupération RAG en intégrant la recherche sémantique de texte avec des graphes de connaissances, fusionnant ainsi des données structurées et non structurées pour une compréhension plus holistique. SKETCH démontre des améliorations substantielles en termes de performance de récupération et maintient une intégrité contextuelle supérieure par rapport aux méthodes traditionnelles. Évalué sur quatre ensembles de données divers : QuALITY, QASPER, NarrativeQA et Cuisine Italienne, SKETCH surpasse systématiquement les approches de référence sur des métriques clés de RAGAS telles que la pertinence de la réponse, la fidélité, la précision du contexte et le rappel du contexte. Notamment, sur l'ensemble de données de Cuisine Italienne, SKETCH a atteint une pertinence de réponse de 0,94 et une précision de contexte de 0,99, représentant la meilleure performance sur l'ensemble des métriques évaluées. Ces résultats mettent en lumière la capacité de SKETCH à fournir des réponses plus précises et contextuellement pertinentes, établissant de nouveaux standards pour les futurs systèmes de récupération.
Les progrès en IA sont largement stimulés par l'ampleur et la qualité des données d'entraînement. Malgré cela, il existe un déficit d'analyses empiriques examinant les attributs des ensembles de données bien établis au-delà du texte. Dans ce travail, nous menons le plus grand audit longitudinal de ce type à travers les modalités - texte, parole et vidéo - populaires, en examinant leurs tendances de collecte détaillées, leurs restrictions d'utilisation, ainsi que leur représentation géographique et linguistique. Notre analyse manuelle couvre près de 4000 ensembles de données publics entre 1990 et 2024, couvrant 608 langues, 798 sources, 659 organisations et 67 pays. Nous constatons que les applications d'apprentissage automatique multimodal se sont largement tournées vers des plateformes web-crawled, synthétiques et de médias sociaux, telles que YouTube, pour leurs ensembles d'entraînement, éclipsant toutes les autres sources depuis 2019. Deuxièmement, en suivant la chaîne des dérivations des ensembles de données, nous constatons que moins de 33 % des ensembles de données sont soumis à des licences restrictives, mais plus de 80 % du contenu source dans les ensembles de données texte, parole et vidéo largement utilisés, sont soumis à des restrictions non commerciales. Enfin, contrairement à l'augmentation du nombre de langues et de géographies représentées dans les ensembles de données d'entraînement en IA publics, notre audit démontre que les mesures de représentation géographique et multilingue relative n'ont pas significativement amélioré leur couverture depuis 2013. Nous pensons que l'étendue de notre audit nous permet d'examiner empiriquement les tendances en matière de collecte de données, de restrictions et de centrage occidental à un niveau d'écosystème, et que la visibilité sur ces questions est essentielle pour progresser dans une IA responsable. En tant que contribution aux améliorations continues en matière de transparence des ensembles de données et d'utilisation responsable, nous publions l'intégralité de notre audit multimodal, permettant aux praticiens de retracer la provenance des données à travers le texte, la parole et la vidéo.
La génération Texte-Image-Vidéo (TIV) vise à générer une vidéo à partir d'une image en suivant une description textuelle, également appelée animation guidée par le texte. La plupart des méthodes existantes peinent à générer des vidéos bien alignées avec les indications textuelles, en particulier lorsque le mouvement est spécifié. Pour surmonter cette limitation, nous introduisons MotiF, une approche simple mais efficace qui guide l'apprentissage du modèle vers les régions avec plus de mouvement, améliorant ainsi l'alignement textuel et la génération de mouvement. Nous utilisons le flot optique pour générer une carte de chaleur de mouvement et pondérons la perte en fonction de l'intensité du mouvement. Cet objectif modifié entraîne des améliorations significatives et complète les méthodes existantes qui utilisent des préférences de mouvement en tant qu'entrées du modèle. De plus, en raison du manque d'un ensemble de référence diversifié pour évaluer la génération TIV, nous proposons TIV Bench, un ensemble de données composé de 320 paires image-texte pour une évaluation robuste. Nous présentons un protocole d'évaluation humaine demandant aux annotateurs de sélectionner une préférence globale entre deux vidéos, suivie de leurs justifications. À travers une évaluation complète sur TIV Bench, MotiF surpasse neuf modèles open source, atteignant une préférence moyenne de 72%. TIV Bench est publié sur https://wang-sj16.github.io/motif/.