Articles de recherche en IA sélectionnés quotidiennement avec traductions
La capacité à gérer des contextes longs est cruciale pour les modèles fondateurs multimodaux. Nous présentons LongVILA, une solution complète pour les modèles vision-langage à contexte long, incluant le système, l'entraînement du modèle et le développement des jeux de données. Du côté système, nous introduisons le premier système de parallélisme de séquence multimodale (MM-SP) qui permet l'entraînement et l'inférence sur des contextes longs, permettant un entraînement sur des contextes de 2 millions de tokens sur 256 GPU. MM-SP est également efficace, étant 2,1 à 5,7 fois plus rapide que le parallélisme de séquence de type Ring et 1,1 à 1,4 fois plus rapide que Megatron-LM dans des configurations texte uniquement. De plus, il s'intègre parfaitement avec Hugging Face Transformers. Pour l'entraînement du modèle, nous proposons un pipeline en cinq étapes comprenant l'alignement, le pré-entraînement, l'extension du contexte et le réglage fin supervisé conjoint court-long. Concernant les jeux de données, nous construisons méticuleusement des jeux de données de pré-entraînement visuel-langage à grande échelle et des jeux de données de suivi d'instructions sur des vidéos longues pour soutenir notre processus d'entraînement en plusieurs étapes. La solution complète étend le nombre de trames réalisables de VILA par un facteur de 128 (de 8 à 1024 trames) et améliore le score de description de vidéos longues de 2,00 à 3,26 (1,6 fois), atteignant une précision de 99,5 % dans une vidéo de 1400 trames (longueur de contexte de 274k tokens) pour la tâche "aiguille dans une botte de foin". LongVILA-8B montre également une amélioration constante des performances sur les vidéos longues dans le benchmark VideoMME à mesure que le nombre de trames augmente.
Les modèles de reconstruction 3D en monde ouvert ont récemment suscité un intérêt considérable. Cependant, en l'absence d'un biais inductif 3D suffisant, les méthodes existantes entraînent généralement des coûts d'entraînement élevés et peinent à extraire des maillages 3D de haute qualité. Dans ce travail, nous présentons MeshFormer, un modèle de reconstruction à vues éparses qui exploite explicitement la structure native 3D, les indications en entrée et la supervision lors de l'entraînement. Plus précisément, au lieu d'utiliser une représentation en triplan, nous stockons les caractéristiques dans des voxels 3D épars et combinons des transformers avec des convolutions 3D pour tirer parti d'une structure 3D explicite et d'un biais projectif. En plus de l'entrée RGB à vues éparses, nous demandons au réseau de prendre en entrée et de générer des cartes de normales correspondantes. Les cartes de normales en entrée peuvent être prédites par des modèles de diffusion 2D, ce qui aide considérablement à guider et à affiner l'apprentissage de la géométrie. De plus, en combinant la supervision par fonction de distance signée (SDF) avec le rendu de surface, nous apprenons directement à générer des maillages de haute qualité sans avoir besoin de processus d'entraînement multi-étapes complexes. En intégrant ces biais 3D explicites, MeshFormer peut être entraîné efficacement et produire des maillages texturés de haute qualité avec des détails géométriques fins. Il peut également être intégré avec des modèles de diffusion 2D pour permettre des tâches rapides de conversion d'une seule image en 3D et de texte en 3D. Page du projet : https://meshformer3d.github.io
La segmentation robuste et précise des scènes est devenue une fonctionnalité centrale dans diverses tâches de reconnaissance visuelle et de navigation. Cela a inspiré le développement récent du Segment Anything Model (SAM), un modèle de base pour la segmentation générale de masques. Cependant, SAM est largement conçu pour des images RGB unimodales, limitant son applicabilité aux données multimodales capturées avec des ensembles de capteurs largement adoptés, tels que LiDAR plus RGB, profondeur plus RGB, thermique plus RGB, etc. Nous développons MM-SAM, une extension et une expansion de SAM qui prend en charge le traitement intermodal et multimodal pour une segmentation robuste et améliorée avec différents ensembles de capteurs. MM-SAM intègre deux conceptions clés, à savoir le transfert intermodal non supervisé et la fusion multimodale faiblement supervisée, permettant une adaptation efficace en termes d'étiquettes et de paramètres vers diverses modalités de capteurs. Il aborde trois défis principaux : 1) l'adaptation vers divers capteurs non-RGB pour le traitement unimodal, 2) le traitement synergique des données multimodales via la fusion de capteurs, et 3) l'entraînement sans masque pour différentes tâches en aval. Des expériences approfondies montrent que MM-SAM surpasse systématiquement SAM par de larges marges, démontrant son efficacité et sa robustesse à travers divers capteurs et modalités de données.
La génération de texte-à-vidéo (T2V) a suscité un intérêt considérable en raison de ses nombreuses applications dans la création, l'édition, l'amélioration et la traduction de vidéos, entre autres. Cependant, la synthèse de vidéos de haute qualité (HQ) est extrêmement complexe en raison de la diversité et de la complexité des mouvements présents dans le monde réel. La plupart des travaux existants peinent à résoudre ce problème en collectant des vidéos HQ à grande échelle, qui sont inaccessibles à la communauté. Dans ce travail, nous montrons que des données publiques limitées et de faible qualité (LQ) suffisent pour entraîner un générateur de vidéos HQ sans nécessiter de recaptionnage ou de réajustement. Nous décomposons le processus de génération T2V en deux étapes : la génération d'une image conditionnée par une description textuelle détaillée, et la synthèse de la vidéo conditionnée par l'image générée et une description concise des détails de mouvement. Plus précisément, nous présentons Factorized-Dreamer, un cadre spatio-temporel factorisé avec plusieurs conceptions critiques pour la génération T2V, incluant un adaptateur pour combiner les embeddings de texte et d'image, un module d'attention croisée pixel-aware pour capturer les informations au niveau des pixels, un encodeur de texte T5 pour mieux comprendre les descriptions de mouvement, et un PredictNet pour superviser les flux optiques. Nous introduisons également un plan de bruit, qui joue un rôle clé dans la garantie de la qualité et de la stabilité de la génération vidéo. Notre modèle réduit les exigences en termes de descriptions détaillées et de vidéos HQ, et peut être directement entraîné sur des ensembles de données LQ limités avec des captions bruyantes et succinctes comme WebVid-10M, atténuant ainsi largement le coût de collecte de paires vidéo-texte HQ à grande échelle. Des expériences approfondies dans une variété de tâches de génération T2V et d'image-à-vidéo démontrent l'efficacité de notre modèle Factorized-Dreamer. Nos codes sources sont disponibles à l'adresse https://github.com/yangxy/Factorized-Dreamer/.
La conception de puces repose fortement sur la génération de circuits booléens, tels que les graphes AND-Inverse (AIG), à partir de descriptions fonctionnelles comme les tables de vérité. Bien que les récents progrès en apprentissage profond visent à accélérer la conception de circuits, ces efforts se sont principalement concentrés sur des tâches autres que la synthèse, et les méthodes heuristiques traditionnelles ont atteint un plateau. Dans cet article, nous présentons ShortCircuit, une nouvelle architecture basée sur les transformateurs qui exploite les propriétés structurelles des AIG et effectue une exploration efficace de l'espace. Contrairement aux approches antérieures tentant une génération de circuits logiques de bout en bout à l'aide de réseaux profonds, ShortCircuit utilise un processus en deux phases combinant l'apprentissage supervisé et l'apprentissage par renforcement pour améliorer la généralisation à des tables de vérité inédites. Nous proposons également une variante d'AlphaZero pour gérer l'espace d'états doublement exponentiel et la rareté des récompenses, permettant ainsi la découverte de conceptions quasi optimales. Pour évaluer les performances génératives de notre modèle entraîné, nous extrayons 500 tables de vérité d'un ensemble de référence de 20 circuits réels. ShortCircuit génère avec succès des AIG pour 84,6 % des tables de vérité de test à 8 entrées, et surpasse l'outil de synthèse logique de pointe, ABC, de 14,61 % en termes de taille de circuit.
L'estimation en temps réel de flux optique avec une grande précision est cruciale pour diverses applications du monde réel. Bien que les méthodes récentes de flux optique basées sur l'apprentissage aient atteint une grande précision, elles s'accompagnent souvent de coûts de calcul significatifs. Dans cet article, nous proposons une méthode de flux optique hautement efficace qui équilibre une grande précision avec des exigences de calcul réduites. En nous appuyant sur NeuFlow v1, nous introduisons de nouveaux composants, notamment un réseau de base beaucoup plus léger et un module de raffinement rapide. Ces deux modules contribuent à maintenir les exigences de calcul légères tout en offrant une précision proche de l'état de l'art. Comparé à d'autres méthodes de pointe, notre modèle atteint une accélération de 10x à 70x tout en maintenant des performances comparables sur des données synthétiques et réelles. Il est capable de fonctionner à plus de 20 FPS sur des images de résolution 512x384 sur un Jetson Orin Nano. Le code complet d'entraînement et d'évaluation est disponible à l'adresse https://github.com/neufieldrobotics/NeuFlow_v2.
La génération 3D en monde ouvert a récemment suscité un intérêt considérable. Bien que de nombreuses méthodes de conversion d'une seule image en 3D aient produit des résultats visuellement attrayants, elles manquent souvent de contrôlabilité suffisante et ont tendance à générer des régions hallucinées qui peuvent ne pas correspondre aux attentes des utilisateurs. Dans cet article, nous explorons un scénario important où l'entrée consiste en une ou quelques images 2D non positionnées d'un seul objet, avec peu ou pas de chevauchement. Nous proposons une nouvelle méthode, SpaRP, pour reconstruire un maillage 3D texturé et estimer les poses relatives des caméras pour ces images à vue éparse. SpaRP distille les connaissances des modèles de diffusion 2D et les affine pour déduire implicitement les relations spatiales 3D entre les vues éparses. Le modèle de diffusion est entraîné à prédire conjointement des représentations substitutives pour les poses des caméras et les images multi-vues de l'objet sous des poses connues, intégrant toutes les informations des vues éparses en entrée. Ces prédictions sont ensuite utilisées pour accomplir la reconstruction 3D et l'estimation des poses, et le modèle 3D reconstruit peut être utilisé pour affiner davantage les poses des caméras des vues en entrée. À travers des expériences approfondies sur trois ensembles de données, nous démontrons que notre méthode surpasse significativement les méthodes de référence en termes de qualité de reconstruction 3D et de précision de prédiction des poses, tout en affichant une forte efficacité. Elle ne nécessite qu'environ 20 secondes pour produire un maillage texturé et les poses des caméras pour les vues en entrée. Page du projet : https://chaoxu.xyz/sparp.
L'attribution précise de la paternité d'un texte est cruciale pour préserver l'intégrité des contenus numériques, améliorer les investigations médico-légales et atténuer les risques de désinformation et de plagiat. Répondre à l'impératif d'une attribution correcte de la paternité est essentiel pour maintenir la crédibilité et la responsabilité des auteurs authentiques. Les avancées rapides des modèles de langage à grande échelle (LLMs) ont brouillé les frontières entre la paternité humaine et machine, posant des défis majeurs aux méthodes traditionnelles. Nous présentons une revue de littérature exhaustive qui examine les dernières recherches sur l'attribution de la paternité à l'ère des LLMs. Cette étude explore systématiquement le paysage de ce domaine en catégorisant quatre problèmes représentatifs : (1) l'attribution de textes écrits par des humains ; (2) la détection de textes générés par des LLMs ; (3) l'attribution de textes générés par des LLMs ; et (4) l'attribution de textes co-écrits par des humains et des LLMs. Nous discutons également des défis liés à la généralisation et à l'explicabilité des méthodes d'attribution de la paternité. La généralisation nécessite la capacité à s'adapter à divers domaines, tandis que l'explicabilité met l'accent sur la fourniture d'éclairages transparents et compréhensibles sur les décisions prises par ces modèles. En évaluant les forces et les limites des méthodes et benchmarks existants, nous identifions les principaux problèmes ouverts et les futures directions de recherche dans ce domaine. Cette revue de littérature sert de feuille de route pour les chercheurs et praticiens souhaitant comprendre l'état de l'art dans ce domaine en évolution rapide. Des ressources supplémentaires et une liste de publications soigneusement sélectionnées sont disponibles et régulièrement mises à jour à l'adresse https://llm-authorship.github.io.
L'insertion correcte d'objets virtuels dans des images de scènes du monde réel nécessite une compréhension approfondie de l'éclairage, de la géométrie et des matériaux de la scène, ainsi que du processus de formation de l'image. Bien que les modèles de diffusion à grande échelle récents aient démontré de solides capacités génératives et de réparation d'images, nous constatons que les modèles actuels ne "comprennent" pas suffisamment la scène représentée dans une seule image pour générer des effets d'éclairage cohérents (ombres, reflets lumineux, etc.) tout en préservant l'identité et les détails de l'objet composité. Nous proposons d'utiliser un modèle de diffusion personnalisé à grande échelle comme guide pour un processus de rendu inverse basé sur la physique. Notre méthode récupère les paramètres d'éclairage de la scène et de mappage des tons, permettant la composition photoréaliste d'objets virtuels arbitraires dans des images uniques ou des vidéos de scènes intérieures ou extérieures. Notre pipeline basé sur la physique permet en outre un affinement automatique des matériaux et du mappage des tons.
Dans ce travail, nous proposons une approche contrôlable basée sur les trajectoires et sans apprentissage pour la génération d'images à partir de texte (T2I), nommée TraDiffusion. Cette méthode novatrice permet aux utilisateurs de guider facilement la génération d'images via des trajectoires de souris. Pour obtenir un contrôle précis, nous concevons une fonction d'énergie basée sur la distance afin de guider efficacement les variables latentes, garantissant que le foyer de génération reste dans les zones définies par la trajectoire. La fonction d'énergie intègre une fonction de contrôle pour rapprocher la génération de la trajectoire spécifiée et une fonction de mouvement pour réduire l'activité dans les zones éloignées de la trajectoire. À travers des expériences approfondies et des évaluations qualitatives sur le jeu de données COCO, les résultats montrent que TraDiffusion facilite un contrôle d'image plus simple et plus naturel. De plus, elle démontre la capacité à manipuler les régions saillantes, les attributs et les relations au sein des images générées, ainsi qu'à intégrer des entrées visuelles basées sur des trajectoires arbitraires ou améliorées.
Les agents de modèle de langage (LM) pour la cybersécurité capables d'identifier de manière autonome des vulnérabilités et d'exécuter des exploits ont le potentiel de causer un impact significatif dans le monde réel. Les décideurs politiques, les fournisseurs de modèles et d'autres chercheurs des communautés de l'IA et de la cybersécurité s'intéressent à la quantification des capacités de tels agents afin d'aider à atténuer les risques cyber et d'explorer les opportunités de tests d'intrusion. Dans cette optique, nous présentons Cybench, un cadre pour spécifier des tâches de cybersécurité et évaluer les agents sur ces tâches. Nous incluons 40 tâches de niveau professionnel issues de compétitions Capture the Flag (CTF) provenant de 4 compétitions distinctes, choisies pour être récentes, significatives et couvrant un large éventail de difficultés. Chaque tâche comprend sa propre description, des fichiers de départ et est initialisée dans un environnement où un agent peut exécuter des commandes bash et observer les sorties. Étant donné que de nombreuses tâches dépassent les capacités des agents LM existants, nous introduisons des sous-tâches, qui décomposent une tâche en étapes intermédiaires pour une évaluation plus graduée ; nous ajoutons des sous-tâches pour 17 des 40 tâches. Pour évaluer les capacités des agents, nous construisons un agent de cybersécurité et évaluons 7 modèles : GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat et Llama 3.1 405B Instruct. Sans guidance, nous constatons que les agents ne parviennent à résoudre que les tâches complètes les plus simples, qui ont pris jusqu'à 11 minutes aux équipes humaines pour être résolues, avec Claude 3.5 Sonnet et GPT-4o affichant les taux de réussite les plus élevés. Enfin, les sous-tâches fournissent un signal plus fort pour mesurer les performances par rapport aux exécutions non guidées, les modèles atteignant un taux de réussite 3,2 % plus élevé sur les tâches complètes avec guidance par sous-tâches que sans guidance par sous-tâches. Tous les codes et données sont disponibles publiquement à l'adresse https://cybench.github.io.