Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage deviennent de plus en plus une technologie fondamentale en intelligence artificielle, dans les sciences et dans la société dans son ensemble, cependant les stratégies optimales pour la composition et le filtrage des ensembles de données restent largement insaisissables. Bon nombre des modèles les plus performants manquent de transparence dans leur processus de curation des données et de développement du modèle, ce qui constitue un obstacle au développement de modèles de langage entièrement ouverts. Dans cet article, nous identifions trois défis principaux liés aux données qui doivent être relevés pour faire progresser les modèles de langage open source. Il s'agit de (1) la transparence dans le développement du modèle, y compris le processus de curation des données, (2) l'accès à de grandes quantités de données de haute qualité, et (3) la disponibilité d'artefacts et de métadonnées pour la curation et l'analyse des ensembles de données. Pour relever ces défis, nous publions RedPajama-V1, une reproduction ouverte de l'ensemble de données d'entraînement LLaMA. De plus, nous publions RedPajama-V2, un ensemble de données massif uniquement web composé de données textuelles brutes et non filtrées, accompagnées de signaux de qualité et de métadonnées. Ensemble, les ensembles de données RedPajama couvrent plus de 100 billions de jetons couvrant plusieurs domaines et avec leurs signaux de qualité facilitent le filtrage des données, visant à inspirer le développement de nombreux nouveaux ensembles de données. À ce jour, ces ensembles de données ont déjà été utilisés dans la formation de modèles de langage puissants utilisés en production, tels que Snowflake Arctic, XGen de Salesforce et OLMo de l'AI2. Pour fournir un aperçu de la qualité de RedPajama, nous présentons une série d'analyses et d'études d'ablation avec des modèles de langage à décodeur uniquement jusqu'à 1,6 milliard de paramètres. Nos résultats démontrent comment les signaux de qualité pour les données web peuvent être efficacement exploités pour curer des sous-ensembles de données de haute qualité, soulignant le potentiel de RedPajama pour faire progresser le développement de modèles de langage transparents et performants à grande échelle.
Les animations esquissées offrent un puissant moyen de narration visuelle, allant des simples gribouillages de flip-book aux productions de studio professionnelles. Alors que l'animation traditionnelle nécessite des équipes d'artistes qualifiés pour dessiner les images clés et les images intermédiaires, les tentatives d'automatisation existantes exigent encore un effort artistique significatif à travers des trajectoires de mouvement précises ou des spécifications d'images clés. Nous présentons FlipSketch, un système qui redonne vie à la magie de l'animation de flip-book -- il suffit de dessiner votre idée et de décrire comment vous souhaitez qu'elle se déplace ! Notre approche exploite les priorités de mouvement des modèles de diffusion texte-vidéo, en les adaptant pour générer des animations esquissées à travers trois innovations clés : (i) un affinage pour la génération de cadres de style esquisse, (ii) un mécanisme de cadre de référence qui préserve l'intégrité visuelle de l'esquisse d'entrée à travers un affinement du bruit, et (iii) une composition à double attention qui permet un mouvement fluide sans perdre la cohérence visuelle. Contrairement aux animations vectorielles contraintes, nos images matricielles prennent en charge des transformations esquissées dynamiques, capturant la liberté expressive de l'animation traditionnelle. Le résultat est un système intuitif qui rend l'animation esquissée aussi simple que de gribouiller et de décrire, tout en préservant l'essence artistique de l'animation dessinée à la main.
Les modèles de génération d'images autorégressifs à valeurs continues (AR) ont démontré une nette supériorité par rapport à leurs homologues à jetons discrets, mettant en avant une qualité de reconstruction considérable et une fidélité de génération plus élevée. Cependant, les exigences computationnelles du cadre autorégressif entraînent un surcoût significatif en termes d'inférence. Alors que le décodage spéculatif s'est avéré efficace pour accélérer les grands modèles de langage (LLMs), leur adaptation aux modèles autorégressifs visuels à valeurs continues reste inexplorée. Ce travail généralise l'algorithme de décodage spéculatif des jetons discrets à l'espace continu. En analysant les propriétés intrinsèques de la distribution de sortie, nous établissons un critère d'acceptation adapté aux distributions de diffusion prévalentes dans de tels modèles. Pour surmonter l'incohérence survenue dans les distributions de sortie du décodage spéculatif, nous introduisons des méthodes d'alignement de trajectoire de débruitage et de pré-remplissage de jetons. De plus, nous identifions la distribution difficile à échantillonner dans la phase de rejet. Pour atténuer ce problème, nous proposons une méthode méticuleuse d'échantillonnage par acceptation-rejet avec une borne supérieure appropriée, contournant ainsi une intégration complexe. Les résultats expérimentaux montrent que notre décodage spéculatif continu permet d'obtenir un gain de vitesse remarquable de 2,33 fois sur des modèles prêts à l'emploi tout en maintenant la distribution de sortie. Les codes seront disponibles sur https://github.com/MarkXCloud/CSpD.
Les récents progrès dans les Modèles de Langage Vision Fondationnels (VLM) ont remodelé le paradigme d'évaluation dans les tâches de vision par ordinateur. Ces modèles fondationnels, en particulier CLIP, ont accéléré la recherche dans les tâches de vision par ordinateur à vocabulaire ouvert, y compris la Segmentation Sémantique à Vocabulaire Ouvert (OVSS). Bien que les résultats initiaux soient prometteurs, les capacités de prédiction dense des VLM nécessitent encore des améliorations supplémentaires. Dans cette étude, nous améliorons les performances de segmentation sémantique de CLIP en introduisant de nouveaux modules et modifications : 1) des changements architecturaux dans la dernière couche de ViT et l'incorporation de cartes d'attention des couches intermédiaires avec la dernière couche, 2) Ingénierie d'Image : application d'augmentations de données pour enrichir les représentations d'images d'entrée, et 3) l'utilisation de Grands Modèles de Langage (LLM) pour générer des définitions et des synonymes pour chaque nom de classe afin de tirer parti des capacités à vocabulaire ouvert de CLIP. Notre méthode sans entraînement, ITACLIP, surpasse les approches actuelles de pointe sur des référentiels de segmentation tels que COCO-Stuff, COCO-Object, Pascal Context et Pascal VOC. Notre code est disponible sur https://github.com/m-arda-aydn/ITACLIP.
Cet article explore l'écosystème en évolution rapide des modèles d'IA disponibles publiquement, et leurs implications potentielles sur le paysage de la sécurité. Alors que les modèles d'IA deviennent de plus en plus courants, comprendre leurs risques et vulnérabilités potentiels est crucial. Nous passons en revue les scénarios actuels de sécurité et de sûreté tout en mettant en lumière des défis tels que les problèmes de suivi, la remédiation, et l'absence apparente de processus de cycle de vie et de propriété des modèles d'IA. Des stratégies complètes pour renforcer la sécurité et la sûreté à la fois pour les développeurs de modèles et les utilisateurs finaux sont proposées. Cet article vise à fournir certaines des pièces fondamentales pour une sécurité, une sûreté et une transparence plus standardisées dans le développement et l'exploitation des modèles d'IA et des écosystèmes ouverts plus vastes et des communautés qui se forment autour d'eux.
La manipulation dynamique en main reste une tâche complexe pour les systèmes robotiques souples qui ont démontré des avantages dans les interactions sûres et flexibles, mais qui rencontrent des difficultés avec les tâches dynamiques à haute vitesse. Dans ce travail, nous présentons SWIFT, un système pour apprendre des tâches dynamiques en utilisant une main robotique souple et flexible. Contrairement aux travaux précédents qui reposent sur la simulation, des actions quasi-statiques et des modèles d'objets précis, le système proposé apprend à faire tourner un stylo par essais et erreurs en n'utilisant que des données du monde réel, sans nécessiter de connaissance préalable explicite des attributs physiques du stylo. Avec des essais auto-étiquetés échantillonnés du monde réel, le système découvre l'ensemble des paramètres primitifs de préhension et de rotation du stylo qui permet à une main souple de faire tourner un stylo de manière robuste et fiable. Après 130 actions échantillonnées par objet, SWIFT atteint un taux de réussite de 100% sur trois stylos de poids et de distributions de poids différents, démontrant la généralisabilité du système et sa robustesse face aux changements dans les propriétés de l'objet. Les résultats soulignent le potentiel des effecteurs terminaux robotiques souples à effectuer des tâches dynamiques, y compris la manipulation rapide en main. Nous démontrons également que SWIFT se généralise à la rotation d'objets de formes et de poids différents tels qu'une brosse et un tournevis que nous faisons tourner avec des taux de réussite de 10/10 et 5/10 respectivement. Des vidéos, des données et du code sont disponibles sur https://soft-spin.github.io.
Les méthodes existantes d'évaluation de la qualité des images (IQA) ont obtenu un succès remarquable dans l'analyse de la qualité de l'image globale, mais peu d'études explorent l'analyse de la qualité pour les Régions d'Intérêt (ROIs). L'analyse de la qualité des ROIs peut fournir des orientations détaillées pour l'amélioration de la qualité de l'image et est cruciale pour les scénarios axés sur la qualité au niveau régional. Cet article propose un nouveau réseau, SEAGULL, qui peut Voir et Évaluer la qualité des ROIs avec l'aide d'un grand modèle vision-langage. SEAGULL intègre un modèle vision-langage (VLM), des masques générés par le modèle Segment Anything Model (SAM) pour spécifier les ROIs, et un Extracteur de Caractéristiques basé sur les Masques (MFE) soigneusement conçu pour extraire des jetons globaux et locaux pour les ROIs spécifiés, permettant une évaluation précise de la qualité des ROIs détaillée. De plus, cet article construit deux ensembles de données d'IQA basés sur les ROIs, SEAGULL-100w et SEAGULL-3k, pour l'entraînement et l'évaluation de l'IQA basée sur les ROIs. SEAGULL-100w comprend environ 100w d'images de distorsion synthétiques avec 33 millions de ROIs pour le pré-entraînement afin d'améliorer la capacité du modèle à percevoir la qualité régionale, et SEAGULL-3k contient environ 3k de ROIs de distorsion authentiques pour renforcer la capacité du modèle à percevoir les distorsions du monde réel. Après le pré-entraînement sur SEAGULL-100w et le fine-tuning sur SEAGULL-3k, SEAGULL montre des performances remarquables dans l'évaluation de la qualité des ROIs détaillée. Le code et les ensembles de données sont disponibles publiquement sur https://github.com/chencn2020/Seagull.
Les grands modèles de langage (LLM) basés sur des architectures de transformateurs ont révolutionné divers domaines, la tokenisation jouant un rôle essentiel dans leurs étapes de prétraitement et de fine-tuning. Dans les modèles multilingues, en particulier ceux adaptés aux langues indiennes, une tokenisation efficace est cruciale pour optimiser les performances. Cet article présente une évaluation complète des tokeniseurs utilisés par 12 LLM à travers les 22 langues officielles de l'Inde, en mettant l'accent sur la comparaison de l'efficacité de leurs processus de tokenisation. Nous avons utilisé la Longueur de Séquence Normalisée (NSL) comme une mesure clé dans notre analyse. Nos résultats révèlent que le tokeniseur SUTRA surpasse tous les autres modèles, y compris plusieurs modèles spécifiques aux langues indiennes, se démarquant dans 14 langues. Les points saillants incluent la capacité supérieure du tokeniseur SUTRA à gérer les langues indiennes, l'avancée du GPT-4o par rapport à son prédécesseur GPT-4 dans le traitement des langues indiennes, et les performances limitées du projet Indus dans certaines langues. Cette étude souligne l'importance critique du développement de stratégies de tokenisation ciblées pour les modèles multilingues et centrés sur les langues indiennes, posant les bases pour des améliorations futures dans la conception des tokeniseurs afin d'améliorer la couverture linguistique et l'efficacité des modèles.