Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les agents d'Interface Graphique Utilisateur (GUI) alimentés par des Modèles Vision-Langage (VLM) ont démontré une capacité de contrôle informatique similaire à celle des humains. Malgré leur utilité dans l'avancement de l'automatisation numérique, un goulot d'étranglement critique persiste : la collecte de données de trajectoire de haute qualité pour l'entraînement. Les pratiques courantes pour collecter de telles données reposent sur la supervision humaine ou la génération de données synthétiques par l'exécution de tâches prédéfinies, qui sont soit gourmandes en ressources, soit incapables de garantir la qualité des données. De plus, ces méthodes souffrent d'une diversité de données limitée et de lacunes significatives entre les données synthétiques et les environnements réels. Pour relever ces défis, nous proposons OS-Genesis, un nouveau pipeline de synthèse de données GUI qui inverse le processus conventionnel de collecte de trajectoires. Au lieu de se baser sur des tâches prédéfinies, OS-Genesis permet aux agents de d'abord percevoir les environnements et d'effectuer des interactions étape par étape, puis de dériver rétrospectivement des tâches de haute qualité pour permettre une exploration au niveau des trajectoires. Un modèle de récompense de trajectoire est ensuite utilisé pour garantir la qualité des trajectoires générées. Nous démontrons que l'entraînement des agents GUI avec OS-Genesis améliore significativement leurs performances sur des benchmarks en ligne très difficiles. Une analyse approfondie valide davantage l'efficacité d'OS-Genesis et sa qualité et diversité de données supérieures par rapport aux méthodes de synthèse existantes. Nos codes, données et points de contrôle sont disponibles sur https://qiushisun.github.io/OS-Genesis-Home/{Page d'accueil OS-Genesis}.
Le modèle Xmodel-2 est un modèle de langage de grande taille de 1,2 milliard de paramètres conçu spécifiquement pour les tâches de raisonnement. Son architecture permet à différentes échelles de modèles de partager un ensemble unifié d'hyperparamètres, permettant une expérimentation approfondie sur des modèles plus petits et un transfert transparent des configurations optimales vers des modèles plus grands. Pour maximiser l'efficacité et la stabilité de l'entraînement, Xmodel-2 utilise le planificateur de taux d'apprentissage WSD de MiniCPM. Pré-entraîné sur 1,5 billion de jetons provenant de sources diverses, Xmodel-2 atteint des performances de pointe dans des tâches de raisonnement complexe et basées sur des agents, tout en maintenant des coûts d'entraînement bas. Ces résultats mettent en lumière le potentiel de la conception de modèles efficaces et des stratégies d'entraînement pour faire progresser les capacités de raisonnement. Les points de contrôle du modèle et le code sont disponibles publiquement sur GitHub à l'adresse https://github.com/XiaoduoAILab/Xmodel-2
Les Modèles Vision-Language à Grande Échelle (VLM), en alignant les entrées visuelles avec du texte, ont considérablement amélioré les performances dans les tâches de vision par ordinateur. De plus, pour que les VLM soient efficacement utilisés dans des applications du monde réel, une compréhension de diverses données de capteurs multi-vision, telles que thermiques, de profondeur et de rayons X, est essentielle. Cependant, nous constatons que les VLM actuels traitent les images de capteurs multi-vision sans une compréhension approfondie des informations des capteurs, en ignorant les propriétés physiques uniques de chaque capteur. Cette limitation restreint leur capacité à interpréter et à répondre à des questions complexes nécessitant un raisonnement multi-vision sensoriel. Pour remédier à cela, nous proposons un nouveau banc d'essai de Perception et Raisonnement de Capteurs Multi-vision (MS-PR), évaluant les VLM sur leur capacité de raisonnement spécifique aux capteurs. De plus, nous introduisons l'optimisation des Attributs Négatifs Divers (DNA) pour permettre aux VLM d'effectuer un raisonnement approfondi sur les tâches de capteurs multi-vision, aidant à combler le fossé d'information essentiel entre les images et les données des capteurs. Des résultats expérimentaux approfondis valident que la méthode DNA proposée peut améliorer significativement le raisonnement multi-vision sensoriel pour les VLM.
Nous présentons HunyuanProver, un modèle de langage affiné à partir du Hunyuan 7B pour la démonstration automatique interactive de théorèmes avec LEAN4. Pour pallier le problème de rareté des données, nous concevons un cadre évolutif pour la synthèse itérative de données à faible coût. De plus, des algorithmes de recherche arborescente guidée sont conçus pour permettre une "pensée du système 2" efficace du prouveur. HunyuanProver atteint des performances de pointe (SOTA) sur les principaux bancs d'essai. Plus précisément, il obtient un taux de réussite de 68,4 % sur le miniF2F-test par rapport à 65,9 %, les résultats SOTA actuels. Il prouve 4 énoncés IMO (imo_1960_p2, imo_1962_p2, imo_1964_p2 et imo_1983_p6) dans le miniF2F-test. Pour bénéficier à la communauté, nous mettrons à disposition un ensemble de données de 30 000 instances synthétisées, où chaque instance contient la question originale en langage naturel, l'énoncé converti par autoformalisation et la preuve par HunyuanProver.
Alors que les modèles de diffusion montrent des talents extraordinaires dans la génération texte-image, ils peuvent encore échouer à produire des images très esthétiques. Plus précisément, il existe toujours un écart entre les images générées et les images esthétiques du monde réel dans des dimensions plus fines incluant la couleur, l'éclairage, la composition, etc. Dans cet article, nous proposons un adaptateur de contrôle de mélange de valeurs d'attention croisée (VMix), un adaptateur esthétique plug-and-play, pour améliorer la qualité des images générées tout en maintenant la généralité à travers les concepts visuels en (1) démêlant le texte d'entrée en description de contenu et description esthétique par l'initialisation de l'incorporation esthétique, et (2) en intégrant des conditions esthétiques dans le processus de débruitage à travers une attention croisée à valeurs mélangées, le réseau étant connecté par des couches linéaires initialisées à zéro. Notre idée clé est d'améliorer la présentation esthétique des modèles de diffusion existants en concevant une méthode de contrôle de condition supérieure, tout en préservant l'alignement image-texte. Grâce à notre conception minutieuse, VMix est suffisamment flexible pour être appliqué à des modèles communautaires pour de meilleures performances visuelles sans nécessiter de nouvelle formation. Pour valider l'efficacité de notre méthode, nous avons mené des expériences approfondies, montrant que VMix surpasse d'autres méthodes de pointe et est compatible avec d'autres modules communautaires (par exemple, LoRA, ControlNet et IPAdapter) pour la génération d'images. La page du projet se trouve à l'adresse https://vmix-diffusion.github.io/VMix/.