Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le logiciel est l'un des outils les plus puissants dont nous, humains, disposons ; il permet à un programmeur compétent d'interagir avec le monde de manière complexe et profonde. Parallèlement, grâce aux améliorations apportées aux grands modèles de langage (LLMs), il y a eu un développement rapide des agents d'IA qui interagissent avec leur environnement et y provoquent des changements. Dans cet article, nous présentons OpenDevin, une plateforme pour le développement d'agents d'IA puissants et flexibles qui interagissent avec le monde de manière similaire à celle d'un développeur humain : en écrivant du code, en interagissant avec une ligne de commande et en naviguant sur le web. Nous décrivons comment la plateforme permet la mise en œuvre de nouveaux agents, une interaction sécurisée avec des environnements sandbox pour l'exécution de code, la coordination entre plusieurs agents et l'intégration de benchmarks d'évaluation. Sur la base des benchmarks actuellement intégrés, nous effectuons une évaluation des agents sur 15 tâches complexes, incluant l'ingénierie logicielle (par exemple, SWE-Bench) et la navigation web (par exemple, WebArena), entre autres. Publié sous la licence permissive MIT, OpenDevin est un projet communautaire rassemblant le monde académique et l'industrie, avec plus de 1,3K contributions de plus de 160 contributeurs, et continuera à s'améliorer à l'avenir.
Les modèles de langage visuel (VLMs) ont progressé rapidement, portés par le succès des grands modèles de langage (LLMs). Alors que les architectures de modèles et les infrastructures d'entraînement évoluent rapidement, la curation des données reste peu explorée. Lorsque la quantité et la qualité des données deviennent un goulot d'étranglement, les travaux existants soit collectent directement davantage de données brutes sur Internet sans garantie de qualité, soit distillent des modèles commerciaux opaques (par exemple, GPT-4V / Gemini), ce qui limite la performance à celle de ces modèles. Dans ce travail, nous introduisons une approche novatrice qui inclut une étape d'auto-augmentation et une étape d'augmentation par spécialistes pour améliorer itérativement la qualité des données et la performance du modèle. Dans l'étape d'auto-augmentation, un VLM recaptione ses propres données de pré-entraînement pour améliorer leur qualité, puis se réentraîne à partir de zéro en utilisant cet ensemble de données raffiné pour améliorer ses performances. Ce processus peut itérer sur plusieurs cycles. Une fois que l'auto-augmentation atteint un plateau, nous utilisons plusieurs VLMs spécialisés, affinés à partir du VLM auto-augmenté avec des expertises spécifiques à un domaine, pour infuser davantage de connaissances spécialisées dans le VLM généraliste via un recaptionnage et un réentraînement orientés tâches. Avec l'entraînement combiné d'auto-augmentation et d'augmentation par spécialistes, nous introduisons VILA^2 (VILA-augmenté-VILA), une famille de VLMs qui améliore systématiquement la précision sur un large éventail de tâches par rapport à l'état de l'art précédent, et établit de nouveaux records sur le classement MMMU parmi les modèles open-source.
L'animation d'images humaines consiste à générer des vidéos à partir d'une photo de personnage, offrant un contrôle à l'utilisateur et ouvrant des perspectives pour la production de vidéos et de films. Bien que les approches récentes produisent des résultats impressionnants en utilisant des données d'entraînement de haute qualité, l'inaccessibilité de ces ensembles de données entrave un benchmarking équitable et transparent. De plus, ces approches privilégient le mouvement humain en 2D et négligent l'importance des mouvements de caméra dans les vidéos, ce qui limite le contrôle et génère des vidéos instables. Pour démystifier les données d'entraînement, nous présentons HumanVid, le premier ensemble de données à grande échelle et de haute qualité spécialement conçu pour l'animation d'images humaines, combinant des données réelles soigneusement sélectionnées et des données synthétiques. Pour les données réelles, nous avons compilé une vaste collection de vidéos libres de droits provenant d'internet. Grâce à une stratégie de filtrage basée sur des règles soigneusement conçue, nous garantissons l'inclusion de vidéos de haute qualité, aboutissant à une collection de 20 000 vidéos centrées sur l'humain en résolution 1080P. L'annotation des mouvements humains et de la caméra est réalisée à l'aide d'un estimateur de pose 2D et d'une méthode basée sur SLAM. Pour les données synthétiques, nous avons rassemblé 2 300 ressources d'avatars 3D libres de droits pour enrichir les ressources 3D disponibles. Nous introduisons notamment une méthode de génération de trajectoires de caméra basée sur des règles, permettant au pipeline synthétique d'intégrer une annotation de mouvement de caméra diversifiée et précise, rarement disponible dans les données réelles. Pour vérifier l'efficacité de HumanVid, nous établissons un modèle de référence nommé CamAnimate, abréviation de Camera-controllable Human Animation, qui prend en compte à la fois les mouvements humains et de caméra comme conditions. À travers des expérimentations approfondies, nous démontrons qu'un entraînement aussi simple sur notre HumanVid atteint des performances de pointe dans le contrôle des poses humaines et des mouvements de caméra, établissant ainsi un nouveau benchmark. Le code et les données seront disponibles publiquement à l'adresse https://github.com/zhenzhiwang/HumanVid/.
Malgré les capacités d'intelligence avancées des grands modèles de langage (LLMs) dans diverses applications, ils continuent de faire face à des exigences significatives en termes de calcul et de stockage. La distillation de connaissances (KD) est apparue comme une stratégie efficace pour améliorer les performances d'un LLM plus petit (c'est-à-dire le modèle étudiant) en transférant les connaissances d'un LLM hautement performant (c'est-à-dire le modèle enseignant). Les techniques prédominantes dans la distillation des LLMs utilisent généralement une API de modèle en boîte noire pour générer des ensembles de données pré-entraînés et alignés de haute qualité, ou exploitent la distillation en boîte blanche en modifiant la fonction de perte pour mieux transférer les connaissances du LLM enseignant. Cependant, ces méthodes ignorent les différences de connaissances entre les LLMs étudiant et enseignant à travers les domaines. Cela entraîne une attention excessive sur les domaines avec des écarts de performance minimes et une attention insuffisante sur les domaines avec des écarts importants, réduisant ainsi la performance globale. Dans cet article, nous introduisons un nouveau cadre de distillation de LLM appelé DDK, qui ajuste dynamiquement la composition de l'ensemble de données de distillation de manière fluide en fonction des différences de performance entre les modèles enseignant et étudiant, rendant le processus de distillation plus stable et efficace. Des évaluations approfondies montrent que DDK améliore significativement les performances des modèles étudiants, surpassant à la fois les bases de référence pré-entraînées en continu et les méthodes existantes de distillation de connaissances par une large marge.
L'avancée rapide des modèles de langage (LMs) nécessite un alignement robuste avec les valeurs diversifiées des utilisateurs. Cependant, les approches actuelles d'optimisation des préférences échouent souvent à capturer la pluralité des opinions des utilisateurs, renforçant plutôt les points de vue majoritaires et marginalisant les perspectives minoritaires. Nous présentons PERSONA, un banc d'essai reproductible conçu pour évaluer et améliorer l'alignement pluraliste des LMs. Nous générons de manière procédurale des profils d'utilisateurs variés à partir des données du recensement américain, aboutissant à 1 586 personas synthétiques dotées d'attributs démographiques et idiosyncrasiques divers. Nous générons ensuite un ensemble de données d'évaluation à grande échelle contenant 3 868 invites et 317 200 paires de retours obtenus de nos personas synthétiques. En exploitant cet ensemble de données, nous évaluons systématiquement les capacités des LMs à jouer le rôle d'utilisateurs diversifiés, vérifiées par des juges humains, et établissons à la fois un benchmark, PERSONA Bench, pour les approches d'alignement pluraliste ainsi qu'un ensemble de données étendu pour créer de nouveaux benchmarks futurs. L'ensemble complet des données et des benchmarks est disponible ici : https://www.synthlabs.ai/research/persona.
La capacité la plus fondamentale des méthodes modernes d'IA, telles que les modèles de langage à grande échelle (LLMs), est la prédiction du token suivant dans une longue séquence de tokens, connue sous le nom de « modélisation de séquence ». Bien que le modèle Transformers soit actuellement l'approche dominante pour la modélisation de séquence, son coût computationnel quadratique par rapport à la longueur de la séquence constitue un inconvénient majeur. Les modèles à espace d'états (SSMs) offrent une alternative prometteuse grâce à leur efficacité de décodage linéaire et à leur grande parallélisabilité pendant l'entraînement. Cependant, les SSMs existants reposent souvent sur des conceptions de récurrence linéaire qui semblent ad hoc. Dans ce travail, nous explorons la conception des SSMs à travers le prisme de l'apprentissage en ligne, en conceptualisant les SSMs comme des méta-modules pour des problèmes spécifiques d'apprentissage en ligne. Cette approche relie la conception des SSMs à la formulation d'objectifs précis d'apprentissage en ligne, avec des règles de transition d'état dérivées de l'optimisation de ces objectifs. Sur la base de cette intuition, nous introduisons une nouvelle architecture de SSM profond basée sur la mise à jour implicite pour optimiser un objectif de régression en ligne. Nos résultats expérimentaux montrent que nos modèles surpassent les SSMs de pointe, y compris le modèle Mamba, sur des benchmarks standards de modélisation de séquence et des tâches de modélisation du langage.
Nous présentons Stable Video 4D (SV4D), un modèle de diffusion latente vidéo pour la génération de contenu 3D dynamique cohérent en multi-images et multi-vues. Contrairement aux méthodes précédentes qui s'appuient sur des modèles génératifs entraînés séparément pour la génération vidéo et la synthèse de nouvelles vues, nous concevons un modèle de diffusion unifié pour générer des vidéos de nouvelles vues d'objets 3D dynamiques. Plus précisément, étant donné une vidéo de référence monoculaire, SV4D génère de nouvelles vues pour chaque image vidéo qui sont temporellement cohérentes. Nous utilisons ensuite les vidéos de nouvelles vues générées pour optimiser efficacement une représentation 4D implicite (NeRF dynamique), sans avoir recours à l'optimisation fastidieuse basée sur SDS utilisée dans la plupart des travaux antérieurs. Pour entraîner notre modèle unifié de génération de vidéos de nouvelles vues, nous avons constitué un ensemble de données d'objets 3D dynamiques à partir du jeu de données Objaverse existant. Les résultats expérimentaux approfondis sur plusieurs ensembles de données et les études utilisateurs démontrent que SV4D atteint des performances de pointe en synthèse vidéo de nouvelles vues ainsi qu'en génération 4D par rapport aux travaux précédents.
Pouvons-nous doter les robots visuomoteurs de capacités de généralisation pour opérer dans divers scénarios du monde réel ? Dans cet article, nous proposons Maniwhere, un cadre généralisable conçu pour l'apprentissage par renforcement visuel, permettant aux politiques de robot entraînées de généraliser à travers une combinaison de multiples types de perturbations visuelles. Plus précisément, nous introduisons une approche d'apprentissage de représentation multi-vues fusionnée avec un module de réseau de transformateur spatial (STN) pour capturer les informations sémantiques partagées et les correspondances entre différents points de vue. De plus, nous utilisons une approche de randomisation et d'augmentation basée sur un curriculum pour stabiliser le processus d'entraînement par renforcement et renforcer la capacité de généralisation visuelle. Pour démontrer l'efficacité de Maniwhere, nous avons soigneusement conçu 8 tâches englobant des objets articulés, des manipulations bi-manuelles et des tâches de manipulation dextre, montrant les fortes capacités de généralisation visuelle et de transfert sim2real de Maniwhere sur 3 plateformes matérielles. Nos expériences montrent que Maniwhere surpasse significativement les méthodes existantes de pointe. Les vidéos sont disponibles à l'adresse https://gemcollector.github.io/maniwhere/.
Différents utilisateurs trouvent désirables différentes images générées pour la même instruction. Cela donne lieu à la génération d'images personnalisées, qui consiste à créer des images alignées sur les préférences visuelles d'un individu. Les modèles génératifs actuels sont cependant impersonnels, car ils sont configurés pour produire des résultats qui plaisent à un large public. Leur utilisation pour générer des images alignées sur les préférences individuelles des utilisateurs repose sur une ingénierie manuelle itérative des instructions par l'utilisateur, ce qui est inefficace et indésirable. Nous proposons de personnaliser le processus de génération d'images en capturant d'abord les préférences génériques de l'utilisateur dans un processus unique, en l'invitant à commenter une petite sélection d'images et à expliquer pourquoi il aime ou n'aime pas chacune d'elles. Sur la base de ces commentaires, nous inférons les attributs visuels structurés appréciés et non appréciés par l'utilisateur, c'est-à-dire ses préférences visuelles, à l'aide d'un modèle de langage de grande taille. Ces attributs sont ensuite utilisés pour guider un modèle de génération de texte à image afin de produire des images adaptées aux préférences visuelles individuelles de l'utilisateur. À travers une série d'études utilisateurs et d'évaluations guidées par un modèle de langage de grande taille, nous démontrons que la méthode proposée permet d'obtenir des générations bien alignées avec les préférences visuelles individuelles des utilisateurs.
Les formats de faible précision tels que le float8 ont été introduits dans les matériels accélérés pour l'apprentissage automatique afin d'améliorer l'efficacité computationnelle lors de l'entraînement et de l'inférence des grands modèles de langage. Cependant, leur adoption par la communauté du ML a été ralentie par les techniques complexes, et parfois fragiles, nécessaires pour atteindre la précision d'entraînement des formats de plus haute précision. Dans ce travail, nous présentons Scalify, un paradigme de propagation d'échelle de bout en bout pour les graphes de calcul, généralisant et formalisant les méthodes existantes de mise à l'échelle des tenseurs. Les résultats expérimentaux montrent que Scalify prend en charge nativement la multiplication matricielle en float8 et la représentation des gradients, ainsi que le stockage des états de l'optimiseur en float16. Notre implémentation de Scalify dans JAX est open-source et disponible à l'adresse suivante : https://github.com/graphcore-research/jax-scalify.
De nombreuses tâches complexes, telles que la gestion des systèmes de transport, des réseaux électriques ou des chaînes d'approvisionnement, impliquent des processus de prise de décision complexes qui doivent équilibrer plusieurs objectifs conflictuels et coordonner les actions de divers décideurs indépendants (DMs). Une perspective pour formaliser et aborder de telles tâches est l'apprentissage par renforcement multi-objectif multi-agent (MOMARL). Le MOMARL étend l'apprentissage par renforcement (RL) à des problèmes impliquant plusieurs agents, chacun devant prendre en compte plusieurs objectifs dans son processus d'apprentissage. Dans la recherche en apprentissage par renforcement, les benchmarks sont essentiels pour faciliter les progrès, l'évaluation et la reproductibilité. L'importance des benchmarks est soulignée par l'existence de nombreux frameworks de benchmarks développés pour divers paradigmes de RL, notamment le RL mono-agent (par exemple, Gymnasium), le RL multi-agent (par exemple, PettingZoo) et le RL mono-agent multi-objectif (par exemple, MO-Gymnasium). Pour soutenir l'avancement du domaine du MOMARL, nous présentons MOMAland, la première collection d'environnements standardisés pour l'apprentissage par renforcement multi-objectif multi-agent. MOMAland répond au besoin de benchmarking complet dans ce domaine émergent, offrant plus de 10 environnements variés qui diffèrent par le nombre d'agents, les représentations d'état, les structures de récompense et les considérations d'utilité. Pour fournir des bases solides pour les recherches futures, MOMAland inclut également des algorithmes capables d'apprendre des politiques dans de tels contextes.
Une augmentation spectaculaire d'images générées par diffusion a marqué ces dernières années, posant des défis uniques aux technologies de détection actuelles. Bien que la tâche d'identification de ces images relève de la classification binaire, une catégorie en apparence simple, la charge computationnelle est significative lorsqu'on utilise la technique de "reconstruction puis comparaison". Cette approche, connue sous le nom de DIRE (Diffusion Reconstruction Error), identifie non seulement les images générées par diffusion, mais détecte également celles produites par les GAN, soulignant l'applicabilité étendue de cette technique. Pour répondre aux défis computationnels et améliorer l'efficacité, nous proposons de distiller les connaissances intégrées dans les modèles de diffusion afin de développer des modèles de détection de deepfakes rapides. Notre approche, visant à créer un détecteur de deepfakes synthétisés par diffusion petit, rapide, économique et léger, maintient des performances robustes tout en réduisant considérablement les exigences opérationnelles. Tout en conservant les performances, nos résultats expérimentaux indiquent une vitesse d'inférence 3,2 fois plus rapide que le cadre DIRE existant. Cette avancée améliore non seulement la praticité du déploiement de ces systèmes dans des environnements réels, mais ouvre également la voie à de futures recherches visant à exploiter les connaissances des modèles de diffusion.
Les industries de la conduite autonome font généralement appel à des artistes professionnels pour créer des modèles 3D de voitures d'une grande finesse. Cependant, la création d'actifs numériques à grande échelle est coûteuse. Étant donné qu'il existe déjà de nombreux ensembles de données contenant un vaste nombre d'images de voitures, nous nous concentrons sur la reconstruction de modèles 3D de haute qualité à partir de ces ensembles de données. Cependant, ces ensembles de données ne contiennent qu'un seul côté des voitures dans des scènes de mouvement vers l'avant. Nous essayons d'utiliser les modèles génératifs existants pour fournir plus d'informations de supervision, mais ils ont du mal à bien généraliser pour les voitures car ils sont entraînés sur des ensembles de données synthétiques non spécifiques aux voitures. De plus, la texture des voitures 3D reconstruites est mal alignée en raison d'une grande erreur dans l'estimation de la pose de la caméra lors du traitement d'images en conditions réelles. Ces limitations rendent difficile la reconstruction de voitures 3D complètes avec les méthodes précédentes. Pour résoudre ces problèmes, nous proposons une nouvelle méthode, nommée DreamCar, qui peut reconstruire des voitures 3D de haute qualité à partir de quelques images, voire d'une seule image. Pour généraliser le modèle génératif, nous avons collecté un ensemble de données de voitures, nommé Car360, contenant plus de 5 600 véhicules. Avec cet ensemble de données, nous rendons le modèle génératif plus robuste pour les voitures. Nous utilisons ce prior génératif spécifique aux voitures pour guider sa reconstruction via l'échantillonnage par distillation de score. Pour compléter davantage les informations de supervision, nous exploitons la symétrie géométrique et d'apparence des voitures. Enfin, nous proposons une méthode d'optimisation de pose qui corrige les poses pour résoudre le problème de malalignement des textures. Des expériences approfondies démontrent que notre méthode surpasse significativement les méthodes existantes dans la reconstruction de voitures 3D de haute qualité. https://xiaobiaodu.github.io/dreamcar-project/{Notre code est disponible.}