Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'un des grands défis de l'intelligence artificielle générale est de développer des agents capables de mener des recherches scientifiques et de découvrir de nouvelles connaissances. Bien que les modèles de pointe aient déjà été utilisés comme outils d'assistance pour les scientifiques humains, par exemple pour le brainstorming d'idées, l'écriture de code ou les tâches de prédiction, ils ne réalisent encore qu'une petite partie du processus scientifique. Cet article présente le premier cadre complet pour la découverte scientifique entièrement automatique, permettant aux grands modèles de langage de pointe de mener des recherches de manière indépendante et de communiquer leurs résultats. Nous introduisons L'IA Scientifique, qui génère des idées de recherche novatrices, écrit du code, exécute des expériences, visualise les résultats, décrit ses découvertes en rédigeant un article scientifique complet, puis exécute un processus de revue simulé pour évaluation. En principe, ce processus peut être répété pour développer des idées de manière itérative et ouverte, à l'image de la communauté scientifique humaine. Nous démontrons sa polyvalence en l'appliquant à trois sous-domaines distincts de l'apprentissage automatique : la modélisation par diffusion, la modélisation linguistique basée sur les transformateurs et la dynamique d'apprentissage. Chaque idée est implémentée et développée en un article complet à un coût inférieur à 15 dollars par article. Pour évaluer les articles générés, nous concevons et validons un relecteur automatisé, qui atteint des performances quasi humaines dans l'évaluation des scores des articles. L'IA Scientifique peut produire des articles qui dépassent le seuil d'acceptation d'une conférence de premier plan en apprentissage automatique, selon notre relecteur automatisé. Cette approche marque le début d'une nouvelle ère dans la découverte scientifique en apprentissage automatique : apporter les avantages transformateurs des agents d'IA à l'ensemble du processus de recherche en IA elle-même, et nous rapprocher d'un monde où une créativité et une innovation abordables et sans fin peuvent être déployées sur les problèmes les plus complexes au monde. Notre code est open-source à l'adresse https://github.com/SakanaAI/AI-Scientist.
Cet article présente rStar, une approche de raisonnement mutuel par auto-jeu qui améliore significativement les capacités de raisonnement des petits modèles de langage (SLMs) sans nécessiter de fine-tuning ou de modèles supérieurs. rStar découple le raisonnement en un processus mutuel de génération-discrimination par auto-jeu. Tout d'abord, un SLM cible enrichit la recherche arborescente de Monte Carlo (MCTS) avec un ensemble varié d'actions de raisonnement similaires à celles des humains pour construire des trajectoires de raisonnement de meilleure qualité. Ensuite, un autre SLM, aux capacités similaires au SLM cible, agit comme discriminateur pour vérifier chaque trajectoire générée par le SLM cible. Les trajectoires de raisonnement mutuellement validées sont considérées comme mutuellement cohérentes, et donc plus susceptibles d'être correctes. Des expériences approfondies sur cinq SLMs démontrent que rStar peut résoudre efficacement divers problèmes de raisonnement, notamment GSM8K, GSM-Hard, MATH, SVAMP et StrategyQA. De manière remarquable, rStar améliore la précision sur GSM8K de 12,51 % à 63,91 % pour LLaMA2-7B, de 36,46 % à 81,88 % pour Mistral-7B, et de 74,53 % à 91,13 % pour LLaMA3-8B-Instruct. Le code sera disponible à l'adresse https://github.com/zhentingqi/rStar.
Les modèles de diffusion ont démontré des capacités remarquables et robustes dans la génération d'images et de vidéos. Pour obtenir un meilleur contrôle sur les résultats générés, les chercheurs introduisent des architectures supplémentaires, telles que ControlNet, Adapters et ReferenceNet, afin d'intégrer des contrôles conditionnels. Cependant, les méthodes actuelles de génération contrôlée nécessitent souvent des ressources de calcul supplémentaires substantielles, en particulier pour la génération de vidéos, et rencontrent des difficultés lors de l'entraînement ou présentent un contrôle faible. Dans cet article, nous proposons ControlNeXt : une méthode puissante et efficace pour la génération contrôlée d'images et de vidéos. Nous concevons d'abord une architecture plus simple et plus efficace, remplaçant les branches supplémentaires lourdes par un coût additionnel minimal par rapport au modèle de base. Une structure aussi concise permet également à notre méthode de s'intégrer de manière transparente avec d'autres poids LoRA, permettant une modification de style sans nécessiter d'entraînement supplémentaire. En ce qui concerne l'entraînement, nous réduisons jusqu'à 90 % des paramètres apprenables par rapport aux alternatives. De plus, nous proposons une autre méthode appelée Cross Normalization (CN) en remplacement de la "Zero-Convolution" pour obtenir une convergence rapide et stable lors de l'entraînement. Nous avons mené diverses expériences avec différents modèles de base sur des images et des vidéos, démontrant la robustesse de notre méthode.
Med42-v2 présente une suite de grands modèles de langage (LLM) cliniques conçus pour pallier les limites des modèles génériques dans les contextes de soins de santé. Ces modèles sont construits sur l'architecture Llama3 et affinés à l'aide de données cliniques spécialisées. Ils ont subi un alignement des préférences en plusieurs étapes pour répondre efficacement aux requêtes naturelles. Alors que les modèles génériques sont souvent alignés pour éviter de répondre aux questions cliniques par précaution, Med42-v2 est spécifiquement entraîné pour surmonter cette limitation, permettant son utilisation dans des environnements cliniques. Les modèles Med42-v2 démontrent une performance supérieure par rapport aux modèles Llama3 originaux dans les configurations de 8B et 70B paramètres, ainsi qu'à GPT-4, sur divers benchmarks médicaux. Ces LLM sont développés pour comprendre les requêtes cliniques, effectuer des tâches de raisonnement et fournir une assistance précieuse dans les environnements cliniques. Les modèles sont désormais disponibles publiquement à l'adresse suivante : https://huggingface.co/m42-health{https://huggingface.co/m42-health}.
Nous présentons CogVideoX, un modèle de transformateur à diffusion à grande échelle conçu pour générer des vidéos à partir de descriptions textuelles. Pour modéliser efficacement les données vidéo, nous proposons d'utiliser un autoencodeur variationnel 3D (VAE) pour compresser les vidéos à la fois dans les dimensions spatiales et temporelles. Pour améliorer l'alignement texte-vidéo, nous introduisons un transformateur expert doté d'une couche de normalisation adaptative (LayerNorm) afin de faciliter la fusion profonde entre les deux modalités. En employant une technique d'entraînement progressive, CogVideoX est capable de produire des vidéos cohérentes et de longue durée, caractérisées par des mouvements significatifs. De plus, nous développons un pipeline efficace de traitement des données texte-vidéo, incluant diverses stratégies de prétraitement des données et une méthode de sous-titrage vidéo. Cela contribue significativement à améliorer les performances de CogVideoX, en augmentant à la fois la qualité de génération et l'alignement sémantique. Les résultats montrent que CogVideoX atteint des performances de pointe à la fois sur plusieurs métriques automatiques et dans les évaluations humaines. Les poids des modèles du VAE causal 3D et de CogVideoX sont disponibles publiquement à l'adresse https://github.com/THUDM/CogVideo.
Nous présentons FruitNeRF, un cadre unifié et novateur pour le comptage de fruits qui exploite les méthodes de synthèse de vues les plus avancées pour compter tout type de fruit directement en 3D. Notre cadre prend en entrée un ensemble non ordonné d'images positionnées capturées par une caméra monoculaire et segmente les fruits dans chaque image. Pour rendre notre système indépendant du type de fruit, nous utilisons un modèle de base qui génère des masques de segmentation binaires pour n'importe quel fruit. En combinant les deux modalités, RVB et sémantique, nous entraînons un champ de radiance neuronale sémantique. Grâce à un échantillonnage volumétrique uniforme du champ implicite Fruit Field, nous obtenons des nuages de points exclusivement composés de fruits. En appliquant un clustering en cascade sur le nuage de points extrait, notre approche permet d'obtenir un comptage précis des fruits. L'utilisation des champs de radiance neuronaux offre des avantages significatifs par rapport aux méthodes conventionnelles telles que le suivi d'objets ou le flux optique, car le comptage lui-même est effectué en 3D. Notre méthode évite le double comptage des fruits et ne compte pas les fruits non pertinents. Nous évaluons notre méthodologie à l'aide de jeux de données réels et synthétiques. Le jeu de données réel comprend trois pommiers avec des vérités terrain comptées manuellement, ainsi qu'un jeu de données de référence sur les pommes avec une rangée et des positions de fruits annotées, tandis que le jeu de données synthétique comprend divers types de fruits, notamment des pommes, des prunes, des citrons, des poires, des pêches et des mangues. De plus, nous évaluons les performances du comptage de fruits en utilisant le modèle de base par rapport à un U-Net.
Les modèles multimodaux de grande taille (LMMs) ont inauguré une nouvelle ère dans l'intelligence artificielle, fusionnant les capacités en langage et en vision pour former des agents visuels fondamentaux hautement performants. Ces agents sont supposés exceller dans une myriade de tâches, approchant potentiellement l'intelligence artificielle générale. Cependant, les benchmarks existants ne parviennent pas à suffisamment défier ou mettre en valeur le plein potentiel des LMMs dans des environnements complexes et réels. Pour combler cette lacune, nous introduisons VisualAgentBench (VAB), un benchmark complet et pionnier spécialement conçu pour entraîner et évaluer les LMMs en tant qu'agents visuels fondamentaux dans divers scénarios, incluant l'Embodied, les interfaces graphiques utilisateur, et le design visuel, avec des tâches formulées pour explorer la profondeur de la compréhension et des capacités d'interaction des LMMs. À travers des tests rigoureux sur neuf API propriétaires de LMMs et huit modèles ouverts, nous démontrons les capacités considérables mais encore en développement de ces modèles en tant qu'agents. De plus, VAB construit un ensemble de données d'entraînement de trajectoire élaboré par des méthodes hybrides incluant des solveurs basés sur des programmes, l'amorçage d'agents LMMs, et des démonstrations humaines, favorisant des améliorations substantielles des performances des LMMs grâce au clonage comportemental. Notre travail vise non seulement à évaluer les modèles existants, mais fournit également une base solide pour le développement futur des agents visuels fondamentaux. Le code, les données d'entraînement et de test, ainsi qu'une partie des LMMs ouverts affinés sont disponibles à l'adresse https://github.com/THUDM/VisualAgentBench.
Dans cet article, nous présentons une nouvelle approche de création d'avatars 3D de têtes capable de généraliser à partir de données peu nombreuses et capturées en conditions réelles, tout en offrant une haute fidélité et une robustesse animable. Étant donné la nature sous-contrainte de ce problème, l'intégration de connaissances a priori est essentielle. Par conséquent, nous proposons un cadre comprenant des phases d'apprentissage des connaissances a priori et de création d'avatars. La phase d'apprentissage des connaissances a priori exploite des informations préalables sur les têtes 3D dérivées d'un ensemble de données dynamiques multi-vues à grande échelle, tandis que la phase de création d'avatars applique ces connaissances pour une personnalisation à partir de peu de données. Notre approche capture efficacement ces connaissances a priori en utilisant un réseau auto-décodeur basé sur le Gaussian Splatting avec une modélisation dynamique par parties. Notre méthode emploie un encodage partagé entre les identités avec des codes latents personnalisés pour chaque individu afin d'apprendre les attributs des primitives gaussiennes. Durant la phase de création d'avatars, nous réalisons une personnalisation rapide des avatars de tête en exploitant des stratégies d'inversion et de réglage fin. Des expériences approfondies démontrent que notre modèle exploite efficacement les connaissances a priori sur les têtes et les généralise avec succès à une personnalisation à partir de peu de données, atteignant une qualité de rendu photo-réaliste, une cohérence multi-vues et une animation stable.
Cet article présente UniPortrait, un cadre innovant de personnalisation d'images humaines qui unifie la personnalisation mono-ID et multi-ID avec une haute fidélité faciale, une grande éditabilité des visages, des descriptions d'entrée libres et une génération de mises en page diversifiées. UniPortrait se compose de seulement deux modules plug-and-play : un module d'embedding d'ID et un module de routage d'ID. Le module d'embedding d'ID extrait des caractéristiques faciales éditables polyvalentes grâce à une stratégie de découplage pour chaque ID et les intègre dans l'espace contextuel des modèles de diffusion. Le module de routage d'ID combine ensuite et distribue de manière adaptative ces embeddings dans leurs régions respectives au sein de l'image synthétisée, permettant ainsi la personnalisation d'un ou plusieurs ID. Grâce à un schéma d'apprentissage en deux étapes soigneusement conçu, UniPortrait obtient des performances supérieures dans les personnalisations mono-ID et multi-ID. Des expériences quantitatives et qualitatives démontrent les avantages de notre méthode par rapport aux approches existantes ainsi que sa bonne évolutivité, par exemple, sa compatibilité universelle avec les outils de contrôle génératif existants. La page du projet est disponible à l'adresse suivante : https://aigcdesigngroup.github.io/UniPortrait-Page/.
Ces dernières années, l'architecture de type transformer est devenue la norme de facto pour les algorithmes d'apprentissage automatique appliqués au traitement du langage naturel et à la vision par ordinateur. Malgré des preuves notables de déploiement réussi de cette architecture dans le contexte de l'apprentissage robotique, nous affirmons que les transformers classiques n'exploitent pas pleinement la structure du problème d'apprentissage robotique. Par conséquent, nous proposons le Body Transformer (BoT), une architecture qui tire parti de l'incarnation du robot en fournissant un biais inductif qui guide le processus d'apprentissage. Nous représentons le corps du robot sous forme de graphe de capteurs et d'actionneurs, et nous nous appuyons sur l'attention masquée pour agréger l'information à travers l'architecture. L'architecture résultante surpasse le transformer classique, ainsi que le perceptron multicouche traditionnel, en termes d'accomplissement des tâches, de propriétés d'échelle et d'efficacité computationnelle lors de la représentation de politiques d'apprentissage par imitation ou par renforcement. Du matériel supplémentaire, incluant le code open-source, est disponible à l'adresse https://sferrazza.cc/bot_site.
Malgré leurs récents succès, les grands modèles de langage basés sur les Transformers présentent des modes de défaillance surprenants. Un exemple bien connu de ces défaillances est leur incapacité à généraliser en fonction de la longueur : résoudre des instances de problèmes lors de l'inférence qui sont plus longues que celles rencontrées pendant l'entraînement. Dans ce travail, nous explorons plus en détail la cause profonde de cette défaillance en effectuant une analyse détaillée des comportements du modèle sur la tâche simple de parité. Notre analyse suggère que les échecs de généralisation en fonction de la longueur sont intimement liés à l'incapacité d'un modèle à effectuer des accès mémoire aléatoires dans sa fenêtre de contexte. Nous présentons des preuves à l'appui de cette hypothèse en démontrant l'efficacité des méthodologies qui contournent le besoin d'indexation ou qui permettent un accès aléatoire aux tokens indirectement, via un adressage basé sur le contenu. Nous montrons également où et comment l'échec à effectuer des accès mémoire aléatoires se manifeste à travers des visualisations des cartes d'attention.