Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons EnerVerse, un cadre complet pour la génération d'espaces futurs incarnés spécifiquement conçu pour les tâches de manipulation robotique. EnerVerse intègre de manière transparente des mécanismes d'attention convolutionnels et bidirectionnels pour la modélisation de l'espace inter-chunk, garantissant une cohérence et une continuité au niveau bas. Reconnaissant la redondance inhérente aux données vidéo, nous proposons un contexte de mémoire clairsemée combiné à un paradigme génératif unidirectionnel par morceaux pour permettre la génération de séquences infiniment longues. Pour augmenter davantage les capacités robotiques, nous introduisons l'espace Free Anchor View (FAV), qui offre des perspectives flexibles pour améliorer l'observation et l'analyse. L'espace FAV atténue l'ambiguïté de la modélisation du mouvement, élimine les contraintes physiques dans les environnements confinés et améliore significativement la généralisation et l'adaptabilité du robot à travers diverses tâches et configurations. Pour répondre aux coûts prohibitifs et à l'intensité du travail liés à l'acquisition d'observations multi-caméras, nous présentons un pipeline de moteur de données qui intègre un modèle génératif avec le Splatting Gaussien 4D (4DGS). Ce pipeline tire parti des capacités robustes de généralisation du modèle génératif et des contraintes spatiales fournies par le 4DGS, permettant une amélioration itérative de la qualité et de la diversité des données, créant ainsi un effet d'entraînement des données qui réduit efficacement l'écart entre la simulation et la réalité. Enfin, nos expériences démontrent que la génération d'espaces futurs incarnés améliore considérablement les capacités prédictives des politiques, entraînant une amélioration globale des performances, notamment dans les tâches de manipulation robotique à longue portée.
Les récents Modèles de Langage Multimodaux à Grande Échelle (MLLM) se sont principalement concentrés sur l'intégration des modalités visuelle et textuelle, avec moins d'attention accordée au rôle de la parole dans l'amélioration de l'interaction. Cependant, la parole joue un rôle crucial dans les systèmes de dialogue multimodaux, et la mise en œuvre de performances élevées dans les tâches de vision et de parole reste un défi majeur en raison des différences fondamentales de modalité. Dans cet article, nous proposons une méthodologie d'entraînement en plusieurs étapes soigneusement conçue qui entraîne progressivement le MLLM à comprendre à la fois les informations visuelles et vocales, permettant finalement une interaction fluide entre la vision et la parole. Notre approche non seulement préserve une forte capacité de vision-langage, mais permet également des capacités de dialogue efficaces de parole à parole sans modules ASR et TTS séparés, accélérant significativement la vitesse de réponse multimodale de bout en bout. En comparant notre méthode avec des homologues de pointe sur des référentiels pour les tâches d'image, de vidéo et de parole, nous démontrons que notre modèle est doté de capacités visuelles et vocales solides, permettant une interaction quasi en temps réel entre la vision et la parole.
Récemment, les systèmes de raisonnement à pensée lente, basés sur de grands modèles de langage (LLM), ont suscité une attention généralisée en augmentant le temps de réflexion lors de l'inférence. Il existe également un intérêt croissant pour adapter cette capacité aux modèles de langage multimodaux de grande taille (MLLM). Étant donné que les MLLMs traitent des sémantiques de données plus complexes à travers différentes modalités, il est intuitivement plus difficile de mettre en œuvre des systèmes de pensée lente multimodaux. Pour résoudre ce problème, dans cet article, nous explorons une approche simple en affinant un MLLM performant avec une petite quantité de données textuelles de réflexion à long terme, aboutissant à un système de pensée lente multimodal, Virgo (Raisonnement visuel avec une longue réflexion). Nous constatons que ces processus de raisonnement à long terme, exprimés en langage naturel, peuvent être efficacement transférés aux MLLMs. De plus, il semble que de telles données de raisonnement textuel puissent être encore plus efficaces que les données de raisonnement visuel pour susciter les capacités de pensée lente des MLLMs. Bien que ce travail soit préliminaire, il démontre que les capacités de pensée lente sont fondamentalement associées au composant du modèle de langage, qui peut être transféré entre modalités ou domaines. Cette découverte peut être exploitée pour orienter le développement de systèmes de raisonnement à pensée lente plus puissants. Nous mettons nos ressources à disposition sur https://github.com/RUCAIBox/Virgo.
Les agents sociaux alimentés par de grands modèles de langage (LLMs) peuvent simuler les comportements sociaux humains mais peinent à gérer des dialogues sociaux complexes orientés vers des objectifs. L'Optimisation Directe des Préférences (DPO) s'est avérée efficace pour aligner le comportement des LLM avec les préférences humaines dans diverses tâches d'agent. Les approches existantes basées sur le DPO pour les interactions multi-tours sont divisées en méthodes au niveau du tour et au niveau de la session. La méthode au niveau du tour est trop détaillée, se concentrant exclusivement sur les tours individuels, tandis que les méthodes au niveau de la session sont trop grossières, introduisant souvent du bruit d'entraînement. Pour remédier à ces limitations, nous proposons l'Optimisation Directe des Préférences au Niveau du Segment (SDPO), qui se concentre sur des segments clés spécifiques au sein des interactions pour optimiser le comportement de l'agent multi-tours tout en minimisant le bruit d'entraînement. Les évaluations sur le banc d'essai SOTOPIA montrent que les agents réglés par SDPO surpassent systématiquement à la fois les méthodes existantes basées sur le DPO et les LLM propriétaires comme GPT-4o, soulignant le potentiel du SDPO à faire progresser l'intelligence sociale des agents basés sur les LLM. Nous mettons notre code et nos données à disposition sur https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO.
Nous présentons une stratégie générale pour aligner les modèles de génération visuelle - à la fois d'images et de vidéos - avec les préférences humaines. Pour commencer, nous construisons VisionReward - un modèle de récompense fin et multidimensionnel. Nous décomposons les préférences humaines envers les images et les vidéos en plusieurs dimensions, chacune représentée par une série de questions de jugement, pondérées linéairement et additionnées pour obtenir un score interprétable et précis. Pour relever les défis de l'évaluation de la qualité vidéo, nous analysons systématiquement diverses caractéristiques dynamiques des vidéos, ce qui permet à VisionReward de surpasser VideoScore de 17,2% et d'atteindre les meilleures performances pour la prédiction des préférences vidéo. Sur la base de VisionReward, nous développons un algorithme d'apprentissage de préférences multi-objectif qui traite efficacement le problème des facteurs de confusion dans les données de préférence. Notre approche surpasse significativement les méthodes existantes d'évaluation d'images et de vidéos à la fois en termes de mesures automatiques et d'évaluation humaine. Tout le code et les ensembles de données sont disponibles sur https://github.com/THUDM/VisionReward.
La génération de graphes est une tâche critique dans de nombreux domaines, notamment la conception moléculaire et l'analyse des réseaux sociaux, en raison de sa capacité à modéliser des relations complexes et des données structurées. Alors que la plupart des modèles génératifs de graphes modernes utilisent des représentations de matrices d'adjacence, ce travail revisite une approche alternative qui représente les graphes sous forme de séquences d'ensembles de nœuds et d'ensembles d'arêtes. Nous préconisons cette approche en raison de son encodage efficace des graphes et proposons une nouvelle représentation. Sur la base de cette représentation, nous introduisons le Transformateur Pré-entraîné Générateur de Graphes (G2PT), un modèle auto-régressif qui apprend les structures de graphes via la prédiction du prochain jeton. Pour exploiter davantage les capacités de G2PT en tant que modèle fondamental polyvalent, nous explorons des stratégies de fine-tuning pour deux applications secondaires : la génération orientée vers un but et la prédiction des propriétés des graphes. Nous menons des expériences approfondies sur plusieurs ensembles de données. Les résultats indiquent que G2PT atteint des performances génératives supérieures à la fois sur des ensembles de données de graphes génériques et moléculaires. De plus, G2PT présente une forte adaptabilité et polyvalence dans les tâches secondaires, de la conception moléculaire à la prédiction des propriétés.
Les récents progrès dans les modèles de langage de grande taille (LLMs) basés sur des modèles d'incorporation ont établi de nouveaux benchmarks de pointe pour les tâches d'incorporation de texte, en particulier dans la recherche basée sur des vecteurs denses. Cependant, ces modèles se concentrent principalement sur l'anglais, laissant les capacités d'incorporation multilingues largement inexplorées. Pour remédier à cette limitation, nous présentons LUSIFER, une nouvelle approche de type zero-shot qui adapte les modèles d'incorporation basés sur LLM pour les tâches multilingues sans nécessiter de supervision multilingue. L'architecture de LUSIFER combine un encodeur multilingue, agissant comme un apprenant universel de langues, avec un modèle d'incorporation basé sur LLM optimisé pour des tâches spécifiques d'incorporation. Ces composants sont intégrés de manière transparente à travers un ensemble minimal de paramètres entraînables agissant comme un connecteur, transférant efficacement les capacités de compréhension des langues de l'encodeur multilingue au modèle d'incorporation spécialisé. De plus, pour évaluer de manière exhaustive les performances d'incorporation multilingue, nous introduisons un nouveau benchmark comprenant 5 tâches d'incorporation principales, 123 ensembles de données divers et une couverture dans 14 langues. Des résultats expérimentaux approfondis démontrent que LUSIFER améliore significativement les performances multilingues dans diverses tâches d'incorporation, en particulier pour les langues à ressources moyennes et faibles, sans nécessiter de données d'entraînement multilingues explicites.
Comprendre le monde et l'expliquer avec des théories scientifiques est une aspiration centrale de la recherche en intelligence artificielle. Proposer des théories, concevoir des expériences pour les tester, puis les réviser en fonction des données sont fondamentaux pour la découverte scientifique. Malgré la promesse significative des agents scientifiques basés sur LLM, aucun banc d'essai ne teste systématiquement la capacité du LLM à proposer des modèles scientifiques, collecter des données expérimentales et les réviser à la lumière de nouvelles données. Nous introduisons BoxingGym, un banc d'essai avec 10 environnements pour évaluer systématiquement à la fois la conception expérimentale (par exemple, collecter des données pour tester une théorie scientifique) et la découverte de modèles (par exemple, proposer et réviser des théories scientifiques). Pour permettre une évaluation praticable et quantitative, nous implémentons chaque environnement sous la forme d'un modèle probabiliste génératif avec lequel un agent scientifique peut mener des expériences interactives. Ces modèles probabilistes sont issus de divers domaines scientifiques du monde réel, allant de la psychologie à l'écologie. Pour évaluer quantitativement la capacité d'un agent scientifique à collecter des données expérimentales informatives, nous calculons le gain d'information attendu (EIG), une quantité informationnelle mesurant dans quelle mesure une expérience réduit l'incertitude concernant les paramètres d'un modèle génératif. Une bonne théorie scientifique est une explication concise et prédictive. Par conséquent, pour évaluer quantitativement la découverte de modèles, nous demandons à un agent scientifique d'expliquer son modèle, puis évaluons si cette explication permet à un autre agent scientifique de faire des prédictions fiables sur cet environnement. En plus de cette évaluation basée sur l'explication, nous calculons des métriques d'évaluation de modèles standard telles que les erreurs de prédiction. Nous constatons que les LLM actuels, tels que GPT-4o, rencontrent des difficultés à la fois en conception expérimentale et en découverte de modèles. Nous constatons que le fait de compléter l'agent basé sur LLM avec un modèle statistique explicite n'améliore pas de manière fiable ces résultats.