papers.title

papers.description

EnerVerse : Envisager un espace futur incarné pour la manipulation robotique
EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

Jan 3

BySiyuan Huang, Liliang Chen, Pengfei Zhou, Shengcong Chen, Zhengkai Jiang, Yue Hu, Peng Gao, Hongsheng Li, Maoqing Yao, Guanghui Ren

Nous présentons EnerVerse, un cadre complet pour la génération d'espaces futurs incarnés spécifiquement conçu pour les tâches de manipulation robotique. EnerVerse intègre de manière transparente des mécanismes d'attention convolutionnels et bidirectionnels pour la modélisation de l'espace inter-chunk, garantissant une cohérence et une continuité au niveau bas. Reconnaissant la redondance inhérente aux données vidéo, nous proposons un contexte de mémoire clairsemée combiné à un paradigme génératif unidirectionnel par morceaux pour permettre la génération de séquences infiniment longues. Pour augmenter davantage les capacités robotiques, nous introduisons l'espace Free Anchor View (FAV), qui offre des perspectives flexibles pour améliorer l'observation et l'analyse. L'espace FAV atténue l'ambiguïté de la modélisation du mouvement, élimine les contraintes physiques dans les environnements confinés et améliore significativement la généralisation et l'adaptabilité du robot à travers diverses tâches et configurations. Pour répondre aux coûts prohibitifs et à l'intensité du travail liés à l'acquisition d'observations multi-caméras, nous présentons un pipeline de moteur de données qui intègre un modèle génératif avec le Splatting Gaussien 4D (4DGS). Ce pipeline tire parti des capacités robustes de généralisation du modèle génératif et des contraintes spatiales fournies par le 4DGS, permettant une amélioration itérative de la qualité et de la diversité des données, créant ainsi un effet d'entraînement des données qui réduit efficacement l'écart entre la simulation et la réalité. Enfin, nos expériences démontrent que la génération d'espaces futurs incarnés améliore considérablement les capacités prédictives des politiques, entraînant une amélioration globale des performances, notamment dans les tâches de manipulation robotique à longue portée.

VITA-1.5 : Vers une interaction en temps réel de niveau GPT-4o entre la vision et la parole
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Jan 3

ByChaoyou Fu, Haojia Lin, Xiong Wang, Yi-Fan Zhang, Yunhang Shen, Xiaoyu Liu, Yangze Li, Zuwei Long, Heting Gao, Ke Li, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He

Les récents Modèles de Langage Multimodaux à Grande Échelle (MLLM) se sont principalement concentrés sur l'intégration des modalités visuelle et textuelle, avec moins d'attention accordée au rôle de la parole dans l'amélioration de l'interaction. Cependant, la parole joue un rôle crucial dans les systèmes de dialogue multimodaux, et la mise en œuvre de performances élevées dans les tâches de vision et de parole reste un défi majeur en raison des différences fondamentales de modalité. Dans cet article, nous proposons une méthodologie d'entraînement en plusieurs étapes soigneusement conçue qui entraîne progressivement le MLLM à comprendre à la fois les informations visuelles et vocales, permettant finalement une interaction fluide entre la vision et la parole. Notre approche non seulement préserve une forte capacité de vision-langage, mais permet également des capacités de dialogue efficaces de parole à parole sans modules ASR et TTS séparés, accélérant significativement la vitesse de réponse multimodale de bout en bout. En comparant notre méthode avec des homologues de pointe sur des référentiels pour les tâches d'image, de vidéo et de parole, nous démontrons que notre modèle est doté de capacités visuelles et vocales solides, permettant une interaction quasi en temps réel entre la vision et la parole.

Virgo : Une exploration préliminaire de la reproduction d'un MLLM similaire à o1
Virgo: A Preliminary Exploration on Reproducing o1-like MLLM

Jan 3

ByYifan Du, Zikang Liu, Yifan Li, Wayne Xin Zhao, Yuqi Huo, Bingning Wang, Weipeng Chen, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen

Récemment, les systèmes de raisonnement à pensée lente, basés sur de grands modèles de langage (LLM), ont suscité une attention généralisée en augmentant le temps de réflexion lors de l'inférence. Il existe également un intérêt croissant pour adapter cette capacité aux modèles de langage multimodaux de grande taille (MLLM). Étant donné que les MLLMs traitent des sémantiques de données plus complexes à travers différentes modalités, il est intuitivement plus difficile de mettre en œuvre des systèmes de pensée lente multimodaux. Pour résoudre ce problème, dans cet article, nous explorons une approche simple en affinant un MLLM performant avec une petite quantité de données textuelles de réflexion à long terme, aboutissant à un système de pensée lente multimodal, Virgo (Raisonnement visuel avec une longue réflexion). Nous constatons que ces processus de raisonnement à long terme, exprimés en langage naturel, peuvent être efficacement transférés aux MLLMs. De plus, il semble que de telles données de raisonnement textuel puissent être encore plus efficaces que les données de raisonnement visuel pour susciter les capacités de pensée lente des MLLMs. Bien que ce travail soit préliminaire, il démontre que les capacités de pensée lente sont fondamentalement associées au composant du modèle de langage, qui peut être transféré entre modalités ou domaines. Cette découverte peut être exploitée pour orienter le développement de systèmes de raisonnement à pensée lente plus puissants. Nous mettons nos ressources à disposition sur https://github.com/RUCAIBox/Virgo.

SDPO : Optimisation des Préférences Directes au Niveau des Segments pour les Agents Sociaux
SDPO: Segment-Level Direct Preference Optimization for Social Agents

Jan 3

ByAobo Kong, Wentao Ma, Shiwan Zhao, Yongbin Li, Yuchuan Wu, Ke Wang, Xiaoqian Liu, Qicheng Li, Yong Qin, Fei Huang

Les agents sociaux alimentés par de grands modèles de langage (LLMs) peuvent simuler les comportements sociaux humains mais peinent à gérer des dialogues sociaux complexes orientés vers des objectifs. L'Optimisation Directe des Préférences (DPO) s'est avérée efficace pour aligner le comportement des LLM avec les préférences humaines dans diverses tâches d'agent. Les approches existantes basées sur le DPO pour les interactions multi-tours sont divisées en méthodes au niveau du tour et au niveau de la session. La méthode au niveau du tour est trop détaillée, se concentrant exclusivement sur les tours individuels, tandis que les méthodes au niveau de la session sont trop grossières, introduisant souvent du bruit d'entraînement. Pour remédier à ces limitations, nous proposons l'Optimisation Directe des Préférences au Niveau du Segment (SDPO), qui se concentre sur des segments clés spécifiques au sein des interactions pour optimiser le comportement de l'agent multi-tours tout en minimisant le bruit d'entraînement. Les évaluations sur le banc d'essai SOTOPIA montrent que les agents réglés par SDPO surpassent systématiquement à la fois les méthodes existantes basées sur le DPO et les LLM propriétaires comme GPT-4o, soulignant le potentiel du SDPO à faire progresser l'intelligence sociale des agents basés sur les LLM. Nous mettons notre code et nos données à disposition sur https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO.

Transformateur Pré-entraîné Générateur de Graphiques
Graph Generative Pre-trained Transformer

Jan 2

ByXiaohui Chen, Yinkai Wang, Jiaxing He, Yuanqi Du, Soha Hassoun, Xiaolin Xu, Li-Ping Liu

La génération de graphes est une tâche critique dans de nombreux domaines, notamment la conception moléculaire et l'analyse des réseaux sociaux, en raison de sa capacité à modéliser des relations complexes et des données structurées. Alors que la plupart des modèles génératifs de graphes modernes utilisent des représentations de matrices d'adjacence, ce travail revisite une approche alternative qui représente les graphes sous forme de séquences d'ensembles de nœuds et d'ensembles d'arêtes. Nous préconisons cette approche en raison de son encodage efficace des graphes et proposons une nouvelle représentation. Sur la base de cette représentation, nous introduisons le Transformateur Pré-entraîné Générateur de Graphes (G2PT), un modèle auto-régressif qui apprend les structures de graphes via la prédiction du prochain jeton. Pour exploiter davantage les capacités de G2PT en tant que modèle fondamental polyvalent, nous explorons des stratégies de fine-tuning pour deux applications secondaires : la génération orientée vers un but et la prédiction des propriétés des graphes. Nous menons des expériences approfondies sur plusieurs ensembles de données. Les résultats indiquent que G2PT atteint des performances génératives supérieures à la fois sur des ensembles de données de graphes génériques et moléculaires. De plus, G2PT présente une forte adaptabilité et polyvalence dans les tâches secondaires, de la conception moléculaire à la prédiction des propriétés.

VisionReward : Apprentissage des préférences humaines multi-dimensionnelles à grain fin pour la génération d'images et de vidéos
VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

Dec 30

ByJiazheng Xu, Yu Huang, Jiale Cheng, Yuanming Yang, Jiajun Xu, Yuan Wang, Wenbo Duan, Shen Yang, Qunlin Jin, Shurun Li, Jiayan Teng, Zhuoyi Yang, Wendi Zheng, Xiao Liu, Ming Ding, Xiaohan Zhang, Xiaotao Gu, Shiyu Huang, Minlie Huang, Jie Tang, Yuxiao Dong

Nous présentons une stratégie générale pour aligner les modèles de génération visuelle - à la fois d'images et de vidéos - avec les préférences humaines. Pour commencer, nous construisons VisionReward - un modèle de récompense fin et multidimensionnel. Nous décomposons les préférences humaines envers les images et les vidéos en plusieurs dimensions, chacune représentée par une série de questions de jugement, pondérées linéairement et additionnées pour obtenir un score interprétable et précis. Pour relever les défis de l'évaluation de la qualité vidéo, nous analysons systématiquement diverses caractéristiques dynamiques des vidéos, ce qui permet à VisionReward de surpasser VideoScore de 17,2% et d'atteindre les meilleures performances pour la prédiction des préférences vidéo. Sur la base de VisionReward, nous développons un algorithme d'apprentissage de préférences multi-objectif qui traite efficacement le problème des facteurs de confusion dans les données de préférence. Notre approche surpasse significativement les méthodes existantes d'évaluation d'images et de vidéos à la fois en termes de mesures automatiques et d'évaluation humaine. Tout le code et les ensembles de données sont disponibles sur https://github.com/THUDM/VisionReward.

LUSIFER : Intégration de l'Espace Universel de Langue pour des Incrustations Multilingues Améliorées avec de Grands Modèles de Langue
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

Jan 1

ByHieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen

Les récents progrès dans les modèles de langage de grande taille (LLMs) basés sur des modèles d'incorporation ont établi de nouveaux benchmarks de pointe pour les tâches d'incorporation de texte, en particulier dans la recherche basée sur des vecteurs denses. Cependant, ces modèles se concentrent principalement sur l'anglais, laissant les capacités d'incorporation multilingues largement inexplorées. Pour remédier à cette limitation, nous présentons LUSIFER, une nouvelle approche de type zero-shot qui adapte les modèles d'incorporation basés sur LLM pour les tâches multilingues sans nécessiter de supervision multilingue. L'architecture de LUSIFER combine un encodeur multilingue, agissant comme un apprenant universel de langues, avec un modèle d'incorporation basé sur LLM optimisé pour des tâches spécifiques d'incorporation. Ces composants sont intégrés de manière transparente à travers un ensemble minimal de paramètres entraînables agissant comme un connecteur, transférant efficacement les capacités de compréhension des langues de l'encodeur multilingue au modèle d'incorporation spécialisé. De plus, pour évaluer de manière exhaustive les performances d'incorporation multilingue, nous introduisons un nouveau benchmark comprenant 5 tâches d'incorporation principales, 123 ensembles de données divers et une couverture dans 14 langues. Des résultats expérimentaux approfondis démontrent que LUSIFER améliore significativement les performances multilingues dans diverses tâches d'incorporation, en particulier pour les langues à ressources moyennes et faibles, sans nécessiter de données d'entraînement multilingues explicites.

BoxingGym : Évaluation des progrès dans la conception expérimentale automatisée et la découverte de modèles
BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

Jan 2

ByKanishk Gandhi, Michael Y. Li, Lyle Goodyear, Louise Li, Aditi Bhaskar, Mohammed Zaman, Noah D. Goodman

Comprendre le monde et l'expliquer avec des théories scientifiques est une aspiration centrale de la recherche en intelligence artificielle. Proposer des théories, concevoir des expériences pour les tester, puis les réviser en fonction des données sont fondamentaux pour la découverte scientifique. Malgré la promesse significative des agents scientifiques basés sur LLM, aucun banc d'essai ne teste systématiquement la capacité du LLM à proposer des modèles scientifiques, collecter des données expérimentales et les réviser à la lumière de nouvelles données. Nous introduisons BoxingGym, un banc d'essai avec 10 environnements pour évaluer systématiquement à la fois la conception expérimentale (par exemple, collecter des données pour tester une théorie scientifique) et la découverte de modèles (par exemple, proposer et réviser des théories scientifiques). Pour permettre une évaluation praticable et quantitative, nous implémentons chaque environnement sous la forme d'un modèle probabiliste génératif avec lequel un agent scientifique peut mener des expériences interactives. Ces modèles probabilistes sont issus de divers domaines scientifiques du monde réel, allant de la psychologie à l'écologie. Pour évaluer quantitativement la capacité d'un agent scientifique à collecter des données expérimentales informatives, nous calculons le gain d'information attendu (EIG), une quantité informationnelle mesurant dans quelle mesure une expérience réduit l'incertitude concernant les paramètres d'un modèle génératif. Une bonne théorie scientifique est une explication concise et prédictive. Par conséquent, pour évaluer quantitativement la découverte de modèles, nous demandons à un agent scientifique d'expliquer son modèle, puis évaluons si cette explication permet à un autre agent scientifique de faire des prédictions fiables sur cet environnement. En plus de cette évaluation basée sur l'explication, nous calculons des métriques d'évaluation de modèles standard telles que les erreurs de prédiction. Nous constatons que les LLM actuels, tels que GPT-4o, rencontrent des difficultés à la fois en conception expérimentale et en découverte de modèles. Nous constatons que le fait de compléter l'agent basé sur LLM avec un modèle statistique explicite n'améliore pas de manière fiable ces résultats.

papers.title

papers.description

EnerVerse : Envisager un espace futur incarné pour la manipulation robotique
EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

Jan 3

BySiyuan Huang, Liliang Chen, Pengfei Zhou, Shengcong Chen, Zhengkai Jiang, Yue Hu, Peng Gao, Hongsheng Li, Maoqing Yao, Guanghui Ren

VITA-1.5 : Vers une interaction en temps réel de niveau GPT-4o entre la vision et la parole
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Jan 3

ByChaoyou Fu, Haojia Lin, Xiong Wang, Yi-Fan Zhang, Yunhang Shen, Xiaoyu Liu, Yangze Li, Zuwei Long, Heting Gao, Ke Li, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He

Virgo : Une exploration préliminaire de la reproduction d'un MLLM similaire à o1
Virgo: A Preliminary Exploration on Reproducing o1-like MLLM

Jan 3

ByYifan Du, Zikang Liu, Yifan Li, Wayne Xin Zhao, Yuqi Huo, Bingning Wang, Weipeng Chen, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen

SDPO : Optimisation des Préférences Directes au Niveau des Segments pour les Agents Sociaux
SDPO: Segment-Level Direct Preference Optimization for Social Agents

Jan 3

ByAobo Kong, Wentao Ma, Shiwan Zhao, Yongbin Li, Yuchuan Wu, Ke Wang, Xiaoqian Liu, Qicheng Li, Yong Qin, Fei Huang

Transformateur Pré-entraîné Générateur de Graphiques
Graph Generative Pre-trained Transformer

Jan 2

ByXiaohui Chen, Yinkai Wang, Jiaxing He, Yuanqi Du, Soha Hassoun, Xiaolin Xu, Li-Ping Liu

VisionReward : Apprentissage des préférences humaines multi-dimensionnelles à grain fin pour la génération d'images et de vidéos
VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

Dec 30

LUSIFER : Intégration de l'Espace Universel de Langue pour des Incrustations Multilingues Améliorées avec de Grands Modèles de Langue
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

Jan 1

ByHieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen

BoxingGym : Évaluation des progrès dans la conception expérimentale automatisée et la découverte de modèles
BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

Jan 2

ByKanishk Gandhi, Michael Y. Li, Lyle Goodyear, Louise Li, Aditi Bhaskar, Mohammed Zaman, Noah D. Goodman