papers.title

papers.description

Film Gen : Un Casting de Modèles de Fondation de Médias
Movie Gen: A Cast of Media Foundation Models

Oct 17

ByAdam Polyak, Amit Zohar, Andrew Brown, Andros Tjandra, Animesh Sinha, Ann Lee, Apoorv Vyas, Bowen Shi, Chih-Yao Ma, Ching-Yao Chuang, David Yan, Dhruv Choudhary, Dingkang Wang, Geet Sethi, Guan Pang, Haoyu Ma, Ishan Misra, Ji Hou, Jialiang Wang, Kiran Jagadeesh, Kunpeng Li, Luxin Zhang, Mannat Singh, Mary Williamson, Matt Le, Matthew Yu, Mitesh Kumar Singh, Peizhao Zhang, Peter Vajda, Quentin Duval, Rohit Girdhar, Roshan Sumbaly, Sai Saketh Rambhatla, Sam Tsai, Samaneh Azadi, Samyak Datta, Sanyuan Chen, Sean Bell, Sharadh Ramaswamy, Shelly Sheynin, Siddharth Bhattacharya, Simran Motwani, Tao Xu, Tianhe Li, Tingbo Hou, Wei-Ning Hsu, Xi Yin, Xiaoliang Dai, Yaniv Taigman, Yaqiao Luo, Yen-Cheng Liu, Yi-Chiao Wu, Yue Zhao, Yuval Kirstain, Zecheng He, Zijian He, Albert Pumarola, Ali Thabet, Artsiom Sanakoyeu, Arun Mallya, Baishan Guo, Boris Araya, Breena Kerr, Carleigh Wood, Ce Liu, Cen Peng, Dimitry Vengertsev, Edgar Schonfeld, Elliot Blanchard, Felix Juefei-Xu, Fraylie Nord, Jeff Liang, John Hoffman, Jonas Kohler, Kaolin Fire, Karthik Sivakumar, Lawrence Chen, Licheng Yu, Luya Gao, Markos Georgopoulos, Rashel Moritz, Sara K. Sampson, Shikai Li, Simone Parmeggiani, Steve Fine, Tara Fowler, Vladan Petrovic, Yuming Du

100

Nous présentons Movie Gen, un ensemble de modèles de base qui génère des vidéos haute qualité en 1080p avec différents ratios d'aspect et une audio synchronisée. Nous montrons également des capacités supplémentaires telles que le montage vidéo précis basé sur des instructions et la génération de vidéos personnalisées basées sur l'image d'un utilisateur. Nos modèles établissent un nouvel état de l'art sur plusieurs tâches : synthèse texte-vidéo, personnalisation vidéo, montage vidéo, génération vidéo-audio et génération texte-audio. Notre plus grand modèle de génération vidéo est un transformateur de 30 milliards de paramètres entraîné avec une longueur de contexte maximale de 73 000 jetons vidéo, correspondant à une vidéo générée de 16 secondes à 16 images par seconde. Nous présentons plusieurs innovations techniques et simplifications sur l'architecture, les espaces latents, les objectifs et recettes d'entraînement, la curation des données, les protocoles d'évaluation, les techniques de parallélisation et les optimisations de l'inférence qui nous permettent de tirer parti de la mise à l'échelle des données de pré-entraînement, de la taille du modèle et de la puissance de calcul d'entraînement pour former des modèles de génération de médias à grande échelle. Nous espérons que cet article aidera la communauté de recherche à accélérer les progrès et l'innovation dans les modèles de génération de médias. Toutes les vidéos de cet article sont disponibles sur https://go.fb.me/MovieGenResearchVideos.

MixEval-X : Évaluations de tout type à tout type à partir de mélanges de données du monde réel
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

Oct 17

ByJinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh

Percevoir et générer diverses modalités sont cruciaux pour les modèles d'IA afin d'apprendre efficacement à partir de signaux du monde réel et d'interagir avec eux, nécessitant des évaluations fiables pour leur développement. Nous identifions deux problèmes majeurs dans les évaluations actuelles : (1) des normes incohérentes, façonnées par différentes communautés avec des protocoles et des niveaux de maturité variables ; et (2) des biais significatifs en termes de requêtes, de notation et de généralisation. Pour y remédier, nous introduisons MixEval-X, le premier banc d'essai du monde réel de tout type à tout type conçu pour optimiser et standardiser les évaluations à travers les modalités d'entrée et de sortie. Nous proposons des mélanges de bancs d'essai multimodaux et des pipelines d'adaptation-rectification pour reconstruire les distributions de tâches du monde réel, garantissant que les évaluations se généralisent efficacement aux cas d'utilisation réels. Des méta-évaluations approfondies montrent que notre approche aligne efficacement les échantillons de bancs d'essai avec les distributions de tâches du monde réel et que le classement des modèles est fortement corrélé avec celui des évaluations du monde réel crowdsourcées (jusqu'à 0,98). Nous fournissons des tableaux de classement complets pour reclasser les modèles et organisations existants et offrons des perspectives pour améliorer la compréhension des évaluations multimodales et orienter les recherches futures.

JudgeBench : Un banc d'essai pour évaluer les juges basés sur les LLM
JudgeBench: A Benchmark for Evaluating LLM-based Judges

Oct 16

BySijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica

Les juges basés sur les LLM ont émergé comme une alternative évolutive à l'évaluation humaine et sont de plus en plus utilisés pour évaluer, comparer et améliorer les modèles. Cependant, la fiabilité des juges basés sur les LLM eux-mêmes est rarement examinée. À mesure que les LLM deviennent plus avancés, leurs réponses deviennent plus sophistiquées, nécessitant des juges plus solides pour les évaluer. Les benchmarks existants se concentrent principalement sur l'alignement d'un juge avec les préférences humaines, mais échouent souvent à prendre en compte des tâches plus complexes où la préférence humaine obtenue par crowdsourcing est un mauvais indicateur de la véracité et de la logique. Pour remédier à cela, nous proposons un nouveau cadre d'évaluation pour évaluer de manière objective les juges basés sur les LLM. Sur la base de ce cadre, nous proposons JudgeBench, un benchmark pour évaluer les juges basés sur les LLM sur des paires de réponses complexes couvrant les domaines de la connaissance, du raisonnement, des mathématiques et du codage. JudgeBench exploite un pipeline novateur pour convertir des ensembles de données difficiles existants en paires de réponses complexes avec des étiquettes de préférence reflétant la véracité objective. Notre évaluation complète sur une collection de juges sollicités, de juges affinés, de juges multi-agents et de modèles de récompense montre que JudgeBench pose un défi beaucoup plus important que les benchmarks précédents, de nombreux modèles performants (par exemple, GPT-4o) obtenant à peine de meilleurs résultats qu'une supposition aléatoire. Dans l'ensemble, JudgeBench offre une plateforme fiable pour évaluer des juges basés sur les LLM de plus en plus avancés. Les données et le code sont disponibles sur https://github.com/ScalerLab/JudgeBench.

Fluide : Mise à l'échelle des modèles génératifs texte-image autorégressifs avec des jetons continus
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens

Oct 17

ByLijie Fan, Tianhong Li, Siyang Qin, Yuanzhen Li, Chen Sun, Michael Rubinstein, Deqing Sun, Kaiming He, Yonglong Tian

Le passage à l'échelle des modèles autorégressifs en vision n'a pas été aussi bénéfique que dans les grands modèles de langage. Dans ce travail, nous examinons ce problème d'échelle dans le contexte de la génération texte-image, en nous concentrant sur deux facteurs critiques : si les modèles utilisent des jetons discrets ou continus, et si les jetons sont générés dans un ordre de trame aléatoire ou fixe en utilisant des architectures de transformer de type BERT ou GPT. Nos résultats empiriques montrent que, bien que tous les modèles évoluent efficacement en termes de perte de validation, leurs performances d'évaluation - mesurées par FID, le score GenEval et la qualité visuelle - suivent des tendances différentes. Les modèles basés sur des jetons continus obtiennent une qualité visuelle nettement meilleure que ceux utilisant des jetons discrets. De plus, l'ordre de génération et les mécanismes d'attention affectent significativement le score GenEval : les modèles à ordre aléatoire obtiennent des scores GenEval nettement meilleurs par rapport aux modèles à ordre de trame. Inspirés par ces découvertes, nous entraînons Fluid, un modèle autorégressif à ordre aléatoire sur des jetons continus. Le modèle Fluid 10.5B atteint un nouveau FID de pointe en zéro-shot de 6.16 sur MS-COCO 30K, et un score global de 0.69 sur le banc d'essai GenEval. Nous espérons que nos découvertes et résultats encourageront les efforts futurs pour combler davantage l'écart d'échelle entre les modèles de vision et de langage.

Janus : Découplage de l'encodage visuel pour une compréhension et une génération multimodales unifiées
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Oct 17

ByChengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo

Dans cet article, nous présentons Janus, un cadre autorégressif qui unifie la compréhension et la génération multimodales. Les recherches antérieures reposent souvent sur un seul encodeur visuel pour les deux tâches, tel que Chameleon. Cependant, en raison des niveaux différents de granularité de l'information requis par la compréhension et la génération multimodales, cette approche peut entraîner des performances sous-optimales, en particulier dans la compréhension multimodale. Pour résoudre ce problème, nous avons dissocié l'encodage visuel en voies distinctes, tout en exploitant une architecture de transformateur unifiée pour le traitement. La dissociation non seulement résout le conflit entre les rôles de l'encodeur visuel dans la compréhension et la génération, mais renforce également la flexibilité du cadre. Par exemple, les composants de compréhension et de génération multimodales peuvent sélectionner indépendamment leurs méthodes d'encodage les plus adaptées. Les expériences montrent que Janus surpasse le modèle unifié précédent et égale ou dépasse les performances des modèles spécifiques à la tâche. La simplicité, la grande flexibilité et l'efficacité de Janus en font un candidat solide pour les modèles multimodaux unifiés de nouvelle génération.

Feuille de route vers une compréhension de la parole superhumaine en utilisant de grands modèles de langage.
Roadmap towards Superhuman Speech Understanding using Large Language Models

Oct 17

ByFan Bu, Yuhao Zhang, Xidong Wang, Benyou Wang, Qun Liu, Haizhou Li

Le succès des grands modèles de langage (GML) a incité à des efforts pour intégrer les données vocales et audio, dans le but de créer des modèles fondamentaux généraux capables de traiter à la fois des entrées textuelles et non textuelles. Les récentes avancées, telles que GPT-4o, mettent en lumière le potentiel des GML de parole de bout en bout, qui préservent les informations non sémantiques et les connaissances du monde pour une compréhension plus approfondie de la parole. Pour guider le développement des GML de parole, nous proposons une feuille de route en cinq niveaux, allant de la reconnaissance automatique de la parole (ASR) de base à des modèles surhumains avancés capables d'intégrer des informations non sémantiques avec des connaissances acoustiques abstraites pour des tâches complexes. De plus, nous concevons un banc d'essai, le Banc d'essai SAGI, qui normalise les aspects critiques à travers diverses tâches à ces cinq niveaux, mettant en lumière les défis liés à l'utilisation de connaissances acoustiques abstraites et à la complétude des capacités. Nos résultats révèlent des lacunes dans la gestion des indices paralinguistiques et des connaissances acoustiques abstraites, et nous proposons des orientations futures. Cet article décrit une feuille de route pour faire progresser les GML de parole, présente un banc d'essai pour l'évaluation, et offre des aperçus clés sur leurs limitations actuelles et leur potentiel.

MobA : Un système d'agent à deux niveaux pour une automatisation efficace des tâches mobiles
MobA: A Two-Level Agent System for Efficient Mobile Task Automation

Oct 17

ByZichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu

Les assistants mobiles actuels sont limités par leur dépendance aux API système ou ont du mal avec des instructions utilisateur complexes et des interfaces diverses en raison de capacités de compréhension et de prise de décision restreintes. Pour relever ces défis, nous proposons MobA, un nouvel Agent de téléphone mobile alimenté par des modèles de langage multimodaux de grande taille qui améliore les capacités de compréhension et de planification grâce à une architecture d'agent à deux niveaux sophistiquée. L'Agent Global de haut niveau (GA) est responsable de la compréhension des commandes utilisateur, du suivi des mémoires historiques et de la planification des tâches. L'Agent Local de bas niveau (LA) prédit des actions détaillées sous forme d'appels de fonctions, guidé par des sous-tâches et des mémoires du GA. L'intégration d'un Module de Réflexion permet une réalisation efficace des tâches et permet au système de gérer des tâches complexes jamais rencontrées auparavant. MobA démontre des améliorations significatives en termes d'efficacité d'exécution des tâches et de taux de réalisation dans des évaluations en conditions réelles, soulignant le potentiel des assistants mobiles alimentés par MLLM.

WorldCuisines : un banc d'essai à grande échelle pour la Question-Réponse Visuelle Multilingue et Multiculturelle sur les Cuisines du Monde
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines

Oct 16

ByGenta Indra Winata, Frederikus Hudi, Patrick Amadeus Irawan, David Anugraha, Rifki Afina Putri, Yutong Wang, Adam Nohejl, Ubaidillah Ariq Prathama, Nedjma Ousidhoum, Afifa Amriani, Anar Rzayev, Anirban Das, Ashmari Pramodya, Aulia Adila, Bryan Wilie, Candy Olivia Mawalim, Ching Lam Cheng, Daud Abolade, Emmanuele Chersoni, Enrico Santus, Fariz Ikhwantri, Garry Kuwanto, Hanyang Zhao, Haryo Akbarianto Wibowo, Holy Lovenia, Jan Christian Blaise Cruz, Jan Wira Gotama Putra, Junho Myung, Lucky Susanto, Maria Angelica Riera Machin, Marina Zhukova, Michael Anugraha, Muhammad Farid Adilazuarda, Natasha Santosa, Peerat Limkonchotiwat, Raj Dabre, Rio Alexander Audino, Samuel Cahyawijaya, Shi-Xiong Zhang, Stephanie Yulia Salim, Yi Zhou, Yinxuan Gui, David Ifeoluwa Adelani, En-Shiun Annie Lee, Shogo Okada, Ayu Purwarianti, Alham Fikri Aji, Taro Watanabe, Derry Tanti Wijaya, Alice Oh, Chong-Wah Ngo

Les Modèles de Langage Visuel (VLM), ont souvent du mal avec les connaissances spécifiques à une culture, en particulier dans des langues autres que l'anglais et dans des contextes culturels sous-représentés. Pour évaluer leur compréhension de telles connaissances, nous introduisons WorldCuisines, un banc d'essai à grande échelle pour la compréhension multilingue et multiculturelle, basée sur des images. Ce banc d'essai comprend un ensemble de données de questions-réponses visuelles (VQA) avec des paires texte-image dans 30 langues et dialectes, couvrant 9 familles de langues et comprenant plus d'un million de points de données, ce qui en fait le plus grand banc d'essai VQA multiculturel à ce jour. Il inclut des tâches pour identifier les noms de plats et leurs origines. Nous fournissons des ensembles de données d'évaluation de deux tailles (12 000 et 60 000 instances) ainsi qu'un ensemble de données d'entraînement (1 million d'instances). Nos résultats montrent que bien que les VLM performant mieux avec le bon contexte de localisation, ils ont du mal avec les contextes adverses et à prédire des cuisines et langues régionales spécifiques. Pour soutenir la recherche future, nous mettons à disposition une base de connaissances avec des entrées alimentaires annotées et des images, ainsi que les données VQA.

Exploiter les interfaces utilisateur de pages Web pour la compréhension visuelle riche en texte
Harnessing Webpage UIs for Text-Rich Visual Understanding

Oct 17

ByJunpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue

La compréhension visuelle riche en texte - la capacité de traiter des environnements où un contenu textuel dense est intégré à des éléments visuels - est cruciale pour les grands modèles de langage multimodaux (MLLM) afin d'interagir efficacement avec des environnements structurés. Pour améliorer cette capacité, nous proposons de synthétiser des instructions multimodales générales à partir des interfaces utilisateur de pages web en utilisant des grands modèles de langage basés sur du texte (LLMs). Malgré l'absence d'entrée visuelle directe, les LLMs basés sur du texte sont capables de traiter des représentations textuelles structurées à partir des arbres d'accessibilité des pages web. Ces instructions sont ensuite associées à des captures d'écran d'interfaces utilisateur pour entraîner des modèles multimodaux. Nous présentons MultiUI, un ensemble de données contenant 7,3 millions d'échantillons provenant de 1 million de sites web, couvrant diverses tâches multimodales et mises en page d'interfaces utilisateur. Les modèles entraînés sur MultiUI excellent non seulement dans les tâches d'interfaces utilisateur web - atteignant jusqu'à une amélioration de 48\% sur VisualWebBench et un gain de précision de 19,1\% sur un ensemble de données d'agent web Mind2Web - mais généralisent également de manière surprenante aux tâches d'interfaces utilisateur non web et même à des domaines non liés aux interfaces utilisateur, tels que la compréhension de documents, la ROC, et l'interprétation de graphiques. Ces résultats mettent en évidence la large applicabilité des données d'interfaces utilisateur web pour faire progresser la compréhension visuelle riche en texte dans divers scénarios.

DreamVideo-2 : Personnalisation vidéo guidée par sujet sans entraînement avec contrôle précis du mouvement
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control

Oct 17

ByYujie Wei, Shiwei Zhang, Hangjie Yuan, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Feng Liu, Zhizhong Huang, Jiaxin Ye, Yingya Zhang, Hongming Shan

Les récents progrès dans la génération de vidéos personnalisées ont permis aux utilisateurs de créer des vidéos adaptées à des sujets spécifiques et à des trajectoires de mouvement. Cependant, les méthodes existantes nécessitent souvent un réglage fin compliqué au moment du test et ont du mal à équilibrer l'apprentissage du sujet et le contrôle du mouvement, limitant ainsi leurs applications dans le monde réel. Dans cet article, nous présentons DreamVideo-2, un cadre de personnalisation de vidéos sans ajustement au moment du test capable de générer des vidéos avec un sujet spécifique et une trajectoire de mouvement, guidé par une seule image et une séquence de boîtes englobantes, respectivement, et sans nécessiter de réglage fin au moment du test. Plus précisément, nous introduisons l'attention de référence, qui exploite les capacités inhérentes du modèle pour l'apprentissage du sujet, et concevons un module de mouvement guidé par un masque pour obtenir un contrôle précis du mouvement en utilisant pleinement le signal de mouvement robuste des masques de boîtes dérivés des boîtes englobantes. Alors que ces deux composants remplissent leurs fonctions prévues, nous observons empiriquement que le contrôle du mouvement a tendance à dominer l'apprentissage du sujet. Pour remédier à cela, nous proposons deux conceptions clés : 1) l'attention de référence masquée, qui intègre un schéma de modélisation de masque latent mélangé dans l'attention de référence pour améliorer les représentations du sujet aux positions souhaitées, et 2) une perte de diffusion repondérée, qui différencie les contributions des régions à l'intérieur et à l'extérieur des boîtes englobantes pour assurer un équilibre entre le sujet et le contrôle du mouvement. Des résultats expérimentaux approfondis sur un ensemble de données nouvellement créé démontrent que DreamVideo-2 surpasse les méthodes de pointe à la fois en termes de personnalisation du sujet et de contrôle du mouvement. L'ensemble de données, le code et les modèles seront rendus publics.

MMed-RAG : Système RAG Multimodal Polyvalent pour les Modèles de Vision Langage Médicale
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models

Oct 16

ByPeng Xia, Kangyu Zhu, Haoran Li, Tianze Wang, Weijia Shi, Sheng Wang, Linjun Zhang, James Zou, Huaxiu Yao

L'intelligence artificielle (IA) a démontré un potentiel significatif dans le domaine de la santé, en particulier dans le diagnostic des maladies et la planification des traitements. Les récents progrès des Modèles Médicaux à Grande Echelle Vision-Langage (Med-LVLMs) ont ouvert de nouvelles possibilités pour des outils de diagnostic interactifs. Cependant, ces modèles souffrent souvent d'hallucinations factuelles, pouvant entraîner des diagnostics incorrects. Le fine-tuning et la génération augmentée par récupération (RAG) ont émergé comme des méthodes pour résoudre ces problèmes. Cependant, la quantité de données de haute qualité et les écarts de distribution entre les données d'entraînement et les données de déploiement limitent l'application des méthodes de fine-tuning. Bien que RAG soit léger et efficace, les approches existantes basées sur RAG ne sont pas suffisamment générales pour différents domaines médicaux et peuvent potentiellement causer des problèmes de désalignement, à la fois entre les modalités et entre le modèle et la vérité terrain. Dans cet article, nous proposons un système RAG multimodal polyvalent, MMed-RAG, conçu pour améliorer la factualité des Med-LVLMs. Notre approche introduit un mécanisme de récupération conscient du domaine, une méthode adaptative de sélection des contextes récupérés, et une stratégie de fine-tuning préalable basée sur RAG prouvable. Ces innovations rendent le processus RAG suffisamment général et fiable, améliorant significativement l'alignement lors de l'introduction des contextes récupérés. Les résultats expérimentaux sur cinq ensembles de données médicales (radiologie, ophtalmologie, pathologie) concernant la VQA médicale et la génération de rapports montrent que MMed-RAG peut obtenir une amélioration moyenne de 43,8% de l'exactitude factuelle des Med-LVLMs. Nos données et notre code sont disponibles sur https://github.com/richard-peng-xia/MMed-RAG.

MoH : Attention Multi-Tête en tant qu'Attention Mélange-de-Têtes
MoH: Multi-Head Attention as Mixture-of-Head Attention

Oct 15

ByPeng Jin, Bo Zhu, Li Yuan, Shuicheng Yan

Dans ce travail, nous améliorons le mécanisme d'attention multi-têtes, au cœur du modèle Transformer, afin d'améliorer l'efficacité tout en maintenant ou dépassant le niveau de précision précédent. Nous montrons que l'attention multi-têtes peut être exprimée sous forme de sommation. En nous appuyant sur l'idée que toutes les têtes d'attention ne sont pas également significatives, nous proposons l'attention Mélange-de-Têtes (MoH), une nouvelle architecture qui considère les têtes d'attention comme des experts dans le mécanisme de Mélange-d'Experts (MoE). MoH présente deux avantages significatifs : Premièrement, MoH permet à chaque jeton de sélectionner les têtes d'attention appropriées, améliorant l'efficacité de l'inférence sans compromettre la précision ou augmenter le nombre de paramètres. Deuxièmement, MoH remplace la sommation standard dans l'attention multi-têtes par une sommation pondérée, introduisant de la flexibilité dans le mécanisme d'attention et débloquant un potentiel de performance supplémentaire. Des expériences approfondies sur ViT, DiT et LLMs démontrent que MoH surpasse l'attention multi-têtes en n'utilisant que 50 % à 90 % des têtes d'attention. De plus, nous montrons que des modèles d'attention multi-têtes pré-entraînés, tels que LLaMA3-8B, peuvent être encore affinés pour devenir nos modèles MoH. Notamment, MoH-LLaMA3-8B atteint une précision moyenne de 64,0 % sur 14 benchmarks, surpassant LLaMA3-8B de 2,4 % en utilisant seulement 75 % des têtes d'attention. Nous croyons que le MoH proposé est une alternative prometteuse à l'attention multi-têtes et fournit une base solide pour le développement de modèles d'attention avancés et efficaces.

BenTo : Réduction des tâches de référence avec transférabilité en contexte
BenTo: Benchmark Task Reduction with In-Context Transferability

Oct 17

ByHongyu Zhao, Ming Li, Lichao Sun, Tianyi Zhou

L'évaluation des grands modèles de langage (LLM) est coûteuse : elle nécessite la génération et l'examen des sorties des LLM sur un banc d'essai à grande échelle de diverses tâches. Cet article examine comment réduire efficacement les tâches utilisées pour évaluer les LLM sans affecter la qualité de l'évaluation. Notre étude révèle que la transférabilité des tâches et leur pertinence fournissent des informations cruciales pour identifier le sous-ensemble le plus représentatif de tâches en optimisant une fonction de localisation d'installation. Nous proposons une mesure pratiquement efficace pour estimer la transférabilité entre deux tâches via l'apprentissage en contexte (ICL). En analysant la transférabilité par paires, nous pouvons réduire les tâches dans un banc d'essai de LLM moderne (par exemple, MMLU ou FLAN) à 5 % tout en n'induisant qu'une différence de <4 % par rapport à l'évaluation sur le banc d'essai d'origine. Comparé aux travaux antérieurs, notre méthode est sans entraînement, sans gradient et très efficace, ne nécessitant que l'ICL.

PopAlign : Diversification des motifs contrastants pour un alignement plus complet
PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment

Oct 17

ByZekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang

L'alignement des grands modèles de langage (LLM) implique de former des modèles sur des paires de sortie préférentielle-contrastive pour ajuster leurs réponses selon les préférences humaines. Pour obtenir de telles paires contrastives, des méthodes traditionnelles comme RLHF et RLAIF s'appuient sur des schémas de contraste limités, tels que la variation des variantes de modèle ou des températures de décodage. Cette singularité conduit à deux problèmes : (1) l'alignement n'est pas exhaustif ; et par conséquent (2) les modèles sont susceptibles d'être victimes d'attaques de jailbreaking. Pour résoudre ces problèmes, nous étudions comment construire des schémas de contraste plus complets et diversifiés pour améliorer les données de préférence (RQ1) et vérifier l'impact de la diversification des schémas de contraste sur l'alignement des modèles (RQ2). Pour la RQ1, nous proposons PopAlign, un cadre qui intègre des schémas de contraste diversifiés à travers le prompt, le modèle et les niveaux de pipeline, introduisant six stratégies de contraste ne nécessitant pas de procédures de marquage de rétroaction supplémentaires. En ce qui concerne la RQ2, nous menons des expériences approfondies démontrant que PopAlign surpasse significativement les méthodes existantes, conduisant à un alignement plus complet.

Une étude comparative sur les schémas de raisonnement du modèle o1 d'OpenAI
A Comparative Study on Reasoning Patterns of OpenAI's o1 Model

Oct 17

BySiwei Wu, Zhongyuan Peng, Xinrun Du, Tuney Zheng, Minghao Liu, Jialong Wu, Jiachen Ma, Yizhi Li, Jian Yang, Wangchunshu Zhou, Qunshu Lin, Junbo Zhao, Zhaoxiang Zhang, Wenhao Huang, Ge Zhang, Chenghua Lin, J. H. Liu

Permettre aux grands modèles de langage (LLMs) de gérer une gamme plus large de tâches complexes (par exemple, le codage, les mathématiques) a attiré l'attention de nombreux chercheurs. Alors que les LLMs continuent d'évoluer, l'augmentation simplement du nombre de paramètres du modèle entraîne des améliorations de performance décroissantes et des coûts computationnels élevés. Récemment, le modèle o1 d'OpenAI a montré que les stratégies d'inférence (c'est-à-dire, les méthodes de calcul au moment du test) peuvent également améliorer significativement les capacités de raisonnement des LLMs. Cependant, les mécanismes derrière ces méthodes restent inexplorés. Dans notre travail, pour étudier les schémas de raisonnement de o1, nous comparons o1 avec des méthodes existantes de calcul au moment du test (BoN, BoN pas à pas, Agent Workflow et Auto-affiner) en utilisant le GPT-4o d'OpenAI comme base sur des bancs d'essai de raisonnement général dans trois domaines (c'est-à-dire, mathématiques, codage, raisonnement de bon sens). Plus précisément, nos expériences montrent que le modèle o1 a obtenu les meilleures performances sur la plupart des ensembles de données. En ce qui concerne les méthodes de recherche de réponses diverses (par exemple, BoN), nous constatons que la capacité des modèles de récompense et l'espace de recherche limitent tous deux la limite supérieure de ces méthodes. En ce qui concerne les méthodes qui décomposent le problème en de nombreux sous-problèmes, l'Agent Workflow a obtenu de meilleures performances que BoN pas à pas en raison de l'invite système spécifique au domaine pour planifier de meilleurs processus de raisonnement. Enfin, il convient de mentionner que nous avons résumé six schémas de raisonnement de o1 et fourni une analyse détaillée sur plusieurs bancs d'essai de raisonnement.

Une vue unifiée de l'édition des paramètres Delta dans les modèles à grande échelle post-entraînés
A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models

Oct 17

ByQiaoyu Tang, Le Yu, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun

Le post-entraînement est apparu comme un paradigme crucial pour adapter des modèles pré-entraînés à grande échelle à diverses tâches, dont les effets sont pleinement reflétés par les paramètres delta (c'est-à-dire, la disparité entre les paramètres post-entraînés et pré-entraînés). Alors que de nombreuses études ont exploré les propriétés des paramètres delta via des opérations telles que l'élagage, la quantification, l'approximation à faible rang et l'extrapolation, un cadre unifié pour examiner systématiquement ces caractéristiques faisait défaut. Dans cet article, nous proposons une nouvelle perspective basée sur l'approximation de la somme de Riemann de la fonction de perte pour élucider les opérations d'édition des paramètres delta. Notre analyse catégorise les méthodes existantes en trois classes en fonction de leurs performances post-édition : compétitive, diminuée et améliorée, expliquant comment elles sont exprimées par le terme d'approximation de la somme de Riemann et comment elles modifient les performances du modèle. Des expériences approfondies sur des modèles visuels et linguistiques, y compris ViT, LLaMA 3, Qwen 2 et Mistral, corroborent nos conclusions théoriques. De plus, nous introduisons des extensions aux techniques existantes telles que DARE et BitDelta, mettant en évidence leurs limitations dans l'exploitation des propriétés des paramètres delta et les réorganisant en expressions générales pour améliorer l'applicabilité et l'efficacité de l'édition des paramètres delta dans les modèles post-entraînés.

FlatQuant : L'importance de la planéité pour la quantification LLM
FlatQuant: Flatness Matters for LLM Quantization

Oct 12

ByYuxuan Sun, Ruikang Liu, Haoli Bai, Han Bao, Kang Zhao, Yuening Li, Jiaxin Hu, Xianzhi Yu, Lu Hou, Chun Yuan, Xin Jiang, Wulong Liu, Jun Yao

Récemment, la quantification a été largement utilisée pour la compression et l'accélération des grands modèles de langage~(LLMs). En raison des valeurs aberrantes dans les LLMs, il est crucial d'aplanir les poids et activations pour minimiser l'erreur de quantification avec des points de quantification également espacés. Des recherches antérieures explorent diverses transformations pré-quantification pour supprimer les valeurs aberrantes, telles que la mise à l'échelle par canal et la transformation de Hadamard. Cependant, nous observons que ces poids et activations transformés peuvent encore rester raides et étendus. Dans cet article, nous proposons FlatQuant (Transformation Affine Rapide et Apprentissable), une nouvelle approche de quantification post-entraînement pour améliorer la planéité des poids et activations. Notre approche identifie des transformations affines optimales adaptées à chaque couche linéaire, calibrées en quelques heures via un objectif léger. Pour réduire les surcoûts d'exécution, nous appliquons une décomposition de Kronecker aux matrices de transformation, et fusionnons toutes les opérations dans FlatQuant en un seul noyau. De vastes expériences montrent que FlatQuant établit une nouvelle référence en matière de quantification. Par exemple, il atteint une baisse de précision de moins de 1% pour la quantification W4A4 sur le modèle LLaMA-3-70B, surpassant SpinQuant de 7.5%. En termes de latence d'inférence, FlatQuant réduit le ralentissement induit par la transformation pré-quantification de 0.26x de QuaRot à seulement 0.07x, offrant jusqu'à 2.3x d'accélération pour le préremplissage et 1.7x d'accélération pour le décodage, respectivement. Le code est disponible sur : https://github.com/ruikangliu/FlatQuant.

VidPanos : Vidéos panoramiques génératives à partir de vidéos de panoramique occasionnelles
VidPanos: Generative Panoramic Videos from Casual Panning Videos

Oct 17

ByJingwei Ma, Erika Lu, Roni Paiss, Shiran Zada, Aleksander Holynski, Tali Dekel, Brian Curless, Michael Rubinstein, Forrester Cole

L'assemblage d'images panoramiques fournit une vue unifiée et grand angle d'une scène qui dépasse le champ de vision de la caméra. Assembler des images d'une vidéo panoramique en une photographie panoramique est un problème bien compris pour les scènes stationnaires, mais lorsque des objets sont en mouvement, une panorama fixe ne peut pas capturer la scène. Nous présentons une méthode pour synthétiser une vidéo panoramique à partir d'une vidéo panoramique capturée de manière informelle, comme si la vidéo originale avait été capturée avec une caméra grand angle. Nous posons la synthèse de panorama comme un problème de peinture hors champ espace-temps, où nous visons à créer une vidéo panoramique complète de la même durée que la vidéo d'entrée. Une complétion cohérente du volume espace-temps nécessite une forte et réaliste connaissance a priori du contenu vidéo et du mouvement, pour laquelle nous adaptons des modèles vidéo génératifs. Cependant, les modèles génératifs existants ne s'étendent pas immédiatement à la complétion panoramique, comme nous le montrons. Nous appliquons plutôt la génération vidéo en tant que composante de notre système de synthèse de panorama, et démontrons comment exploiter les forces des modèles tout en minimisant leurs limitations. Notre système peut créer des panoramas vidéo pour une gamme de scènes en extérieur comprenant des personnes, des véhicules, de l'eau en mouvement, ainsi que des éléments de fond stationnaires.

Les MLLM peuvent-ils comprendre les implications profondes derrière les images chinoises ?
Can MLLMs Understand the Deep Implication Behind Chinese Images?

Oct 17

ByChenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni

À mesure que les capacités des Modèles de Langage Multimodal à Grande Échelle (MLLM) continuent de s'améliorer, le besoin d'une évaluation des capacités de niveau supérieur des MLLM augmente. Cependant, il existe un manque de travaux évaluant les MLLM pour la perception et la compréhension de contenu visuel chinois de niveau supérieur. Pour combler cette lacune, nous introduisons le **B**anc d'**E**ssai pour la **C**ompréhension des **I**mplications d'**I**mages chinoises, **CII-Bench**, qui vise à évaluer les capacités de perception et de compréhension de niveau supérieur des MLLM pour les images chinoises. CII-Bench se distingue de plusieurs manières par rapport aux bancs d'essai existants. Tout d'abord, pour garantir l'authenticité du contexte chinois, les images de CII-Bench sont issues d'Internet chinois et examinées manuellement, avec des réponses correspondantes également élaborées manuellement. De plus, CII-Bench intègre des images représentant la culture traditionnelle chinoise, telles que des peintures traditionnelles chinoises célèbres, qui peuvent refléter profondément la compréhension de la culture traditionnelle chinoise par le modèle. À travers de vastes expériences sur CII-Bench avec plusieurs MLLM, nous avons fait des découvertes significatives. Tout d'abord, un écart substantiel est observé entre les performances des MLLM et des humains sur CII-Bench. La précision la plus élevée des MLLM atteint 64,4 %, tandis que la précision humaine avoisine 78,2 %, culminant à un impressionnant 81,0 %. Ensuite, les MLLM se comportent moins bien sur les images de culture traditionnelle chinoise, suggérant des limitations dans leur capacité à comprendre les sémantiques de haut niveau et à manquer d'une base de connaissances approfondie de la culture traditionnelle chinoise. Enfin, il est observé que la plupart des modèles affichent une précision améliorée lorsque des indices émotionnels d'image sont incorporés dans les indications. Nous pensons que CII-Bench permettra aux MLLM de mieux comprendre la sémantique chinoise et les images spécifiques à la Chine, faisant progresser le chemin vers une intelligence artificielle générale experte (AGI). Notre projet est disponible publiquement sur https://cii-bench.github.io/.

Les LLM ont-ils la politiquement correctitude ? Analyse des biais éthiques et des vulnérabilités de jailbreak dans les systèmes d'IA.
Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems

Oct 17

ByIsack Lee, Haebin Seong

Bien que les grands modèles de langage (GML) démontrent une impressionnante compétence dans diverses tâches, ils présentent des risques potentiels en termes de sécurité, tels que les "jailbreaks", où des entrées malveillantes peuvent contraindre les GML à générer du contenu nuisible. Pour répondre à ces problèmes, de nombreux développeurs de GML ont mis en place diverses mesures de sécurité pour aligner ces modèles. Cet alignement implique plusieurs techniques, notamment le filtrage des données lors de la pré-formation, le fine-tuning supervisé, l'apprentissage par renforcement à partir des retours humains, et des exercices de red-teaming. Ces méthodes introduisent souvent des biais délibérés et intentionnels similaires à la Politique de Correction (PC) pour garantir le comportement éthique des GML. Dans cet article, nous examinons les biais intentionnels injectés dans les GML à des fins de sécurité et étudions les méthodes pour contourner ces techniques d'alignement de sécurité. Notamment, ces biais intentionnels entraînent un taux de réussite de jailbreak de 20% dans les modèles GPT-4o qui diffère entre les mots-clés non-binaires et cisgenres et de 16% entre les mots-clés blancs et noirs, même lorsque les autres parties des stimuli sont identiques. Nous introduisons le concept de PCJailbreak, mettant en lumière les risques inhérents posés par ces biais induits par la sécurité. De plus, nous proposons une méthode de défense efficace, PCDefense, qui prévient les tentatives de jailbreak en injectant des stimuli de défense avant la génération. PCDefense se présente comme une alternative attrayante aux modèles de garde, tels que Llama-Guard, qui nécessitent un coût d'inférence supplémentaire après la génération de texte. Nos résultats soulignent le besoin urgent pour les développeurs de GML d'adopter une approche plus responsable lors de la conception et de la mise en œuvre des mesures de sécurité.

Apprentissage rétrospectif à partir des interactions
Retrospective Learning from Interactions

Oct 17

ByZizhao Chen, Mustafa Omer Gul, Yiwei Chen, Gloria Geng, Anne Wu, Yoav Artzi

Les interactions multi-turn entre les grands modèles de langage (LLM) et les utilisateurs incluent naturellement des signaux de rétroaction implicites. Si un LLM répond de manière inattendue à une instruction, l'utilisateur est susceptible de le signaler en reformulant la demande, en exprimant de la frustration, ou en passant à une tâche alternative. Ces signaux sont indépendants de la tâche et occupent un sous-espace relativement contraint du langage, permettant au LLM de les identifier même s'il échoue sur la tâche réelle. Cela crée une opportunité d'apprentissage continu à partir des interactions sans annotations supplémentaires. Nous introduisons ReSpect, une méthode pour apprendre de tels signaux dans les interactions passées via la rétrospéction. Nous déployons ReSpect dans un nouveau scénario d'interaction multimodal, où les humains donnent des instructions à un LLM pour résoudre une tâche de raisonnement abstrait avec un espace de solutions combinatoires. À travers des milliers d'interactions avec des humains, nous montrons comment ReSpect améliore progressivement le taux de réalisation de la tâche de 31% à 82%, le tout sans aucune annotation externe.

Se souvenir, récupérer et générer : Comprendre les concepts visuels infinis en tant que votre assistant personnalisé
Remember, Retrieve and Generate: Understanding Infinite Visual Concepts as Your Personalized Assistant

Oct 17

ByHaoran Hao, Jiaming Han, Changsheng Li, Yu-Feng Li, Xiangyu Yue

Le développement de grands modèles de langage (LLMs) a considérablement amélioré les capacités des modèles de langage multimodaux (MLLMs) en tant qu'assistants généraux. Cependant, le manque de connaissances spécifiques à l'utilisateur limite encore leur application dans la vie quotidienne des humains. Dans cet article, nous présentons le cadre de Personnalisation Augmentée par Récupération (RAP) pour la personnalisation des MLLMs. À partir d'un MLLM général, nous le transformons en un assistant personnalisé en trois étapes. (a) Se souvenir : Nous concevons une base de données clé-valeur pour stocker les informations liées à l'utilisateur, telles que le nom de l'utilisateur, l'avatar et d'autres attributs. (b) Récupérer : Lorsque l'utilisateur lance une conversation, RAP récupérera des informations pertinentes dans la base de données en utilisant un récupérateur multimodal. (c) Générer : La requête d'entrée et les informations des concepts récupérés sont alimentées dans les MLLMs pour générer des réponses personnalisées, augmentées de connaissances. Contrairement aux méthodes précédentes, RAP permet une édition de concepts en temps réel via la mise à jour de la base de données externe. Pour améliorer davantage la qualité de génération et l'alignement avec les informations spécifiques à l'utilisateur, nous concevons un pipeline pour la collecte de données et créons un ensemble de données spécialisé pour l'entraînement personnalisé des MLLMs. Sur la base de l'ensemble de données, nous entraînons une série de MLLMs en tant qu'assistants multimodaux personnalisés. En pré-entraînant sur un ensemble de données à grande échelle, les RAP-MLLMs peuvent généraliser à une infinité de concepts visuels sans ajustement supplémentaire. Nos modèles démontrent une flexibilité exceptionnelle et une qualité de génération dans une variété de tâches, telles que la légende d'images personnalisée, la réponse à des questions et la reconnaissance visuelle. Le code, les données et les modèles sont disponibles sur https://github.com/Hoar012/RAP-MLLM.

Progresser malgré les échecs : Amélioration de la correction d'erreurs génératives pour la reconnaissance automatique de la parole avec des données synthétiques et un renforcement de la récupération
Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation

Oct 17

BySreyan Ghosh, Mohammad Sadegh Rasooli, Michael Levit, Peidong Wang, Jian Xue, Dinesh Manocha, Jinyu Li

La Correction d'Erreurs Générative (GEC) s'est imposée comme une méthode de post-traitement puissante pour améliorer les performances des systèmes de Reconnaissance Automatique de la Parole (ASR). Cependant, nous montrons que les modèles GEC ont du mal à généraliser au-delà des types spécifiques d'erreurs rencontrés lors de l'entraînement, limitant leur capacité à corriger de nouvelles erreurs non vues au moment du test, notamment dans des scénarios hors domaine (OOD). Ce phénomène est amplifié avec les entités nommées (NE), où, en plus d'un manque d'informations contextuelles ou de connaissances sur les NE, de nouvelles NE continuent d'apparaître. Pour résoudre ces problèmes, nous proposons DARAG (Correction d'Erreurs Générative Augmentée par les Données et la Récupération), une approche novatrice conçue pour améliorer la GEC pour l'ASR dans des scénarios en domaine (ID) et hors domaine (OOD). Nous enrichissons l'ensemble d'entraînement de GEC avec des données synthétiques générées en incitant des LLM et des modèles de texte-parole, simulant ainsi des erreurs supplémentaires à partir desquelles le modèle peut apprendre. Pour les scénarios OOD, nous simulons de manière similaire et de manière non supervisée des erreurs au moment du test à partir de nouveaux domaines. De plus, pour mieux gérer les entités nommées, nous introduisons une correction augmentée par la récupération en enrichissant l'entrée avec des entités récupérées à partir d'une base de données. Notre approche est simple, évolutive, et à la fois indépendante du domaine et de la langue. Nous menons des expériences sur plusieurs ensembles de données et paramètres, montrant que DARAG surpasse toutes nos références, atteignant des améliorations relatives de 8\% à 30\% du Taux d'Erreur de Mots en ID et de 10\% à 33\% en OOD.

MedMobile : Un modèle de langue de taille mobile avec des capacités cliniques de niveau expert
MedMobile: A mobile-sized language model with expert-level clinical capabilities

Oct 11

ByKrithik Vishwanath, Jaden Stryker, Anton Alaykin, Daniel Alexander Alber, Eric Karl Oermann

Les modèles de langage (LMs) ont démontré des capacités de raisonnement et de rappel de niveau expert en médecine. Cependant, les coûts computationnels et les préoccupations en matière de confidentialité constituent des obstacles croissants à une mise en œuvre à grande échelle. Nous introduisons une adaptation parcimonieuse de phi-3-mini, MedMobile, un LM de 3,8 milliards de paramètres capable de fonctionner sur un appareil mobile, pour des applications médicales. Nous démontrons que MedMobile obtient un score de 75,7% sur le MedQA (USMLE), dépassant la note de passage pour les médecins (~60%), et approchant les scores des modèles 100 fois plus grands. Nous réalisons ensuite une série d'ablations soigneuses, et démontrons que la chaîne de pensée, l'assemblage et le réglage fin conduisent aux plus grands gains de performance, tandis que, de manière inattendue, la génération augmentée par récupération ne parvient pas à démontrer d'améliorations significatives.

γ-MoD : Exploration de l'adaptation de mélange de profondeur pour les grands modèles de langage multimodal
γ-MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models

Oct 17

ByYaxin Luo, Gen Luo, Jiayi Ji, Yiyi Zhou, Xiaoshuai Sun, Zhiqiang Shen, Rongrong Ji

Malgré les progrès significatifs réalisés dans les grands modèles de langage multimodaux (MLLMs), leur coût computationnel élevé reste un obstacle au déploiement réel. Inspirés par le mélange de profondeurs (MoDs) en traitement automatique du langage naturel, nous visons à aborder cette limitation du point de vue des "tokens activés". Notre idée principale est que si la plupart des tokens sont redondants pour le calcul de la couche, ils peuvent être directement sautés via la couche MoD. Cependant, la conversion directe des couches denses des MLLMs en couches MoD entraîne une dégradation significative des performances. Pour résoudre ce problème, nous proposons une stratégie d'adaptation MoD innovante pour les MLLMs existants appelée gamma-MoD. Dans gamma-MoD, une nouvelle métrique est proposée pour guider le déploiement des MoDs dans le MLLM, à savoir le rang des cartes d'attention (ARank). À travers ARank, nous pouvons identifier efficacement quelle couche est redondante et devrait être remplacée par la couche MoD. Sur la base d'ARank, nous proposons en outre deux conceptions novatrices pour maximiser la parcimonie computationnelle des MLLM tout en maintenant leurs performances, à savoir un routeur partagé vision-langage et un apprentissage de routage masqué. Avec ces conceptions, plus de 90 % des couches denses du MLLM peuvent être efficacement converties en couches MoD. Pour valider notre méthode, nous l'appliquons à trois MLLMs populaires et menons des expériences approfondies sur 9 jeux de données de référence. Les résultats expérimentaux valident non seulement l'importante efficacité de gamma-MoD par rapport aux MLLMs existants, mais confirment également sa capacité de généralisation sur divers MLLMs. Par exemple, avec une légère baisse de performance, c'est-à-dire -1,5 %, gamma-MoD peut réduire le temps d'entraînement et d'inférence de LLaVA-HR respectivement de 31,0 % et 53,2 %.

MuVi : Génération de musique à partir de vidéos avec alignement sémantique et synchronisation rythmique
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization

Oct 16

ByRuiqi Li, Siqi Zheng, Xize Cheng, Ziang Zhang, Shengpeng Ji, Zhou Zhao

Générer de la musique qui s'aligne avec le contenu visuel d'une vidéo a été une tâche difficile, car cela nécessite une compréhension approfondie de la sémantique visuelle et implique de générer de la musique dont la mélodie, le rythme et la dynamique s'harmonisent avec les récits visuels. Cet article présente MuVi, un nouveau cadre qui aborde efficacement ces défis pour améliorer la cohésion et l'expérience immersive du contenu audiovisuel. MuVi analyse le contenu vidéo à travers un adaptateur visuel spécialement conçu pour extraire des caractéristiques contextuellement et temporellement pertinentes. Ces caractéristiques sont utilisées pour générer de la musique qui correspond non seulement à l'humeur et au thème de la vidéo, mais aussi à son rythme et à son tempo. Nous introduisons également un schéma d'entraînement préalable contrastif musique-visuel pour assurer la synchronisation, basé sur la nature périodique des phrases musicales. De plus, nous démontrons que notre générateur de musique basé sur l'ajustement de flux a une capacité d'apprentissage en contexte, nous permettant de contrôler le style et le genre de la musique générée. Les résultats expérimentaux montrent que MuVi présente des performances supérieures tant en termes de qualité audio que de synchronisation temporelle. Les échantillons de vidéos musicales générées sont disponibles sur https://muvi-v2m.github.io.

Réglage minimal pour débloquer une production prolongée à partir de LLM avec des données de haute qualité comme clé
Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key

Oct 14

ByYingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao

Alors que les grands modèles de langage évoluent rapidement pour prendre en charge un contexte plus long, on observe une disparité notable dans leur capacité à générer des sorties de plus grande longueur. Une étude récente suggère que la principale cause de ce déséquilibre pourrait provenir du manque de données avec des sorties longues lors de l'entraînement par alignement. À la lumière de cette observation, des tentatives sont faites pour réaligner les modèles de base avec des données comblant le fossé, ce qui donne des modèles capables de générer des sorties longues lorsqu'ils sont instruits. Dans cet article, nous explorons l'impact de la qualité des données dans l'ajustement d'un modèle pour des sorties longues, et la possibilité de le faire à partir des points de départ des modèles alignés sur l'humain (instructeur ou conversation). Grâce à une curation minutieuse des données, nous montrons qu'il est possible d'obtenir une amélioration de performance similaire dans nos modèles ajustés, avec seulement une petite fraction d'instances de données d'entraînement et de calcul. De plus, nous évaluons la généralisabilité de telles approches en appliquant nos recettes d'ajustement à plusieurs modèles. Nos résultats suggèrent que, bien que les capacités de génération de sorties longues varient d'un modèle à l'autre dès le départ, notre approche pour les ajuster avec des données de haute qualité en utilisant des ressources informatiques légères produit systématiquement une amélioration notable sur tous les modèles sur lesquels nous avons expérimenté. Nous avons rendu public notre ensemble de données curaté pour l'ajustement de la capacité d'écriture longue, les implémentations de l'ajustement et de l'évaluation du modèle, ainsi que les modèles affinés, tous accessibles librement.

LoLDU : Adaptation à faible rang via la décomposition inférieure-diagonale-supérieure pour un ajustement fin efficace des paramètres
LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning

Oct 17

ByYiming Shi, Jiwei Wei, Yujia Wu, Ran Ran, Chengwei Sun, Shiyuan He, Yang Yang

La croissance rapide de l'échelle des modèles a nécessité des ressources computationnelles substantielles pour le peaufinage. Une approche existante telle que l'Adaptation à Faible Rang (LoRA) a cherché à résoudre le problème de la gestion des grands paramètres mis à jour dans le cadre d'un peaufinage complet. Cependant, LoRA utilise une initialisation aléatoire et l'optimisation de matrices de faible rang pour approximer les poids mis à jour, ce qui peut entraîner une convergence sous-optimale et un écart de précision par rapport au peaufinage complet. Pour résoudre ces problèmes, nous proposons LoLDU, une approche de Peaufinage Efficace des Paramètres (PEFT) qui réduit de manière significative le nombre de paramètres entraînables de 2600 fois par rapport aux méthodes PEFT classiques tout en maintenant des performances comparables. LoLDU exploite la Décomposition Inférieure-Diagonale-Supérieure (LDU) pour initialiser les matrices de faible rang pour une convergence plus rapide et une orthogonalité. Nous nous concentrons sur l'optimisation de la matrice diagonale pour les transformations d'échelle. À notre connaissance, LoLDU possède le moins de paramètres parmi toutes les approches PEFT. Nous avons mené des expériences approfondies sur 4 ensembles de données de suivi d'instructions, 6 ensembles de données de compréhension du langage naturel (NLU), 8 ensembles de données de classification d'images, et des ensembles de données de génération d'images avec plusieurs types de modèles (LLaMA2, RoBERTa, ViT, et Stable Diffusion), fournissant une analyse complète et détaillée. Notre code open-source est disponible sur https://github.com/SKDDJ/LoLDU.

Ensemble de données et modèles de matériaux inorganiques Open Materials 2024 (OMat24)
Open Materials 2024 (OMat24) Inorganic Materials Dataset and Models

Oct 16

ByLuis Barroso-Luque, Muhammed Shuaibi, Xiang Fu, Brandon M. Wood, Misko Dzamba, Meng Gao, Ammar Rizvi, C. Lawrence Zitnick, Zachary W. Ulissi

La capacité à découvrir de nouveaux matériaux aux propriétés souhaitables est cruciale pour de nombreuses applications, de la lutte contre le changement climatique aux avancées dans le matériel informatique de nouvelle génération. L'IA a le potentiel d'accélérer la découverte et la conception de matériaux en explorant plus efficacement l'espace chimique par rapport à d'autres méthodes computationnelles ou par essais et erreurs. Bien que des progrès substantiels aient été réalisés en matière de données, de références et de modèles d'IA pour les matériaux, une barrière qui s'est manifestée est le manque de données d'entraînement disponibles publiquement et de modèles pré-entraînés ouverts. Pour y remédier, nous présentons une version Meta FAIR de l'ensemble de données ouvert à grande échelle Open Materials 2024 (OMat24) et un ensemble de modèles pré-entraînés associés. OMat24 contient plus de 110 millions de calculs de théorie fonctionnelle de la densité (DFT) axés sur la diversité structurale et compositionnelle. Nos modèles EquiformerV2 atteignent des performances de pointe sur le classement Matbench Discovery et sont capables de prédire la stabilité à l'état fondamental et les énergies de formation avec un score F1 supérieur à 0,9 et une précision de 20 meV/atome, respectivement. Nous explorons l'impact de la taille du modèle, des objectifs auxiliaires de débruitage et du réglage fin sur les performances à travers une gamme d'ensembles de données comprenant OMat24, MPtraj et Alexandria. La publication ouverte de l'ensemble de données OMat24 et des modèles permet à la communauté de recherche de s'appuyer sur nos efforts et de stimuler de nouvelles avancées dans la science des matériaux assistée par l'IA.

Vers une génération visuelle de RA sans guidage via l'alignement contrastif conditionnel.
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment

Oct 12

ByHuayu Chen, Hang Su, Peize Sun, Jun Zhu

Le Guidage sans Classificateur (CFG) est une technique cruciale pour améliorer la qualité des échantillons des modèles génératifs visuels. Cependant, dans la génération multimodale autoregressive (AR), le CFG introduit des incohérences de conception entre le langage et le contenu visuel, contredisant la philosophie de conception visant à unifier différentes modalités pour l'AR visuel. Motivés par les méthodes d'alignement des modèles linguistiques, nous proposons l'Alignement Contrastif Conditionnel (CCA) pour faciliter la génération visuelle AR sans guidage avec des performances élevées et analyser sa connexion théorique avec les méthodes d'échantillonnage guidé. Contrairement aux méthodes de guidage qui modifient le processus d'échantillonnage pour atteindre la distribution d'échantillonnage idéale, le CCA ajuste directement les modèles pré-entraînés pour correspondre à la même distribution cible. Les résultats expérimentaux montrent que le CCA peut améliorer significativement les performances sans guidage de tous les modèles testés avec seulement une époque de fine-tuning (environ 1\% des époques de pré-entraînement) sur l'ensemble de données de pré-entraînement, à la hauteur des méthodes d'échantillonnage guidé. Cela élimine largement le besoin d'échantillonnage guidé dans la génération visuelle AR et réduit le coût d'échantillonnage de moitié. De plus, en ajustant les paramètres d'entraînement, le CCA peut atteindre des compromis entre la diversité des échantillons et la fidélité similaires au CFG. Cela confirme expérimentalement la forte connexion théorique entre l'alignement ciblé sur le langage et les méthodes de guidage ciblées sur le visuel, unifiant deux domaines de recherche précédemment indépendants. Code et poids du modèle : https://github.com/thu-ml/CCA.

Long-LRM : Modèle de Reconstruction de Longues Séquences pour des Éclats Gaussiens à Large Couverture
Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats

Oct 16

ByChen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu

Nous proposons Long-LRM, un modèle de reconstruction gaussienne 3D généralisable capable de reconstruire une grande scène à partir d'une longue séquence d'images d'entrée. Plus précisément, notre modèle peut traiter 32 images sources à une résolution de 960x540 en seulement 1,3 seconde sur un seul GPU A100 80G. Notre architecture présente un mélange des récents blocs Mamba2 et des blocs transformateurs classiques qui ont permis de traiter beaucoup plus de jetons que les travaux antérieurs, améliorés par des étapes efficaces de fusion de jetons et d'élagage gaussien qui équilibrent entre qualité et efficacité. Contrairement aux modèles feed-forward précédents qui sont limités au traitement de 1 à 4 images d'entrée et ne peuvent reconstruire qu'une petite partie d'une grande scène, Long-LRM reconstruit l'ensemble de la scène en une seule étape feed-forward. Sur des ensembles de données de scènes à grande échelle tels que DL3DV-140 et Tanks and Temples, notre méthode atteint des performances comparables aux approches basées sur l'optimisation tout en étant deux ordres de grandeur plus efficace. Page du projet : https://arthurhero.github.io/projects/llrm

AERO : LLM à Softmax uniquement pour une inférence privée efficace
AERO: Softmax-Only LLMs for Efficient Private Inference

Oct 16

ByNandan Kumar Jha, Brandon Reagen

La généralisation des modèles de langage propriétaires a soulevé des préoccupations en matière de confidentialité des données sensibles des utilisateurs, soulignant le besoin d'inférence privée (PI), où l'inférence est effectuée directement sur des entrées chiffrées. Cependant, les méthodes actuelles de PI sont confrontées à des surcoûts de communication et de latence prohibitifs, principalement en raison des opérations non linéaires. Dans cet article, nous présentons une analyse approfondie pour comprendre le rôle des non-linéarités dans les modèles de langage basés sur des décodeurs de transformateurs uniquement. Nous introduisons AERO, un cadre d'optimisation architecturale en quatre étapes qui affine l'architecture existante des modèles de langage à décodeur pour une PI efficace en supprimant systématiquement des non-linéarités telles que LayerNorm et GELU et en réduisant les calculs en FLOPs. Pour la première fois, nous proposons une architecture basée uniquement sur Softmax avec beaucoup moins de FLOPs adaptée à une PI efficace. De plus, nous concevons une nouvelle technique de régularisation de l'entropie pour améliorer les performances des modèles basés uniquement sur Softmax. AERO permet d'atteindre une réduction de la communication jusqu'à 4,23 fois et de la latence jusqu'à 1,94 fois. Nous validons l'efficacité d'AERO en le comparant aux technologies de pointe.

TransAgent : Transférer les modèles fondamentaux Vision-Language avec Collaboration d'Agents Hétérogènes
TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration

Oct 16

ByYiwei Guo, Shaobin Zhuang, Kunchang Li, Yu Qiao, Yali Wang

Les modèles fondamentaux vision-langage (comme CLIP) ont récemment démontré leur puissance en transfert d'apprentissage, grâce à un pré-entraînement image-texte à grande échelle. Cependant, les données du domaine cible dans les tâches ultérieures peuvent être très différentes de la phase de pré-entraînement, ce qui rend difficile la généralisation efficace d'un tel modèle unique. En revanche, il existe une large gamme de modèles experts contenant des connaissances visuelles et/ou linguistiques diversifiées pré-entraînées sur différentes modalités, tâches, réseaux et ensembles de données. Malheureusement, ces modèles sont des "agents isolés" avec des structures hétérogènes, et la manière d'intégrer leurs connaissances pour généraliser des modèles similaires à CLIP n'a pas été pleinement explorée. Pour combler cette lacune, nous proposons un cadre TransAgent général et concis, qui transporte les connaissances des agents isolés de manière unifiée, et guide efficacement CLIP pour généraliser avec une distillation des connaissances multi-source. Grâce à ce cadre distinct, nous collaborons de manière flexible avec 11 agents hétérogènes pour renforcer les modèles fondamentaux vision-langage, sans coût supplémentaire lors de la phase d'inférence. Enfin, notre TransAgent atteint des performances de pointe sur 11 ensembles de données de reconnaissance visuelle. Dans le même contexte de faible disponibilité de données, il surpasse le populaire CoOp d'environ 10 % en moyenne, et de 20 % sur EuroSAT qui présente de grands écarts de domaine.

SBI-RAG : Amélioration de la résolution de problèmes mathématiques pour les élèves grâce à l'Instruction basée sur les schémas et la Génération augmentée par récupération
SBI-RAG: Enhancing Math Word Problem Solving for Students through Schema-Based Instruction and Retrieval-Augmented Generation

Oct 17

ByPrakhar Dixit, Tim Oates

De nombreux étudiants éprouvent des difficultés avec les problèmes mathématiques verbaux (PMV), ayant souvent du mal à identifier les informations clés et à sélectionner les opérations mathématiques appropriées. L'instruction basée sur les schémas (IBS) est une stratégie basée sur des preuves qui aide les étudiants à catégoriser les problèmes en fonction de leur structure, améliorant ainsi la précision de la résolution des problèmes. En nous appuyant sur cela, nous proposons un cadre d'Instruction Basée sur les Schémas avec Récupération Augmentée de Génération (IBS-RAG) qui intègre un grand modèle de langage (GML). Notre approche met l'accent sur un raisonnement étape par étape en exploitant les schémas pour guider la génération de solutions. Nous évaluons ses performances sur l'ensemble de données GSM8K, en le comparant avec GPT-4 et GPT-3.5 Turbo, et introduisons une métrique de "score de raisonnement" pour évaluer la qualité des solutions. Nos résultats suggèrent que l'IBS-RAG améliore la clarté du raisonnement et la précision de la résolution des problèmes, offrant potentiellement des avantages éducatifs pour les étudiants.

papers.title

papers.description

Film Gen : Un Casting de Modèles de Fondation de Médias
Movie Gen: A Cast of Media Foundation Models

Oct 17

100

MixEval-X : Évaluations de tout type à tout type à partir de mélanges de données du monde réel
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

Oct 17

ByJinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh

JudgeBench : Un banc d'essai pour évaluer les juges basés sur les LLM
JudgeBench: A Benchmark for Evaluating LLM-based Judges

Oct 16

BySijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica

Fluide : Mise à l'échelle des modèles génératifs texte-image autorégressifs avec des jetons continus
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens

Oct 17

ByLijie Fan, Tianhong Li, Siyang Qin, Yuanzhen Li, Chen Sun, Michael Rubinstein, Deqing Sun, Kaiming He, Yonglong Tian

Janus : Découplage de l'encodage visuel pour une compréhension et une génération multimodales unifiées
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Oct 17

ByChengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo

Feuille de route vers une compréhension de la parole superhumaine en utilisant de grands modèles de langage.
Roadmap towards Superhuman Speech Understanding using Large Language Models

Oct 17

ByFan Bu, Yuhao Zhang, Xidong Wang, Benyou Wang, Qun Liu, Haizhou Li

MobA : Un système d'agent à deux niveaux pour une automatisation efficace des tâches mobiles
MobA: A Two-Level Agent System for Efficient Mobile Task Automation

Oct 17

ByZichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu

WorldCuisines : un banc d'essai à grande échelle pour la Question-Réponse Visuelle Multilingue et Multiculturelle sur les Cuisines du Monde
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines

Oct 16

Exploiter les interfaces utilisateur de pages Web pour la compréhension visuelle riche en texte
Harnessing Webpage UIs for Text-Rich Visual Understanding

Oct 17

ByJunpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue

DreamVideo-2 : Personnalisation vidéo guidée par sujet sans entraînement avec contrôle précis du mouvement
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control

Oct 17

ByYujie Wei, Shiwei Zhang, Hangjie Yuan, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Feng Liu, Zhizhong Huang, Jiaxin Ye, Yingya Zhang, Hongming Shan