papers.description
Dans les grands modèles de vision-langage (LVLM), les images servent d'entrées contenant une quantité importante d'informations. Comme le dit l'expression "Une image vaut mille mots", la représentation d'une seule image dans les LVLM actuels peut nécessiter des centaines, voire des milliers de jetons. Cela entraîne des coûts computationnels importants, qui augmentent de manière quadratique à mesure que la résolution de l'image d'entrée augmente, impactant ainsi considérablement l'efficacité à la fois de l'entraînement et de l'inférence. Des approches antérieures ont tenté de réduire le nombre de jetons d'image soit avant, soit au sein des premières couches des LVLM. Cependant, ces stratégies entraînent inévitablement une perte d'informations visuelles cruciales, diminuant ainsi finalement les performances du modèle. Pour relever ce défi, nous menons une étude empirique révélant que tous les jetons visuels sont nécessaires pour les LVLM dans les couches peu profondes, et que la redondance des jetons augmente progressivement dans les couches plus profondes du modèle. À cette fin, nous proposons PyramidDrop, une stratégie de réduction de la redondance visuelle pour les LVLM afin d'améliorer leur efficacité à la fois lors de l'entraînement et de l'inférence avec une perte de performance négligeable. Plus précisément, nous divisons le LVLM en plusieurs étapes et supprimons une partie des jetons d'image à la fin de chaque étape avec un ratio prédéfini, créant ainsi des jetons visuels en forme de pyramide à travers les couches du modèle. La suppression est basée sur un calcul de similarité léger avec un temps négligeable. De vastes expériences démontrent que PyramidDrop peut atteindre une accélération de 40% du temps d'entraînement et de 55% des FLOPs d'inférence de LLaVA-NeXT avec des performances comparables. De plus, PyramidDrop pourrait également servir de stratégie plug-and-play pour l'accélération de l'inférence sans entraînement, avec de meilleures performances et un coût d'inférence inférieur à celui des alternatives. Nous espérons que les idées et l'approche introduites par PyramidDrop inspireront les futures recherches pour approfondir le rôle des jetons d'image dans les LVLM.
Nous présentons SpectroMotion, une nouvelle approche qui combine le Splatting Gaussien 3D (3DGS) avec le rendu basé sur la physique (PBR) et les champs de déformation pour reconstruire des scènes spéculaires dynamiques. Les méthodes précédentes étendant le 3DGS pour modéliser des scènes dynamiques ont eu du mal à représenter avec précision les surfaces spéculaires. Notre méthode aborde cette limitation en introduisant une technique de correction résiduelle pour le calcul précis de la normale de surface pendant la déformation, complétée par une carte d'environnement déformable qui s'adapte aux conditions d'éclairage variables dans le temps. Nous mettons en œuvre une stratégie d'entraînement de grossier à fin qui améliore significativement à la fois la géométrie de la scène et la prédiction de la couleur spéculaire. Nous démontrons que notre modèle surpasse les méthodes précédentes pour la synthèse de vue des scènes contenant des objets spéculaires dynamiques et qu'il est la seule méthode 3DGS existante capable de synthétiser des scènes spéculaires dynamiques réalistes en photographie, surpassant les méthodes de pointe dans le rendu de scènes complexes, dynamiques et spéculaires.
Le raisonnement en chaîne de pensée (CoT) dans les modèles de langage vision (VLM) est crucial pour améliorer l'interprétabilité et la fiabilité. Cependant, les recettes d'entraînement actuelles manquent de données de raisonnement CoT robustes, en se reposant sur des ensembles de données dominés par de courtes annotations avec des justifications minimales. Dans ce travail, nous montrons que l'entraînement des VLM sur de courtes réponses ne généralise pas bien aux tâches de raisonnement nécessitant des réponses plus détaillées. Pour remédier à cela, nous proposons une approche en deux volets. Tout d'abord, nous extrayons des justifications du modèle GPT-4o pour enrichir les données d'entraînement et affiner les VLM, améliorant ainsi leurs performances en CoT. Ensuite, nous appliquons l'apprentissage par renforcement pour calibrer davantage la qualité du raisonnement. Plus précisément, nous construisons des paires positives (correctes) et négatives (incorrectes) de chaînes de raisonnement générées par le modèle, en comparant leurs prédictions avec les courtes réponses annotées. En utilisant ces données par paires, nous appliquons l'algorithme d'optimisation des préférences directes pour affiner les capacités de raisonnement du modèle. Nos expériences démontrent des améliorations significatives dans le raisonnement CoT sur des ensembles de données de référence et une meilleure généralisation à la prédiction de réponses directes également. Ce travail souligne l'importance d'incorporer des justifications détaillées dans l'entraînement et de tirer parti de l'apprentissage par renforcement pour renforcer les capacités de raisonnement des VLM.
L'alignement automatisé développe des systèmes d'alignement avec une intervention humaine minimale. La clé de l'alignement automatisé réside dans la fourniture de signaux de préférence apprenables et précis pour l'apprentissage des préférences sans annotation humaine. Dans cet article, nous introduisons l'Optimisation à Auto-Pilotage (SSO), un algorithme qui génère de manière autonome des signaux de préférence de haute qualité basés sur des principes prédéfinis lors de l'entraînement itératif, éliminant ainsi le besoin d'annotation manuelle. SSO maintient l'exactitude des signaux en garantissant un écart constant entre les réponses choisies et rejetées tout en les maintenant toutes les deux en conformité avec le modèle de politique actuel pour s'adapter à sa capacité d'apprentissage. SSO peut bénéficier de l'entraînement en ligne et hors ligne du modèle de politique, ainsi que renforcer l'entraînement des modèles de récompense. Nous validons l'efficacité de SSO avec deux modèles de base, Qwen2 et Llama3.1, indiquant qu'il fournit des signaux de préférence précis et en conformité avec la politique tout au long de l'entraînement itératif. Sans aucune annotation manuelle ni modèles externes, SSO conduit à des améliorations significatives des performances sur six référentiels subjectifs ou objectifs. De plus, les données de préférence générées par SSO ont considérablement amélioré les performances du modèle de récompense sur Rewardbench. Notre travail présente une approche évolutive pour l'optimisation des préférences, ouvrant la voie à un alignement automatisé plus efficace et plus performant.
Nous présentons xGen-MM-Vid (BLIP-3-Video) : un modèle de langage multimodal pour les vidéos, spécialement conçu pour capturer efficacement les informations temporelles sur plusieurs images. BLIP-3-Video tire parti de l'« encodeur temporel » en plus du tokeniseur visuel conventionnel, qui mappe une séquence de jetons sur plusieurs images en un ensemble compact de jetons visuels. Cela permet à BLIP-3-Video d'utiliser beaucoup moins de jetons visuels que ses modèles concurrents (par exemple, 32 contre 4608 jetons). Nous explorons différents types d'encodeurs temporels, y compris des regroupements spatio-temporels apprenables ainsi que des modèles séquentiels comme les Machines à Jetons Turing. Nous confirmons expérimentalement que BLIP-3-Video obtient des précisions de questions-réponses vidéo comparables à celles de modèles de pointe beaucoup plus grands (par exemple, 34B), tout en étant beaucoup plus petit (c'est-à-dire, 4B) et plus efficace en utilisant moins de jetons visuels. Le site web du projet se trouve à l'adresse suivante : https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
La distillation des connaissances (KD) est largement utilisée pour entraîner de petits modèles de langage (LM) performants en utilisant de grands modèles de langage enseignants. Bien qu'efficace pour le fine-tuning, la KD lors de la pré-formation rencontre des défis en termes d'efficacité, de flexibilité et d'efficacité. Les méthodes existantes entraînent soit des coûts computationnels élevés en raison de l'inférence en ligne du modèle enseignant, nécessitent une correspondance de tokenisation entre les modèles enseignant et étudiant, ou risquent de perdre la difficulté et la diversité des données d'entraînement générées par l'enseignant. Pour résoudre ces problèmes, nous proposons MiniPLM, un cadre de KD pour la pré-formation des modèles de langage en affinant la distribution des données d'entraînement avec les connaissances de l'enseignant. Pour l'efficacité, MiniPLM effectue une inférence hors ligne du modèle enseignant, permettant la KD pour de multiples modèles de langage étudiants sans ajouter de coûts de temps d'entraînement. Pour la flexibilité, MiniPLM fonctionne uniquement sur le corpus d'entraînement, permettant la KD entre les familles de modèles. Pour l'efficacité, MiniPLM tire parti des différences entre les grands et petits modèles de langage pour améliorer la difficulté et la diversité des données d'entraînement, aidant les modèles de langage étudiants à acquérir des connaissances polyvalentes et sophistiquées. Des expériences approfondies démontrent que MiniPLM améliore les performances des modèles de langage étudiants sur 9 tâches en aval largement utilisées, améliore les capacités de modélisation de langage et réduit le calcul de pré-formation. Les avantages de MiniPLM s'étendent aux grandes échelles de pré-formation, comme en témoigne l'extrapolation des courbes de mise à l'échelle. Une analyse supplémentaire révèle que MiniPLM prend en charge la KD entre les familles de modèles et améliore l'utilisation des données de pré-formation. Notre modèle, code et données sont disponibles sur https://github.com/thu-coai/MiniPLM.
Les récents grands modèles de langage et vision (LVLM) présentent des capacités remarquables de conversation et de raisonnement sans entraînement, étant donné des requêtes multimodales. Cependant, ils souffrent d'hallucinations d'objets, un phénomène où les LVLM ont tendance à générer des réponses textuelles qui ne sont pas factuellement alignées avec les entrées d'image. Notre étude pilote révèle que l'hallucination d'objets est étroitement liée au Codage de Position Rotatif (RoPE), un modèle de modélisation de dépendance positionnelle largement adopté dans les LVLM existants. En raison de la décroissance à long terme dans RoPE, les LVLM ont tendance à halluciner davantage lorsque les indices visuels pertinents sont éloignés des jetons d'instruction dans la séquence d'entrée multimodale. De plus, nous observons un effet similaire lors de l'inversion de l'ordre séquentiel des jetons visuels lors de l'alignement multimodal. Nos tests indiquent que la décroissance à long terme dans RoPE pose des défis aux LVLM lors de la capture des interactions visuelles-instruction sur de longues distances. Nous proposons l'Attention Causale Concentrique (CCA), une stratégie d'alignement positionnel simple mais efficace qui atténue l'impact de la décroissance à long terme de RoPE dans les LVLM en réduisant naturellement la distance relative entre les jetons visuels et d'instruction. Avec CCA, les jetons visuels peuvent mieux interagir avec les jetons d'instruction, améliorant ainsi la capacité de perception du modèle et atténuant l'hallucination d'objets. Sans artifices, notre méthode d'alignement positionnel surpasse de loin les stratégies existantes de mitigation de l'hallucination sur plusieurs référentiels d'hallucination d'objets.
Dans un système d'IA composé, des composants tels qu'un appel LLM, un récupérateur, un interprète de code ou des outils sont interconnectés. Le comportement du système est principalement guidé par des paramètres tels que des instructions ou des définitions d'outils. Les récents progrès permettent l'optimisation de bout en bout de ces paramètres à l'aide d'un LLM. Notamment, l'utilisation d'un LLM en tant qu'optimiseur est particulièrement efficace car elle évite le calcul de gradient et peut générer un code et des instructions complexes. Cet article présente une étude des principes et des tendances émergentes dans l'optimisation des systèmes d'IA composés basée sur le LLM. Il couvre les archétypes des systèmes d'IA composés, les approches d'optimisation de bout en bout basées sur le LLM, ainsi que des perspectives sur les orientations futures et les impacts plus larges. Cette étude utilise des concepts d'analyse de programme pour offrir une vision unifiée de la manière dont un optimiseur LLM est incité à optimiser un système d'IA composé. La liste exhaustive de l'article est disponible sur https://github.com/linyuhongg/LLM-based-Optimization-of-Compound-AI-Systems.
Accélérer la recherche sur les Grands Modèles Multimodaux (LMMs) dans les langues autres que l'anglais est crucial pour améliorer les expériences des utilisateurs à travers des populations plus larges. Dans cet article, nous présentons JMMMU (Japanese MMMU), le premier banc d'essai japonais à grande échelle conçu pour évaluer les LMMs sur des tâches de niveau expert basées sur le contexte culturel japonais. Pour faciliter une évaluation culturellement complète, JMMMU propose deux sous-ensembles complémentaires : (i) un sous-ensemble culturellement agnostique (CA), où des sujets indépendants de la culture (par exemple, les mathématiques) sont sélectionnés et traduits en japonais, permettant une comparaison un à un avec son homologue anglais MMMU ; et (ii) un sous-ensemble culturellement spécifique (CS), comprenant des sujets nouvellement conçus qui reflètent le contexte culturel japonais. En utilisant le sous-ensemble CA, nous observons une baisse de performance dans de nombreux LMMs lorsqu'ils sont évalués en japonais, attribuable uniquement à la variation linguistique. En utilisant le sous-ensemble CS, nous révélons leur compréhension culturelle japonaise insuffisante. De plus, en combinant les deux sous-ensembles, nous identifions que certains LMMs se comportent bien sur le sous-ensemble CA mais pas sur le sous-ensemble CS, mettant en lumière une compréhension superficielle de la langue japonaise qui manque de profondeur dans la compréhension culturelle. Nous espérons que ce travail contribuera non seulement à faire progresser la performance des LMMs en japonais, mais servira également de guide pour créer des bancs d'essai de haute qualité et culturellement diversifiés pour le développement de LMMs multilingues. La page du projet se trouve à l'adresse https://mmmu-japanese-benchmark.github.io/JMMMU/.
Les coûts de calcul élevés des grands modèles de langage (GML) ont entraîné une multitude de recherches sur la compression des GML, via des méthodes telles que la quantification, la sparisation ou l'élagage structuré. Une nouvelle frontière dans ce domaine est donnée par des méthodes de compression dynamiques et non uniformes, qui ajustent les niveaux de compression (par exemple, la sparsité) par bloc ou même par couche afin de minimiser la perte de précision, tout en garantissant un seuil global de compression. Cependant, les méthodes actuelles reposent sur des heuristiques pour identifier "l'importance" d'une couche donnée pour la perte, basées sur des hypothèses telles que la monotonie de l'erreur, c'est-à-dire que l'erreur de compression du modèle de bout en bout est proportionnelle à la somme des erreurs par couche. Dans cet article, nous revisitons ce domaine et proposons une nouvelle approche générale pour la compression dynamique qui est optimalement prouvable dans une plage d'entrée donnée. Nous partons de l'observation motivante selon laquelle, en général, la monotonie de l'erreur ne s'applique pas aux GML : des modèles compressés avec une somme d'erreurs par couche plus faible peuvent être moins performants que des modèles avec des sommes d'erreurs plus élevées. Pour remédier à cela, nous proposons un nouveau cadre évolutif général pour la compression dynamique des GML appelé EvoPress, qui a une convergence prouvable, une faible complexité d'échantillonnage et d'évaluation. Nous montrons que ces garanties théoriques conduisent à des performances pratiques hautement compétitives pour la compression dynamique des modèles Llama, Mistral et Phi. Via EvoPress, nous établissons de nouveaux résultats de pointe pour toutes les approches de compression : élagage structurel (suppression de bloc/couche), sparsité non structurée, ainsi que la quantification avec des largeurs de bits dynamiques. Notre code est disponible sur https://github.com/IST-DASLab/EvoPress.
Le raisonnement mathématique est un domaine très actif de la recherche sur les Grands Modèles de Langage (GML) car c'est une caractéristique de l'intelligence artificielle. Cependant, peu d'études ont exploré comment le raisonnement mathématique est encodé dans les paramètres des GML et s'il s'agit d'une compétence pouvant être isolée dans un modèle. Ce faisant, cela pourrait permettre une intervention ciblée pour améliorer les performances en mathématiques sans altérer les comportements non mathématiques et favoriser la compréhension de la manière dont les modèles encodent le raisonnement mathématique. Nous introduisons la Neurochirurgie Mathématique (MathNeuro), une méthode pour isoler les paramètres spécifiques aux mathématiques dans les GML en n'utilisant que des passes avant. MathNeuro s'appuie sur des travaux existants en utilisant les poids et les activations pour calculer l'importance des paramètres, mais isole les paramètres spécifiques aux mathématiques en supprimant ceux importants pour les tâches de langage général. La taille des paramètres que MathNeuro identifie supprime la capacité de raisonnement mathématique d'un GML sans détruire sa capacité de langage général. Mettre à l'échelle ces paramètres par une petite constante améliore les performances d'un GML pré-entraîné ou ajusté par instruction de 4 à 17% sur GSM8K tout en laissant inchangé le comportement non mathématique. MathNeuro est également efficace en termes de données : la majeure partie de son efficacité est maintenue lors de l'identification des paramètres spécifiques aux mathématiques en utilisant un seul échantillon. MathNeuro met en lumière le potentiel des travaux futurs pour intervenir sur les paramètres spécifiques aux mathématiques.
La synthèse de vue nouvelle vise à générer de nouvelles vues d'une scène à partir de plusieurs images ou vidéos d'entrée, et des avancées récentes telles que le "3D Gaussian splatting" (3DGS) ont atteint un succès notable dans la production de rendus photoréalistes avec des pipelines efficaces. Cependant, générer des vues nouvelles de haute qualité dans des conditions difficiles, telles que des vues d'entrée éparses, reste difficile en raison d'un manque d'informations dans les zones sous-échantillonnées, entraînant souvent des artefacts visibles. Cet article présente 3DGS-Enhancer, un nouveau pipeline pour améliorer la qualité de représentation des représentations 3DGS. Nous exploitons des a priori de diffusion vidéo 2D pour résoudre le problème difficile de la cohérence des vues 3D, le reformulant comme l'atteinte d'une cohérence temporelle dans un processus de génération vidéo. 3DGS-Enhancer restaure les caractéristiques latentes cohérentes des vues nouvelles rendues et les intègre avec les vues d'entrée à travers un décodeur spatial-temporel. Les vues améliorées sont ensuite utilisées pour affiner le modèle 3DGS initial, améliorant significativement ses performances de rendu. Des expériences approfondies sur des ensembles de données à grande échelle de scènes illimitées démontrent que 3DGS-Enhancer offre des performances de reconstruction supérieures et des résultats de rendu haute fidélité par rapport aux méthodes de pointe. La page web du projet est https://xiliu8006.github.io/3DGS-Enhancer-project.
La coloscopie est actuellement l'une des méthodes de dépistage les plus sensibles pour le cancer colorectal. Cette étude explore les frontières des techniques de coloscopie intelligentes et leurs implications prospectives pour les applications médicales multimodales. Dans cette optique, nous commençons par évaluer les paysages actuels centrés sur les données et les modèles à travers quatre tâches de perception de scène coloscopique, comprenant la classification, la détection, la segmentation et la compréhension vision-langage. Cette évaluation nous permet d'identifier les défis spécifiques au domaine et révèle que la recherche multimodale en coloscopie reste ouverte à de nouvelles explorations. Pour embrasser l'ère multimodale à venir, nous établissons trois initiatives fondamentales : un ensemble de données d'accord multimodal à grande échelle, ColonINST, un modèle de langage multimodal conçu pour la coloscopie, ColonGPT, et un banc d'essai multimodal. Pour faciliter la surveillance continue de ce domaine en évolution rapide, nous mettons à disposition un site web public pour les dernières mises à jour : https://github.com/ai4colonoscopy/IntelliScope.