Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de diffusion ont obtenu un succès remarquable dans la génération d'images et de vidéos. Dans ce travail, nous démontrons que les modèles de diffusion peuvent également générer des paramètres de réseaux neuronaux à haute performance. Notre approche est simple, utilisant un autoencodeur et un modèle de diffusion latente standard. L'autoencodeur extrait des représentations latentes d'un sous-ensemble des paramètres du réseau entraîné. Un modèle de diffusion est ensuite entraîné à synthétiser ces représentations latentes des paramètres à partir de bruit aléatoire. Il génère ensuite de nouvelles représentations qui sont passées à travers le décodeur de l'autoencodeur, dont les sorties sont prêtes à être utilisées comme nouveaux sous-ensembles de paramètres du réseau. À travers diverses architectures et jeux de données, notre processus de diffusion génère de manière cohérente des modèles de performance comparable ou améliorée par rapport aux réseaux entraînés, avec un coût supplémentaire minimal. Notamment, nous constatons empiriquement que les modèles générés se comportent différemment des réseaux entraînés. Nos résultats encouragent une exploration plus approfondie de l'utilisation polyvalente des modèles de diffusion.
Nous présentons le réglage d'instructions généralisé (appelé GLAN), une méthode générale et évolutive pour le réglage d'instructions des grands modèles de langage (LLMs). Contrairement aux travaux antérieurs qui s'appuient sur des exemples de départ ou des ensembles de données existants pour construire des données de réglage d'instructions, GLAN utilise exclusivement une taxonomie pré-établie des connaissances et capacités humaines comme entrée et génère des données d'instructions synthétiques à grande échelle couvrant toutes les disciplines. Plus précisément, inspirés par la structure systématique du système éducatif humain, nous construisons la taxonomie en décomposant les connaissances et capacités humaines en divers domaines, sous-domaines et, finalement, disciplines distinctes de manière semi-automatique, facilitée par les LLMs. Par la suite, nous générons une liste exhaustive de sujets pour chaque discipline et procédons à la conception d'un programme d'études adapté à chaque sujet, en utilisant à nouveau les LLMs. Avec les concepts clés détaillés dans chaque session de cours du programme, nous sommes en mesure de générer des instructions variées couvrant un large spectre de connaissances et de compétences humaines. Des expériences approfondies sur des grands modèles de langage (par exemple, Mistral) démontrent que GLAN excelle dans de multiples dimensions, allant du raisonnement mathématique, de la programmation, des examens académiques, du raisonnement logique à la compréhension générale d'instructions, sans utiliser de données d'entraînement spécifiques à ces tâches. De plus, GLAN permet une personnalisation facile et de nouveaux domaines ou compétences peuvent être ajoutés en intégrant simplement un nouveau nœud dans notre taxonomie.
La plupart des modèles de légendage vidéo sont conçus pour traiter de courts clips vidéo de quelques secondes et produire un texte décrivant des concepts visuels de bas niveau (par exemple, des objets, des scènes, des actions atomiques). Cependant, la majorité des vidéos du monde réel durent plusieurs minutes ou heures et possèdent une structure hiérarchique complexe couvrant différentes granularités temporelles. Nous proposons Video ReCap, un modèle de légendage vidéo récursif capable de traiter des entrées vidéo de longueurs radicalement différentes (de 1 seconde à 2 heures) et de produire des légendes vidéo à plusieurs niveaux hiérarchiques. L'architecture récursive vidéo-langage exploite la synergie entre les différentes hiérarchies vidéo et permet de traiter efficacement des vidéos de plusieurs heures. Nous utilisons un schéma d'apprentissage par curriculum pour apprendre la structure hiérarchique des vidéos, en commençant par des légendes au niveau des clips décrivant des actions atomiques, puis en se concentrant sur des descriptions au niveau des segments, et en concluant par la génération de résumés pour des vidéos de plusieurs heures. Par ailleurs, nous introduisons le jeu de données Ego4D-HCap en enrichissant Ego4D avec 8 267 résumés vidéo à long terme collectés manuellement. Notre modèle récursif peut générer de manière flexible des légendes à différents niveaux hiérarchiques tout en étant également utile pour d'autres tâches complexes de compréhension vidéo, telles que la réponse à des questions sur vidéo (VideoQA) sur EgoSchema. Les données, le code et les modèles sont disponibles à l'adresse suivante : https://sites.google.com/view/vidrecap.
Nous présentons VideoPrism, un encodeur vidéo polyvalent qui aborde diverses tâches de compréhension vidéo avec un seul modèle figé. Nous pré-entraînons VideoPrism sur un corpus hétérogène contenant 36 millions de paires vidéo-légendes de haute qualité et 582 millions de clips vidéo avec du texte parallèle bruité (par exemple, des transcriptions ASR). L'approche de pré-entraînement améliore l'auto-encodage masqué par une distillation globale-locale des embeddings sémantiques vidéo et un schéma de mélange de tokens, permettant à VideoPrism de se concentrer principalement sur la modalité vidéo tout en exploitant le texte précieux associé aux vidéos. Nous testons largement VideoPrism sur quatre grands groupes de tâches de compréhension vidéo, allant des questions-réponses sur des vidéos web à la vision par ordinateur pour la science, obtenant des performances de pointe sur 30 des 33 benchmarks de compréhension vidéo.
Pour que les assistants basés sur de grands modèles de langage (LLM) puissent s'adapter efficacement à des besoins d'information en évolution, il est essentiel de mettre à jour leurs connaissances factuelles par un entraînement continu sur de nouvelles données. La méthode standard pour y parvenir consiste en un pré-entraînement continu sur de nouveaux documents, suivi d'un réglage par instructions sur des paires question-réponse (QA). Cependant, nous constatons que les LLM entraînés selon cette méthode peinent à répondre aux questions, bien que la perplexité des documents soit minimisée. Nous avons observé que les paires QA sont généralement simples, tandis que les documents sont plus complexes, entrelaçant de nombreuses affirmations factuelles de manière intricate. Par conséquent, nous émettons l'hypothèse qu'il est bénéfique d'exposer les LLM à des paires QA avant le pré-entraînement continu sur des documents, afin que le processus d'encodage des connaissances à partir de documents complexes prenne en compte la manière dont ces connaissances sont accédées via des questions. Sur cette base, nous proposons le pré-réglage par instructions (PIT), une méthode qui effectue un réglage par instructions sur des questions avant l'entraînement sur des documents. Cela contraste avec le réglage par instructions standard, qui apprend à extraire des connaissances après l'entraînement sur des documents. Des expériences approfondies et des études d'ablation démontrent que le PIT améliore significativement la capacité des LLM à absorber des connaissances à partir de nouveaux documents, surpassant le réglage par instructions standard de 17,8 %.
Les LLM (modèles de langage de grande taille) ont transformé le traitement du langage naturel (NLP) et montré un potentiel prometteur dans divers domaines. Cependant, leur application en finance reste sous-explorée en raison d'un manque d'évaluations approfondies et de la complexité des tâches financières. Ce constat, combiné au développement rapide des LLM, souligne le besoin urgent d'un benchmark d'évaluation systématique pour ces modèles dans le domaine financier. Dans cet article, nous présentons FinBen, le premier benchmark d'évaluation complet et open source, spécialement conçu pour évaluer de manière approfondie les capacités des LLM dans le domaine financier. FinBen englobe 35 jeux de données couvrant 23 tâches financières, organisées en trois niveaux de difficulté inspirés de la théorie de Cattell-Horn-Carroll, afin d'évaluer les capacités cognitives des LLM en raisonnement inductif, mémoire associative, raisonnement quantitatif, intelligence cristallisée, et plus encore. Notre évaluation de 15 LLM représentatifs, incluant GPT-4, ChatGPT et le dernier Gemini, révèle des insights sur leurs forces et limites dans le domaine financier. Les résultats montrent que GPT-4 excelle en quantification, extraction, raisonnement numérique et trading d'actions, tandis que Gemini brille en génération et prévision ; cependant, les deux modèles rencontrent des difficultés avec l'extraction complexe et la prévision, indiquant un besoin clair d'améliorations ciblées. Le réglage par instruction améliore les performances sur les tâches simples, mais ne parvient pas à renforcer les capacités de raisonnement complexe et de prévision. FinBen vise à évaluer continuellement les LLM en finance, en favorisant le développement de l'IA grâce à des mises à jour régulières des tâches et des modèles.
Dans cet article, nous proposons un algorithme permettant le raffinement conjoint de la pose de la caméra et de la géométrie de la scène représentée par un tenseur de faible rang décomposé, en utilisant uniquement des images 2D comme supervision. Tout d'abord, nous menons une étude préliminaire basée sur un signal 1D et relions nos observations aux scénarios 3D, où l'optimisation naïve conjointe de la pose sur des NeRF basés sur des voxels peut facilement conduire à des solutions sous-optimales. De plus, en nous appuyant sur l'analyse du spectre de fréquences, nous proposons d'appliquer des filtres gaussiens convolutifs sur les champs de radiance 2D et 3D pour un entraînement allant du grossier au fin, ce qui permet l'optimisation conjointe de la pose de la caméra. En exploitant la propriété de décomposition du tenseur de faible rang décomposé, notre méthode atteint un effet équivalent à celui d'une convolution 3D par force brute tout en induisant un faible surcoût computationnel. Pour améliorer davantage la robustesse et la stabilité de l'optimisation conjointe, nous proposons également des techniques de supervision 2D lissée, des paramètres de noyau aléatoirement mis à l'échelle, et un masque de perte guidé par les contours. Des évaluations quantitatives et qualitatives approfondies démontrent que notre cadre proposé atteint des performances supérieures en synthèse de nouvelles vues ainsi qu'une convergence rapide pour l'optimisation.
Cet article présente une architecture neuronale, MVDiffusion++, pour la reconstruction d'objets 3D, qui synthétise des vues denses et haute résolution d'un objet à partir d'une ou de quelques images sans informations sur la pose de la caméra. MVDiffusion++ atteint une flexibilité et une scalabilité supérieures grâce à deux idées étonnamment simples : 1) Une « architecture sans pose » où l'auto-attention standard parmi les caractéristiques latentes 2D apprend la cohérence 3D à travers un nombre arbitraire de vues conditionnelles et générées sans utiliser explicitement les informations de pose de la caméra ; et 2) Une « stratégie d'abandon de vues » qui supprime un nombre substantiel de vues de sortie pendant l'entraînement, réduisant ainsi l'empreinte mémoire à l'entraînement et permettant la synthèse de vues denses et haute résolution au moment du test. Nous utilisons Objaverse pour l'entraînement et Google Scanned Objects pour l'évaluation avec des métriques standard de synthèse de nouvelles vues et de reconstruction 3D, où MVDiffusion++ surpasse significativement l'état de l'art actuel. Nous démontrons également un exemple d'application texte-à-3D en combinant MVDiffusion++ avec un modèle génératif texte-à-image.
La création manuelle de textures pour des maillages 3D est chronophage, même pour des créateurs de contenu visuel experts. Nous proposons une approche rapide pour texturer automatiquement un maillage 3D en entrée à partir d'une invite textuelle fournie par l'utilisateur. De manière cruciale, notre approche dissocie l'éclairage du matériau de surface/réflectance dans la texture résultante, permettant ainsi au maillage d'être correctement rééclairé et rendu dans n'importe quel environnement lumineux. Nous introduisons LightControlNet, un nouveau modèle de génération d'images à partir de texte basé sur l'architecture ControlNet, qui permet de spécifier l'éclairage souhaité sous forme d'une image de conditionnement pour le modèle. Notre pipeline de génération de textures à partir de texte construit ensuite la texture en deux étapes. La première étape produit un ensemble épars de vues de référence visuellement cohérentes du maillage en utilisant LightControlNet. La deuxième étape applique une optimisation de texture basée sur le Score Distillation Sampling (SDS) qui fonctionne avec LightControlNet pour améliorer la qualité de la texture tout en dissociant le matériau de surface de l'éclairage. Notre pipeline est nettement plus rapide que les méthodes précédentes de génération de textures à partir de texte, tout en produisant des textures de haute qualité et rééclairables.
Le toucher est une modalité sensorielle importante pour les humains, mais il n'a pas encore été intégré dans un modèle génératif de langage multimodal. Cela s'explique en partie par la difficulté d'obtenir des étiquettes en langage naturel pour les données tactiles et par la complexité d'aligner les mesures tactiles avec les observations visuelles et les descriptions linguistiques. Pour combler cette lacune, ce travail introduit un nouveau jeu de données de 44K paires vision-toucher capturées en conditions réelles, avec des étiquettes en anglais annotées par des humains (10%) et des pseudo-étiquettes textuelles générées par GPT-4V (90%). Nous utilisons ce jeu de données pour entraîner un encodeur tactile aligné vision-langage pour la classification à vocabulaire ouvert, ainsi qu'un modèle toucher-vision-langage (TVL) pour la génération de texte utilisant cet encodeur. Les résultats suggèrent qu'en intégrant le toucher, le modèle TVL améliore l'alignement toucher-vision-langage (+29% en précision de classification) par rapport aux modèles existants entraînés sur toute paire de ces modalités. Bien qu'une petite fraction du jeu de données soit annotée par des humains, le modèle TVL démontre une meilleure compréhension visuo-tactile que GPT-4V (+12%) et les modèles vision-langage open-source (+32%) sur un nouveau benchmark de compréhension toucher-vision. Code et données : https://tactile-vlm.github.io.
Les avancées remarquables des Modèles de Langage Multimodaux de Grande Taille (MLLMs) ne les ont pas rendus invulnérables aux défis, notamment dans le contexte de la gestion d'informations trompeuses dans les prompts, ce qui entraîne des réponses hallucinées dans de telles conditions. Pour évaluer quantitativement cette vulnérabilité, nous présentons MAD-Bench, un benchmark soigneusement conçu contenant 850 échantillons de test répartis en 6 catégories, telles que les objets inexistants, le décompte d'objets, les relations spatiales et les confusions visuelles. Nous fournissons une analyse approfondie des MLLMs populaires, allant de GPT-4V et Gemini-Pro à des modèles open-source comme LLaVA-1.5 et CogVLM. Empiriquement, nous observons des écarts de performance significatifs entre GPT-4V et les autres modèles ; et les modèles précédemment robustes, ajustés par instruction, tels que LRV-Instruction et LLaVA-RLHF, ne sont pas efficaces sur ce nouveau benchmark. Alors que GPT-4V atteint une précision de 75,02 % sur MAD-Bench, la précision de tout autre modèle dans nos expériences varie de 5 % à 35 %. Nous proposons en outre un remède qui consiste à ajouter un paragraphe supplémentaire aux prompts trompeurs pour encourager les modèles à réfléchir à deux fois avant de répondre à la question. Étonnamment, cette méthode simple peut même doubler la précision ; cependant, les chiffres absolus restent trop faibles pour être satisfaisants. Nous espérons que MAD-Bench pourra servir de benchmark précieux pour stimuler des recherches supplémentaires afin d'améliorer la résilience des modèles face aux prompts trompeurs.
La synthèse de documents uniques dans le domaine de l'actualité a connu des progrès significatifs en matière de fidélité ces dernières années, grâce aux recherches sur l'évaluation de la cohérence factuelle, ou des hallucinations. Nous nous demandons si ces avancées se transposent à d'autres domaines de la synthèse de texte. Nous proposons un nouveau benchmark d'évaluation pour la synthèse de dialogues centrés sur un sujet, générés par des modèles de langage de différentes tailles. Nous fournissons des annotations humaines binaires au niveau des phrases sur la cohérence factuelle de ces résumés, ainsi que des explications détaillées des phrases incohérentes sur le plan factuel. Notre analyse montre que les modèles de langage existants produisent un nombre significatif d'erreurs factuelles dans le domaine des dialogues, quelle que soit la taille du modèle. D'autre part, lorsque les modèles de langage, y compris GPT-4, sont utilisés comme évaluateurs binaires de la factualité, leurs performances sont médiocres et peuvent être surpassées par les métriques spécialisées d'évaluation de la factualité les plus récentes. Enfin, nous avons mené une analyse des types d'hallucinations à l'aide d'une taxonomie d'erreurs soigneusement élaborée. Nous constatons qu'il existe une diversité d'erreurs et de distributions d'erreurs dans les résumés générés par les modèles, et que les métriques non basées sur les modèles de langage peuvent capturer tous les types d'erreurs mieux que les évaluateurs basés sur ces modèles.
Les modèles de diffusion ont réalisé des avancées remarquables dans la génération d'images à partir de texte. Cependant, les modèles existants rencontrent encore de nombreuses difficultés face à la génération compositionnelle d'objets multiples. Dans cet article, nous proposons un nouveau cadre de génération d'images à partir de texte, sans nécessité d'entraînement et facilement transférable, nommé RealCompo, qui vise à exploiter les avantages des modèles de génération d'images à partir de texte et de mise en page pour améliorer à la fois le réalisme et la compositionnalité des images générées. Un équilibreur intuitif et novateur est proposé pour équilibrer dynamiquement les forces des deux modèles lors du processus de débruitage, permettant une utilisation plug-and-play de n'importe quel modèle sans entraînement supplémentaire. Des expériences approfondies montrent que notre RealCompo surpasse systématiquement les modèles de pointe de génération d'images à partir de texte et de mise en page dans la génération compositionnelle d'objets multiples, tout en maintenant un réalisme et une compositionnalité satisfaisants des images générées. Le code est disponible à l'adresse https://github.com/YangLing0818/RealCompo.