Articles de recherche en IA sélectionnés quotidiennement avec traductions
Avec l'introduction des techniques de génération vidéo basées sur la diffusion, la génération vidéo humaine conditionnée par l'audio a récemment réalisé des avancées significatives à la fois en termes de naturel du mouvement et de synthèse des détails du portrait. En raison du contrôle limité des signaux audio dans la conduite du mouvement humain, les méthodes existantes ajoutent souvent des signaux spatiaux auxiliaires pour stabiliser les mouvements, ce qui peut compromettre le naturel et la liberté du mouvement. Dans cet article, nous proposons un modèle de diffusion vidéo conditionné uniquement par l'audio de bout en bout nommé Loopy. Plus précisément, nous avons conçu un module temporel inter- et intra-clip ainsi qu'un module audio-vers-latents, permettant au modèle d'exploiter les informations de mouvement à long terme des données pour apprendre des motifs de mouvement naturels et améliorer la corrélation mouvement audio-portrait. Cette méthode élimine le besoin de modèles de mouvement spatial spécifiés manuellement utilisés dans les méthodes existantes pour contraindre le mouvement pendant l'inférence. Des expériences approfondies montrent que Loopy surpasse les récents modèles de diffusion de portrait pilotés par l'audio, offrant des résultats plus réalistes et de haute qualité dans divers scénarios.
Étendre les capacités de long-contexte des Modèles de Langage Multimodaux à Grande Échelle (MLLM) est crucial pour la compréhension vidéo, la compréhension d'images haute résolution et les agents multimodaux. Cela implique une série d'optimisations systématiques, incluant l'architecture du modèle, la construction des données et la stratégie d'entraînement, en abordant notamment des défis tels que la dégradation des performances avec un plus grand nombre d'images et des coûts computationnels élevés. Dans cet article, nous adaptons l'architecture du modèle à un hybride de blocs Mamba et Transformeur, abordons la construction des données avec des dépendances temporelles et spatiales parmi plusieurs images, et utilisons une stratégie d'entraînement progressive. Le modèle publié, LongLLaVA (Long-Context Large Language and Vision Assistant), est le premier MLLM hybride, qui a atteint un meilleur équilibre entre efficacité et efficacité. LongLLaVA obtient non seulement des résultats compétitifs sur divers benchmarks, mais maintient également un débit élevé et une faible consommation de mémoire. En particulier, il peut traiter près d'un millier d'images sur un seul GPU A100 80 Go, montrant des perspectives d'application prometteuses pour une large gamme de tâches.
Bien que les modèles de langage à grande échelle (LLM) actuels à long contexte aient démontré des capacités impressionnantes pour répondre aux questions des utilisateurs sur la base de textes étendus, le manque de citations dans leurs réponses rend la vérification par l'utilisateur difficile, suscitant des inquiétudes quant à leur fiabilité en raison de leurs éventuelles hallucinations. Dans ce travail, notre objectif est de permettre aux LLM à long contexte de générer des réponses avec des citations au niveau de la phrase, améliorant ainsi leur fidélité et leur vérifiabilité. Nous introduisons d'abord LongBench-Cite, un banc d'essai automatisé pour évaluer les performances des LLM actuels dans la réponse à des questions à long contexte avec des citations (LQAC), révélant un espace considérable pour l'amélioration. À cette fin, nous proposons CoF (Coarse to Fine), un pipeline novateur qui utilise des LLM prêts à l'emploi pour générer automatiquement des instances de questions-réponses à long contexte avec des citations précises au niveau de la phrase, et exploitons ce pipeline pour construire LongCite-45k, un ensemble de données à grande échelle pour LQAC. Enfin, nous entraînons LongCite-8B et LongCite-9B en utilisant l'ensemble de données LongCite-45k, leur permettant avec succès de générer des réponses précises et des citations au niveau de la phrase fines dans une seule sortie. Les résultats de l'évaluation sur LongBench-Cite montrent que nos modèles entraînés atteignent une qualité de citation de pointe, surpassant des modèles propriétaires avancés, y compris GPT-4o.
Cet article présente MMMU-Pro, une version robuste du benchmark Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU). MMMU-Pro évalue rigoureusement la véritable compréhension et les capacités de raisonnement des modèles multimodaux à travers un processus en trois étapes basé sur MMMU : (1) filtrer les questions pouvant être répondues par des modèles basés uniquement sur du texte, (2) augmenter les options de réponse candidates, et (3) introduire un cadre d'entrée basé uniquement sur la vision où les questions sont intégrées dans des images. Ce cadre met l'IA au défi de "voir" et "lire" simultanément, testant une compétence cognitive humaine fondamentale consistant à intégrer de manière transparente des informations visuelles et textuelles. Les résultats montrent que les performances des modèles sont nettement inférieures sur MMMU-Pro par rapport à MMMU, avec des écarts allant de 16,8% à 26,9% entre les modèles. Nous explorons l'impact des incitations OCR et du raisonnement Chain of Thought (CoT), constatant que les incitations OCR ont un effet minimal tandis que CoT améliore généralement les performances. MMMU-Pro fournit un outil d'évaluation plus rigoureux, imitant étroitement des scénarios du monde réel et offrant des orientations précieuses pour les futures recherches en IA multimodale.
Des études récentes démontrent de plus en plus que des données de haute qualité sont cruciales pour un pré-entraînement efficace des modèles de langage. Cependant, la définition précise de "haute qualité" reste peu explorée. En se concentrant sur le domaine du code, nous introduisons Arctic-SnowCoder-1.3B, un modèle de code de base efficace en données pré-entraîné sur 555 milliards de jetons à travers trois phases de données progressivement affinées : (1) pré-entraînement général avec 500 milliards de jetons de code de qualité standard, prétraités par un filtrage de base, une déduplication et une décontamination, (2) poursuite du pré-entraînement avec 50 milliards de jetons de haute qualité, sélectionnés de la phase un par un annotateur de qualité de style BERT formé pour distinguer un bon code de données aléatoires, en utilisant des exemples positifs tirés de fichiers de code de haute qualité, ainsi que des données d'instructions de Magicoder et StarCoder2-Instruct, et (3) pré-entraînement amélioré avec 5 milliards de données synthétiques créées par Llama-3.1-70B en utilisant les données de la phase deux comme graines, en adaptant l'approche Magicoder pour le pré-entraînement. Malgré son entraînement sur un ensemble de données limité, Arctic-SnowCoder atteint des performances de pointe sur BigCodeBench, un banc d'essai de codage axé sur des tâches de programmation pratiques et difficiles, par rapport à des modèles de taille similaire entraînés sur pas plus de 1 billion de jetons, surpassant Phi-1.5-1.3B de 36%. Sur tous les bancs d'essai évalués, Arctic-SnowCoder-1.3B bat StarCoderBase-3B pré-entraîné sur 1 billion de jetons. De plus, il égale les performances des principaux petits modèles de code de base entraînés sur des billions de jetons. Par exemple, Arctic-SnowCoder-1.3B surpasse StarCoder2-3B, pré-entraîné sur plus de 3.3 billions de jetons, sur HumanEval+, un banc d'essai qui évalue la génération de code au niveau de la fonction, et reste compétitif sur BigCodeBench. Notre évaluation présente une analyse complète justifiant divers choix de conception pour Arctic-SnowCoder. Surtout, nous constatons que la clé de données de haute qualité est son alignement avec la distribution des applications en aval.
Nous présentons un cadre pour la manipulation assistée par robot, qui se concentre sur deux défis fondamentaux : premièrement, adapter efficacement des modèles à grande échelle pour des tâches de compréhension des affordances de scène en aval, notamment dans des scénarios de la vie quotidienne où la collecte de données multi-tâches impliquant des humains nécessite des efforts considérables ; deuxièmement, apprendre efficacement les trajectoires de robot en ancrant le modèle d'affordance visuelle. Nous abordons le premier défi en utilisant une méthode d'ajustement de prompteur efficace en termes de paramètres qui ajoute des prompts textuels apprenables au modèle de vision figé pour prédire les affordances de manipulation dans des scénarios multi-tâches. Ensuite, nous proposons d'apprendre les trajectoires de robot guidées par les affordances dans une méthode supervisée de correspondance de flux. La correspondance de flux représente une politique visuo-motrice de robot comme un processus conditionnel de faire circuler des points de passage aléatoires vers des trajectoires de robot souhaitées. Enfin, nous introduisons un ensemble de données du monde réel avec 10 tâches liées aux Activités de la Vie Quotidienne pour tester notre cadre. Notre évaluation approfondie met en évidence que la méthode d'ajustement de prompteur proposée pour apprendre l'affordance de manipulation avec un prompteur de langage atteint des performances compétitives et dépasse même d'autres protocoles de fine-tuning à travers des échelles de données, tout en satisfaisant l'efficacité des paramètres. Apprendre des trajectoires de robot multi-tâches avec une seule politique de correspondance de flux conduit également à des performances systématiquement meilleures que les méthodes alternatives de clonage de comportement, surtout étant donné les distributions d'actions de robot multimodales. Notre cadre unifie de manière transparente l'apprentissage du modèle d'affordance et la génération de trajectoires avec la correspondance de flux pour la manipulation de robot.
Les scientifiques sociaux ont rapidement adopté de grands modèles de langage en raison de leur capacité à annoter des documents sans entraînement supervisé, une capacité connue sous le nom d'apprentissage sans étiquette. Cependant, en raison de leurs exigences en calcul, de leur coût et de leur nature souvent propriétaire, ces modèles sont souvent en contradiction avec les normes de réplication et de science ouverte. Cet article présente les modèles de langage Political DEBATE (DeBERTa Algorithm for Textual Entailment) pour la classification sans étiquette et à faible nombre d'exemples de documents politiques. Ces modèles ne sont pas seulement aussi bons, voire meilleurs, que les grands modèles de langage de pointe en matière de classification sans étiquette et à faible nombre d'exemples, mais ils sont également beaucoup plus efficaces et entièrement open source. En formant les modèles sur un simple échantillon aléatoire de 10 à 25 documents, ils peuvent surpasser les classificateurs supervisés formés sur des centaines ou des milliers de documents et les modèles génératifs de pointe avec des invitations complexes et élaborées. De plus, nous publions l'ensemble de données PolNLI utilisé pour entraîner ces modèles - un corpus de plus de 200 000 documents politiques avec des étiquettes très précises sur plus de 800 tâches de classification.
Les techniques de conversion vocale (VC) basées sur la diffusion, telles que VoiceGrad, ont suscité un intérêt en raison de leurs performances élevées en termes de qualité de la parole et de similarité des locuteurs. Cependant, une limitation notable est la lenteur de l'inférence causée par la diffusion inverse multi-étapes. Par conséquent, nous proposons FastVoiceGrad, une nouvelle VC basée sur la diffusion en une étape qui réduit le nombre d'itérations de dizaines à une seule tout en conservant les performances élevées de la VC basée sur la diffusion multi-étapes. Nous obtenons le modèle en utilisant la distillation de diffusion conditionnelle adversariale (ACDD), exploitant la capacité des réseaux antagonistes génératifs et des modèles de diffusion tout en réexaminant les états initiaux lors de l'échantillonnage. Les évaluations de la VC de tout-à-tout en une seule étape démontrent que FastVoiceGrad atteint des performances de VC supérieures ou comparables à celles des précédentes VC basées sur la diffusion multi-étapes tout en améliorant la vitesse d'inférence. Des échantillons audio sont disponibles sur https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastvoicegrad/.