Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le Transformer a tendance à allouer trop d'attention à des contextes non pertinents. Dans ce travail, nous introduisons le Diff Transformer, qui amplifie l'attention portée au contexte pertinent tout en annulant le bruit. Plus précisément, le mécanisme d'attention différentielle calcule les scores d'attention comme la différence entre deux cartes d'attention softmax distinctes. La soustraction annule le bruit, favorisant l'émergence de schémas d'attention clairsemés. Les résultats expérimentaux sur la modélisation du langage montrent que le Diff Transformer surpasse le Transformer dans divers contextes d'augmentation de la taille du modèle et du nombre de jetons d'entraînement. Plus intrigant encore, il offre des avantages notables dans des applications pratiques telles que la modélisation de longs contextes, la récupération d'informations clés, l'atténuation des hallucinations, l'apprentissage en contexte et la réduction des valeurs aberrantes d'activation. En étant moins distrait par des contextes non pertinents, le Diff Transformer peut atténuer les hallucinations dans la réponse aux questions et la résumé de texte. Pour l'apprentissage en contexte, le Diff Transformer améliore non seulement la précision mais est également plus robuste à la permutation d'ordre, qui était considérée comme un problème de robustesse chronique. Les résultats placent le Diff Transformer comme une architecture très efficace et prometteuse pour faire progresser les grands modèles de langage.
Cet article présente un cadre avancé de résolution de problèmes mathématiques, LLaMA-Berry, pour améliorer la capacité de raisonnement mathématique des grands modèles de langage (LLMs). Le cadre combine la recherche arborescente Monte Carlo (MCTS) avec l'auto-affinement itératif pour optimiser le chemin de raisonnement et utilise un modèle de récompense par paires pour évaluer différents chemins globalement. En exploitant les capacités d'auto-critique et de réécriture des LLMs, l'auto-affinement appliqué à MCTS (SR-MCTS) surmonte les inefficacités et les limitations des algorithmes de recherche pas à pas et gloutons conventionnels en favorisant une exploration plus efficace des espaces de solutions. Le modèle de récompense par préférence par paires (PPRM), inspiré de l'apprentissage par renforcement à partir des retours humains (RLHF), est ensuite utilisé pour modéliser les préférences par paires entre les solutions, en utilisant une méthode de comptage de Borda améliorée (EBC) pour synthétiser ces préférences en un score de classement global afin de trouver de meilleures réponses. Cette approche aborde les défis de la variabilité des scores et des distributions non indépendantes dans les tâches de raisonnement mathématique. Le cadre a été testé sur des bancs d'essai généraux et avancés, montrant des performances supérieures en termes d'efficacité de recherche et de capacité de résolution de problèmes par rapport aux méthodes existantes telles que ToT et rStar, notamment dans des bancs d'essai de niveau olympique complexes, y compris GPQA, AIME24 et AMC23.
Les grands modèles de langage (LLM) produisent souvent des erreurs, y compris des inexactitudes factuelles, des biais et des échecs de raisonnement, collectivement appelés "hallucinations". Des études récentes ont démontré que les états internes des LLM codent des informations concernant la véracité de leurs résultats, et que ces informations peuvent être utilisées pour détecter les erreurs. Dans ce travail, nous montrons que les représentations internes des LLM codent beaucoup plus d'informations sur la véracité que ce qui était précédemment reconnu. Nous découvrons d'abord que les informations de véracité sont concentrées dans des jetons spécifiques, et en exploitant cette propriété, nous améliorons significativement les performances de détection d'erreurs. Cependant, nous montrons que de tels détecteurs d'erreurs ne parviennent pas à généraliser à travers les ensembles de données, ce qui implique que - contrairement aux affirmations antérieures - le codage de la véracité n'est pas universel mais plutôt multifacette. Ensuite, nous montrons que les représentations internes peuvent également être utilisées pour prédire les types d'erreurs que le modèle est susceptible de commettre, facilitant le développement de stratégies d'atténuation adaptées. Enfin, nous révélons une divergence entre le codage interne des LLM et leur comportement externe : ils peuvent coder la bonne réponse, mais générer systématiquement une réponse incorrecte. Dans l'ensemble, ces observations approfondissent notre compréhension des erreurs des LLM du point de vue interne du modèle, ce qui peut orienter les futures recherches sur l'amélioration de l'analyse et de l'atténuation des erreurs.
Les modèles de diffusion texte-vers-image (T2I) ont révolutionné la création de contenu visuel, mais étendre ces capacités à la génération texte-vers-vidéo (T2V) reste un défi, en particulier pour préserver la cohérence temporelle. Les méthodes existantes visant à améliorer la cohérence entraînent souvent des compromis tels qu'une qualité d'image réduite et un temps de calcul impraticable. Pour résoudre ces problèmes, nous présentons VideoGuide, un nouveau cadre qui améliore la cohérence temporelle des modèles T2V pré-entraînés sans nécessiter de formation supplémentaire ou d'ajustement fin. Au lieu de cela, VideoGuide exploite un modèle de diffusion vidéo pré-entraîné (VDM) ou lui-même en tant que guide au début de l'inférence, améliorant la qualité temporelle en interpolant les échantillons débruités du modèle guide dans le processus de débruitage du modèle d'échantillonnage. La méthode proposée apporte une amélioration significative de la cohérence temporelle et de la fidélité de l'image, offrant une solution rentable et pratique qui met en synergie les forces de différents modèles de diffusion vidéo. De plus, nous démontrons la distillation préalable, révélant que les modèles de base peuvent obtenir une cohérence textuelle améliorée en utilisant la meilleure donnée antérieure du modèle guide grâce à la méthode proposée. Page du projet : http://videoguide2025.github.io/
Malgré le remarquable succès obtenu par les réseaux neuronaux, en particulier ceux représentés par MLP et Transformer, nous révélons qu'ils présentent des défauts potentiels dans la modélisation et le raisonnement de la périodicité, c'est-à-dire qu'ils ont tendance à mémoriser les données périodiques plutôt que de comprendre véritablement les principes sous-jacents de la périodicité. Cependant, la périodicité est une caractéristique cruciale dans diverses formes de raisonnement et de généralisation, soutenant la prévisibilité à travers des systèmes naturels et artificiels grâce à des motifs récurrents dans les observations. Dans cet article, nous proposons FAN, une nouvelle architecture de réseau basée sur l'Analyse de Fourier, qui renforce la capacité de modéliser et de raisonner efficacement sur les phénomènes périodiques. En introduisant les Séries de Fourier, la périodicité est naturellement intégrée dans la structure et les processus computationnels du réseau neuronal, permettant ainsi une expression et une prédiction plus précises des motifs périodiques. En tant qu'alternative prometteuse au perceptron multi-couches (MLP), FAN peut remplacer MLP de manière transparente dans divers modèles avec moins de paramètres et de FLOPs. À travers des expériences approfondies, nous démontrons l'efficacité de FAN dans la modélisation et le raisonnement sur les fonctions périodiques, ainsi que la supériorité et la généralisabilité de FAN à travers une gamme de tâches du monde réel, y compris la représentation de formules symboliques, la prévision de séries temporelles et la modélisation de langage.
Les récentes avancées dans les Modèles de Langage de Grande Taille (LLM) ont suscité un intérêt pour leurs capacités de raisonnement formel, en particulier en mathématiques. Le banc d'essai GSM8K est largement utilisé pour évaluer le raisonnement mathématique des modèles sur des questions de niveau scolaire. Bien que les performances des LLM sur GSM8K se soient considérablement améliorées ces dernières années, il reste incertain que leurs capacités de raisonnement mathématique aient réellement progressé, soulevant des questions sur la fiabilité des métriques rapportées. Pour répondre à ces préoccupations, nous menons une étude à grande échelle sur plusieurs modèles ouverts et fermés de pointe. Pour surmonter les limites des évaluations existantes, nous introduisons GSM-Symbolic, un banc d'essai amélioré créé à partir de modèles symboliques qui permettent la génération d'un ensemble diversifié de questions. GSM-Symbolic permet des évaluations plus contrôlables, offrant des aperçus clés et des métriques plus fiables pour mesurer les capacités de raisonnement des modèles. Nos résultats révèlent que les LLM présentent une variance notable lorsqu'ils répondent à différentes instanciations de la même question. En particulier, les performances de tous les modèles diminuent lorsque seuls les valeurs numériques de la question sont modifiées dans le banc d'essai GSM-Symbolic. De plus, nous étudions la fragilité du raisonnement mathématique dans ces modèles et montrons que leurs performances se détériorent significativement à mesure que le nombre de clauses dans une question augmente. Nous émettons l'hypothèse que ce déclin est dû au fait que les LLM actuels ne peuvent pas effectuer de raisonnement logique authentique ; ils reproduisent les étapes de raisonnement de leurs données d'entraînement. L'ajout d'une seule clause qui semble pertinente à la question entraîne des baisses de performance significatives (jusqu'à 65 %) sur tous les modèles de pointe, même si la clause ne contribue pas à la chaîne de raisonnement nécessaire pour la réponse finale. Dans l'ensemble, notre travail offre une compréhension plus nuancée des capacités et des limites des LLM en matière de raisonnement mathématique.
Les avancées des modèles de langage (LLM) ont suscité un intérêt croissant pour le développement d'agents linguistiques basés sur les LLM afin d'automatiser la découverte scientifique de bout en bout, ce qui a suscité à la fois l'excitation et le scepticisme quant aux véritables capacités de tels agents. Dans ce travail, nous soutenons qu'un agent pour automatiser pleinement la découverte scientifique doit être capable d'accomplir toutes les tâches essentielles du flux de travail. Ainsi, nous demandons une évaluation rigoureuse des agents sur des tâches individuelles dans un flux de travail scientifique avant de faire des affirmations audacieuses sur l'automatisation de bout en bout. À cette fin, nous présentons ScienceAgentBench, un nouveau banc d'essai pour évaluer les agents linguistiques pour la découverte scientifique basée sur les données. Pour garantir l'authenticité scientifique et la pertinence du monde réel de notre banc d'essai, nous extrayons 102 tâches de 44 publications évaluées par des pairs dans quatre disciplines et faisons appel à neuf experts en la matière pour les valider. Nous unifions la sortie cible pour chaque tâche dans un fichier de programme Python autonome et utilisons une gamme de métriques d'évaluation pour examiner les programmes générés, les résultats d'exécution et les coûts. Chaque tâche passe par plusieurs cycles de validation manuelle par des annotateurs et des experts en la matière pour garantir sa qualité d'annotation et sa plausibilité scientifique. Nous proposons également deux stratégies efficaces pour atténuer les préoccupations de contamination des données. En utilisant notre banc d'essai, nous évaluons cinq LLMs open-weight et propriétaires, chacun avec trois cadres : sollicitation directe, OpenHands et auto-débogage. Avec trois tentatives pour chaque tâche, l'agent le plus performant ne peut résoudre que 32,4 % des tâches de manière indépendante et 34,3 % avec des connaissances fournies par des experts. Ces résultats soulignent les capacités limitées des agents linguistiques actuels à générer du code pour la découverte basée sur les données, sans parler de l'automatisation de bout en bout pour la recherche scientifique.
Les grands modèles de langage multimodaux (MLLM) transforment les capacités des agents d'interface utilisateur graphique (GUI), facilitant leur transition des simulations contrôlées aux applications réelles complexes sur différentes plateformes. Cependant, l'efficacité de ces agents dépend de la robustesse de leur capacité d'ancrage. Les agents GUI actuels utilisent principalement des représentations basées sur du texte telles que HTML ou des arbres d'accessibilité, qui, malgré leur utilité, introduisent souvent du bruit, une incomplétude et une surcharge computationnelle accrue. Dans cet article, nous préconisons une incarnation semblable à celle des humains pour les agents GUI qui perçoivent l'environnement entièrement de manière visuelle et effectuent directement des opérations au niveau des pixels sur l'interface utilisateur graphique. La clé réside dans les modèles d'ancrage visuel qui peuvent mapper avec précision les expressions de référence diverses des éléments GUI à leurs coordonnées sur l'interface graphique sur différentes plateformes. Nous montrons qu'une recette simple, comprenant des données synthétiques basées sur le web et une légère adaptation de l'architecture LLaVA, est étonnamment efficace pour entraîner de tels modèles d'ancrage visuel. Nous avons collecté le plus grand ensemble de données pour l'ancrage visuel GUI à ce jour, contenant 10 millions d'éléments GUI et leurs expressions de référence sur plus de 1,3 million de captures d'écran, et l'avons utilisé pour entraîner UGround, un modèle d'ancrage visuel universel solide pour les agents GUI. Les résultats empiriques sur six benchmarks couvrant trois catégories (ancrage, agent hors ligne et agent en ligne) montrent que 1) UGround surpasse nettement les modèles d'ancrage visuel existants pour les agents GUI, jusqu'à 20% absolus, et 2) les agents avec UGround surpassent les agents de pointe, malgré le fait que les agents existants utilisent une entrée basée sur du texte supplémentaire tandis que les nôtres utilisent uniquement la perception visuelle. Ces résultats soutiennent fortement la faisabilité et les promesses des agents GUI qui naviguent dans le monde numérique comme le font les humains.
Nous présentons UniMuMo, un modèle multimodal unifié capable de prendre des données textuelles, musicales et de mouvement arbitraires en tant que conditions d'entrée pour générer des sorties dans les trois modalités. Pour pallier le manque de données synchronisées dans le temps, nous alignons des données musicales et de mouvement non appariées en fonction de motifs rythmiques pour exploiter les ensembles de données existants de musique seule et de mouvement seul à grande échelle. En convertissant la musique, le mouvement et le texte en une représentation basée sur des jetons, notre modèle relie ces modalités à travers une architecture de transformateur encodeur-décodeur unifiée. Pour prendre en charge plusieurs tâches de génération dans un seul cadre, nous introduisons plusieurs améliorations architecturales. Nous proposons d'encoder le mouvement avec un codebook musical, en cartographiant le mouvement dans le même espace de caractéristiques que la musique. Nous introduisons un schéma de génération parallèle musique-mouvement qui unifie toutes les tâches de génération de musique et de mouvement dans une seule architecture de décodeur de transformateur avec une seule tâche d'entraînement de génération conjointe musique-mouvement. De plus, le modèle est conçu en affinant des modèles pré-entraînés monomodal existants, réduisant ainsi considérablement les exigences computationnelles. Des expériences approfondies démontrent qu'UniMuMo obtient des résultats compétitifs sur tous les bancs d'essai de génération unidirectionnelle dans les modalités musique, mouvement et texte. Les résultats quantitatifs sont disponibles sur la page du projet : https://hanyangclarence.github.io/unimumo_demo/.
Estimer la géométrie à partir de scènes dynamiques, où les objets se déplacent et se déforment au fil du temps, reste un défi majeur en vision par ordinateur. Les approches actuelles reposent souvent sur des pipelines multi-étapes ou des optimisations globales qui décomposent le problème en sous-tâches, telles que la profondeur et le flux, ce qui conduit à des systèmes complexes sujets aux erreurs. Dans cet article, nous présentons Motion DUSt3R (MonST3R), une nouvelle approche axée sur la géométrie qui estime directement la géométrie par pas de temps à partir de scènes dynamiques. Notre idée clé est qu'en estimant simplement une carte de points pour chaque pas de temps, nous pouvons adapter efficacement la représentation de DUST3R, précédemment utilisée uniquement pour les scènes statiques, aux scènes dynamiques. Cependant, cette approche présente un défi important : la rareté des données d'entraînement adaptées, à savoir des vidéos dynamiques posées avec des étiquettes de profondeur. Malgré cela, nous montrons qu'en posant le problème comme une tâche de fine-tuning, en identifiant plusieurs ensembles de données adaptés, et en formant stratégiquement le modèle sur ces données limitées, nous pouvons étonnamment permettre au modèle de gérer les dynamiques, même sans une représentation explicite du mouvement. Sur cette base, nous introduisons de nouvelles optimisations pour plusieurs tâches vidéo spécifiques et démontrons de solides performances en termes d'estimation de la profondeur vidéo et de la pose de la caméra, surpassant les travaux antérieurs en termes de robustesse et d'efficacité. De plus, MonST3R montre des résultats prometteurs pour la reconstruction principalement feed-forward en 4D.
Malgré les avancées dans les méthodes de conversion texte-en-musique (TTM) basées sur la diffusion, la génération efficace et de haute qualité reste un défi. Nous présentons Presto!, une approche d'accélération de l'inférence pour les transformateurs de diffusion basés sur les partitions en réduisant à la fois les étapes d'échantillonnage et le coût par étape. Pour réduire les étapes, nous développons une nouvelle méthode de distillation de correspondance de distribution basée sur les partitions (DMD) pour la famille de modèles de diffusion EDM, la première méthode de distillation basée sur GAN pour le TTM. Pour réduire le coût par étape, nous développons une amélioration simple mais puissante d'une méthode récente de distillation de couche qui améliore l'apprentissage en préservant mieux la variance de l'état caché. Enfin, nous combinons nos méthodes de distillation par étape et par couche pour une approche à double facette. Nous évaluons nos méthodes de distillation par étape et par couche de manière indépendante et montrons que chacune produit des performances de premier ordre. Notre méthode de distillation combinée peut générer des sorties de haute qualité avec une diversité améliorée, accélérant notre modèle de base de 10 à 18 fois (latence de 230/435 ms pour 32 secondes mono/stéréo 44,1 kHz, 15 fois plus rapide que les SOTA comparables) - le TTM de haute qualité le plus rapide à notre connaissance. Des exemples sonores sont disponibles sur https://presto-music.github.io/web/.
Ce rapport technique présente un Banc d'Essai de Reconnaissance d'Entités Cliniques Nommées pour évaluer les modèles linguistiques dans le domaine de la santé, abordant la tâche cruciale de traitement automatique du langage naturel (TALN) consistant à extraire des informations structurées à partir de récits cliniques pour soutenir des applications telles que le codage automatisé, l'identification de cohortes d'essais cliniques et le support à la décision clinique. Le classement fournit une plateforme standardisée pour évaluer divers modèles linguistiques, y compris les architectures encodeur et décodeur, sur leur capacité à identifier et classer des entités cliniques dans plusieurs domaines médicaux. Une collection sélectionnée de jeux de données cliniques disponibles publiquement est utilisée, englobant des entités telles que les maladies, les symptômes, les médicaments, les procédures et les mesures de laboratoire. De manière importante, ces entités sont normalisées selon le Modèle de Données Communes de l'Observational Medical Outcomes Partnership (OMOP), garantissant la cohérence et l'interopérabilité entre différents systèmes de santé et jeux de données, ainsi qu'une évaluation complète de la performance du modèle. La performance des modèles est principalement évaluée en utilisant le score F1, et elle est complétée par divers modes d'évaluation pour fournir des aperçus complets de la performance du modèle. Le rapport inclut également une brève analyse des modèles évalués à ce jour, mettant en évidence les tendances observées et les limitations. En établissant ce cadre de référence, le classement vise à promouvoir la transparence, faciliter les analyses comparatives et stimuler l'innovation dans les tâches de reconnaissance d'entités cliniques, répondant au besoin de méthodes d'évaluation robustes dans le TALN en santé.
Bien que les modèles de récompense aient été efficaces pour améliorer les grands modèles de langage multimodaux, les modèles de récompense eux-mêmes restent rudimentaires et contiennent un minimum d'informations. Notamment, les modèles de récompense existants se contentent de reproduire les annotations humaines en attribuant un seul retour binaire à n'importe quel texte, quelle que soit sa longueur. Dans le domaine des modèles de langage multimodaux, où les modèles doivent traiter à la fois des images et des textes, un modèle de récompense naïf peut apprendre des biais implicites envers les textes et devenir moins ancré dans les images. Dans cet article, nous proposons un modèle de récompense détective au niveau du token (TLDR) pour fournir des annotations détaillées à chaque token de texte. Nous introduisons d'abord une méthode basée sur la perturbation pour générer des faux négatifs synthétiques et leurs étiquettes au niveau des tokens pour entraîner les modèles TLDR. Ensuite, nous montrons l'utilité riche des modèles TLDR à la fois pour aider les modèles prêts à l'emploi à s'auto-corriger dans leurs générations, et pour servir d'outil d'évaluation des hallucinations. Enfin, nous montrons que les modèles TLDR peuvent accélérer de manière significative l'annotation humaine de 3 fois pour acquérir une gamme plus large de données de langage visuel de haute qualité.
Les récents grands modèles de langage (LLM) ont démontré des capacités polyvalentes dans des scénarios à long contexte. Bien que certains récents bancs d'essai aient été développés pour évaluer les capacités à long contexte des LLM, il existe un manque de bancs d'essai évaluant les capacités de raisonnement mathématique des LLM sur de longs contextes, ce qui est crucial pour l'application des LLM dans des scénarios du monde réel. Dans cet article, nous présentons MathHay, un banc d'essai automatisé conçu pour évaluer les capacités de raisonnement mathématique à long contexte des LLM. Contrairement aux bancs d'essai précédents comme Needle in a Haystack, qui se concentrent principalement sur la recherche d'informations au sein de longs textes, MathHay exige des modèles à la fois des capacités de recherche d'informations et de raisonnement mathématique complexe. Nous menons des expériences approfondies sur MathHay pour évaluer les capacités de raisonnement mathématique à long contexte de huit LLM les mieux classés. Même le modèle le plus performant, Gemini-1.5-Pro-002, éprouve encore des difficultés avec le raisonnement mathématique sur de longs contextes, n'atteignant qu'une précision de 51,26% à 128 000 jetons. Cela souligne le grand potentiel d'amélioration sur le banc d'essai MathHay.
Avec l'expansion de l'application des Grands Modèles de Langage (GML), la demande d'évaluations fiables augmente. Les références d'évaluation existantes des GML reposent principalement sur des ensembles de données statiques, ce qui rend difficile l'évaluation des performances du modèle dans des interactions dynamiques avec les utilisateurs. De plus, ces références dépendent souvent de connaissances spécifiques, ce qui complique la mesure des capacités de raisonnement logique d'un modèle. D'autres méthodes d'évaluation dynamiques basées sur des modèles solides ou des efforts manuels peuvent introduire des biais et entraîner des coûts élevés et des exigences en termes de temps, ce qui entrave l'application à grande échelle. Pour résoudre ces problèmes, nous proposons TurtleBench. TurtleBench collecte de vraies suppositions d'utilisateurs à partir de notre plateforme de casse-tête en ligne Turtle Soup que nous avons développée. Cette approche permet la génération relativement dynamique d'ensembles de données d'évaluation, atténuant le risque de tricherie du modèle tout en alignant les évaluations plus étroitement sur les besoins réels des utilisateurs en matière de capacités de raisonnement, améliorant ainsi la fiabilité des évaluations. TurtleBench comprend 1 532 suppositions d'utilisateurs ainsi que la correction des suppositions après annotation. En utilisant cet ensemble de données, nous avons évalué de manière approfondie neuf des GML les plus avancés disponibles aujourd'hui. Notamment, les modèles de la série OpenAI o1 n'ont pas obtenu les meilleurs résultats dans ces évaluations. Nous proposons plusieurs hypothèses pour de futures recherches, telles que "le raisonnement latent de o1 utilise des techniques triviales de Chaîne de Pensée (CoT)" et "augmenter la longueur de CoT apporte non seulement des avantages en termes de raisonnement mais entraîne également des coûts de bruit".
Nous présentons OmniBooth, un cadre de génération d'images qui permet un contrôle spatial avec une personnalisation multi-modale au niveau de l'instance. Pour toutes les instances, l'instruction multimodale peut être décrite à travers des invites textuelles ou des références d'images. Étant donné un ensemble de masques définis par l'utilisateur et des indications textuelles ou d'images associées, notre objectif est de générer une image où plusieurs objets sont positionnés à des coordonnées spécifiées et dont les attributs sont alignés précisément avec les indications correspondantes. Cette approche étend considérablement le champ de la génération texte-vers-image et l'élève à une dimension plus polyvalente et pratique en termes de contrôlabilité. Dans cet article, notre contribution principale réside dans les signaux de contrôle latents proposés, une caractéristique spatiale multidimensionnelle qui fournit une représentation unifiée pour intégrer de manière transparente les conditions spatiales, textuelles et d'image. La condition textuelle étend ControlNet pour fournir une génération ouverte au niveau de l'instance avec un vocabulaire varié. La condition d'image permet en outre un contrôle précis avec une identité personnalisée. En pratique, notre méthode donne aux utilisateurs plus de flexibilité dans la génération contrôlable, car les utilisateurs peuvent choisir des conditions multi-modales à partir de textes ou d'images selon les besoins. De plus, des expériences approfondies démontrent nos performances améliorées en termes de fidélité de synthèse d'images et d'alignement à travers différentes tâches et ensembles de données. Page du projet : https://len-li.github.io/omnibooth-web/
La fusion de modèles vise à combiner plusieurs modèles d'experts en un modèle unique plus performant, offrant des avantages tels qu'une réduction des coûts de stockage et de service, une amélioration de la généralisation et un soutien au développement décentralisé des modèles. Malgré ses promesses, les études précédentes se sont principalement concentrées sur la fusion de quelques petits modèles. Cela laisse de nombreuses questions sans réponse sur l'effet de l'augmentation de la taille du modèle et sur la façon dont elle interagit avec d'autres facteurs clés, tels que la qualité du modèle de base et le nombre de modèles d'experts, pour influencer les performances du modèle fusionné. Ce travail évalue systématiquement l'utilité de la fusion de modèles à grande échelle, examinant l'impact de ces différents facteurs. Nous expérimentons en fusionnant des modèles entièrement affinés à l'aide de 4 méthodes de fusion populaires - Moyenne, Arithmétique de tâches, Dare et TIES - sur des tailles de modèles allant de 1 milliard à 64 milliards de paramètres et en fusionnant jusqu'à 8 modèles d'experts différents. Nous évaluons les modèles fusionnés à la fois sur des tâches retenues, c'est-à-dire les tâches d'entraînement des experts, et sur une généralisation sans apprentissage à des tâches non vues. Nos expériences fournissent plusieurs nouvelles perspectives sur la fusion de modèles à grande échelle et sur l'interaction entre différents facteurs. Premièrement, nous constatons que la fusion est plus efficace lorsque les experts sont créés à partir de modèles de base solides, c'est-à-dire des modèles avec une bonne performance sans apprentissage. Deuxièmement, les modèles plus grands facilitent une fusion plus aisée. Troisièmement, la fusion améliore de manière constante les capacités de généralisation. Notamment, lors de la fusion de 8 grands modèles d'experts, les modèles fusionnés généralisent souvent mieux par rapport aux modèles entraînés en multitâche. Quatrièmement, nous pouvons mieux fusionner davantage de modèles d'experts en travaillant avec des modèles plus grands. Cinquièmement, différentes méthodes de fusion se comportent de manière très similaire à plus grande échelle. Dans l'ensemble, nos résultats mettent en lumière certaines propriétés intéressantes de la fusion de modèles tout en soulignant certaines limitations. Nous espérons que cette étude servira de point de référence sur la fusion à grande échelle pour les recherches à venir.
La curation des données est le problème de comment collecter et organiser des échantillons dans un ensemble de données qui soutient un apprentissage efficace. Malgré la centralité de la tâche, peu de travaux ont été consacrés à une comparaison systématique à grande échelle des diverses méthodes de curation. Dans ce travail, nous faisons des avancées vers une évaluation formelle des stratégies de curation des données et introduisons SELECT, le premier grand benchmark de stratégies de curation pour la classification d'images. Pour générer des méthodes de base pour le benchmark SELECT, nous créons un nouveau jeu de données, ImageNet++, qui constitue le plus grand sur-ensemble d'ImageNet-1K à ce jour. Notre ensemble de données étend ImageNet avec 5 nouveaux décalages de données d'entraînement, chacun d'environ la taille d'ImageNet-1K lui-même, et chacun assemblé en utilisant une stratégie de curation distincte. Nous évaluons nos lignes de base de curation des données de deux manières : (i) en utilisant chaque décalage de données d'entraînement pour entraîner des modèles de classification d'images identiques à partir de zéro (ii) en utilisant les données elles-mêmes pour ajuster une représentation auto-supervisée pré-entraînée. Nos résultats montrent des tendances intéressantes, en particulier concernant les méthodes récentes de curation des données telles que la génération de données synthétiques et la recherche basée sur les plongements CLIP. Nous montrons que bien que ces stratégies soient très compétitives pour certaines tâches, la stratégie de curation utilisée pour assembler l'ensemble de données original ImageNet-1K reste la référence. Nous anticipons que notre benchmark peut éclairer la voie pour de nouvelles méthodes afin de réduire davantage l'écart. Nous mettons à disposition nos points de contrôle, code, documentation et un lien vers notre ensemble de données sur https://github.com/jimmyxu123/SELECT.
La synthèse des mouvements humains dans des environnements 3D, en particulier ceux impliquant des activités complexes telles que la locomotion, l'atteinte d'objets à la main et l'interaction humain-objet, présente des exigences substantielles en termes de points de passage définis par l'utilisateur et de transitions de scène. Ces exigences posent des défis pour les modèles actuels, entraînant un écart notable dans l'automatisation de l'animation de personnages à partir de simples entrées humaines. Cet article aborde ce défi en introduisant un cadre complet pour la synthèse de mouvements d'interaction scénique multi-étapes directement à partir d'une seule instruction textuelle et d'une localisation d'objectif. Notre approche utilise un modèle de diffusion auto-régressif pour synthétiser le segment de mouvement suivant, ainsi qu'un planificateur autonome prédisant la transition pour chaque étape d'action. Pour garantir que les mouvements synthétisés s'intègrent de manière transparente dans l'environnement, nous proposons une représentation de scène qui prend en compte la perception locale à la fois au point de départ et à l'objectif. Nous améliorons en outre la cohérence du mouvement généré en intégrant des plongements de trame avec l'entrée linguistique. De plus, pour soutenir l'entraînement du modèle, nous présentons un ensemble de données complet de capture de mouvement comprenant 16 heures de séquences de mouvement dans 120 scènes intérieures couvrant 40 types de mouvements, chacun annoté avec des descriptions linguistiques précises. Les résultats expérimentaux démontrent l'efficacité de notre méthode dans la génération de mouvements multi-étapes de haute qualité étroitement alignés sur les conditions environnementales et textuelles.
Les méthodes d'apprentissage par renforcement à partir des retours humains (RLHF) émergent comme un moyen d'affiner les modèles de diffusion (DMs) pour la génération visuelle. Cependant, les stratégies on-policy couramment utilisées sont limitées par la capacité de généralisation du modèle de récompense, tandis que les approches off-policy nécessitent de grandes quantités de données appariées annotées par des humains, particulièrement dans les tâches de génération visuelle difficiles à obtenir. Pour pallier les limitations des approches RLHF on-policy et off-policy, nous proposons une méthode d'optimisation des préférences qui aligne les DMs avec les préférences sans recourir aux modèles de récompense ou aux données appariées annotées par des humains. Plus précisément, nous introduisons une méthode d'optimisation des préférences Semi-Policy Preference Optimization (SePPO). SePPO tire parti des points de contrôle précédents en tant que modèles de référence tout en les utilisant pour générer des échantillons de référence on-policy, qui remplacent les "images perdantes" dans les paires de préférences. Cette approche nous permet d'optimiser en utilisant uniquement des "images gagnantes" off-policy. De plus, nous concevons une stratégie de sélection de modèle de référence qui élargit l'exploration dans l'espace des politiques. Notamment, nous ne traitons pas simplement les échantillons de référence comme des exemples négatifs pour l'apprentissage. Au lieu de cela, nous concevons un critère basé sur des ancres pour évaluer si les échantillons de référence sont susceptibles d'être des images gagnantes ou perdantes, permettant au modèle d'apprendre sélectivement à partir des échantillons de référence générés. Cette approche atténue la dégradation des performances causée par l'incertitude de la qualité des échantillons de référence. Nous validons SePPO à la fois sur des référentiels de texte vers image et de texte vers vidéo. SePPO dépasse toutes les approches précédentes sur les référentiels de texte vers image et démontre également des performances exceptionnelles sur les référentiels de texte vers vidéo. Le code sera publié sur https://github.com/DwanZhang-AI/SePPO.
Les modèles de diffusion ont révolutionné la génération d'images, et leur extension à la génération de vidéos a montré des promesses. Cependant, les modèles de diffusion vidéo actuels (VDM) s'appuient sur une variable de pas de temps scalaire appliquée au niveau du clip, ce qui limite leur capacité à modéliser les dépendances temporelles complexes nécessaires pour diverses tâches telles que la génération d'images en vidéo. Pour remédier à cette limitation, nous proposons un modèle de diffusion vidéo conscient des images (FVDM), qui introduit une nouvelle variable de pas de temps vectorisée (VTV). Contrairement aux VDM conventionnels, notre approche permet à chaque image de suivre un calendrier de bruit indépendant, améliorant la capacité du modèle à capturer des dépendances temporelles fines. La flexibilité de FVDM est démontrée à travers plusieurs tâches, notamment la génération de vidéos standard, la génération d'images en vidéo, l'interpolation vidéo et la synthèse de longues vidéos. À travers un ensemble diversifié de configurations VTV, nous obtenons une qualité supérieure dans les vidéos générées, surmontant des défis tels que l'oubli catastrophique lors du fine-tuning et la généralisabilité limitée dans les méthodes de zéro-shot. Nos évaluations empiriques montrent que FVDM surpasse les méthodes de pointe en termes de qualité de génération de vidéos, tout en excellant également dans des tâches étendues. En abordant les lacunes fondamentales des VDM existants, FVDM établit un nouveau paradigme dans la synthèse vidéo, offrant un cadre robuste avec des implications significatives pour la modélisation générative et les applications multimédias.
Nous introduisons une tâche et un ensemble de données pour la génération et la compréhension d'expressions référentielles dans des environnements incarnés multi-agents. Dans cette tâche, deux agents dans une scène partagée doivent tenir compte de la perspective visuelle de l'autre, qui peut être différente de la leur, pour à la fois produire et comprendre des références aux objets dans une scène et aux relations spatiales entre eux. Nous collectons un ensemble de données de 2 970 expressions référentielles rédigées par des humains, chacune associée à des jugements de compréhension humaine, et évaluons les performances des modèles automatisés en tant que locuteurs et auditeurs associés à des partenaires humains, constatant que les performances des modèles, tant dans la génération de références que dans la compréhension, sont inférieures à celles de paires d'agents humains. Enfin, nous expérimentons l'entraînement d'un modèle de locuteur à poids ouvert avec des preuves de succès communicatif lorsqu'il est associé à un auditeur, ce qui se traduit par une amélioration de 58,9 à 69,3 % en succès communicatif, surpassant même le modèle propriétaire le plus performant.
L'inférence LLM pour des cas d'utilisation d'entreprise populaires tels que la résumé, RAG et la génération de code, observe généralement des longueurs de prompt de l'ordre de grandeur supérieures à celles des longueurs de génération. Cette caractéristique entraîne un coût élevé de préremplissage et une latence de réponse accrue. Dans cet article, nous présentons SwiftKV, une procédure de transformation et de distillation de modèle novatrice spécifiquement conçue pour réduire le temps et le coût de traitement des jetons de prompt tout en préservant une haute qualité des jetons générés. SwiftKV combine trois mécanismes clés : i) SingleInputKV, qui préremplit le cache KV des couches ultérieures en utilisant la sortie d'une couche bien plus tôt, permettant aux jetons de prompt de sauter une grande partie du calcul du modèle, ii) AcrossKV, qui fusionne les caches KV des couches voisines pour réduire l'empreinte mémoire et prendre en charge une taille de lot plus grande pour un débit plus élevé, et iii) une procédure de distillation préservant les connaissances qui peut adapter les LLM existants pour SwiftKV avec un impact minimal sur la précision et des exigences de calcul et de données faibles. Pour Llama-3.1-8B et 70B, SwiftKV réduit de 50% l'exigence de calcul du préremplissage et de 62,5% l'exigence mémoire du cache KV tout en entraînant une dégradation minimale de la qualité sur un large éventail de tâches. Dans le service d'inférence de bout en bout en utilisant une implémentation vLLM optimisée, SwiftKV réalise jusqu'à 2 fois plus de débit agrégé et 60% de temps inférieur par jeton de sortie. Il peut atteindre un impressionnant débit d'inférence normalisé de 560 TFlops/GPU, ce qui se traduit par 16K jetons/s pour Llama-3.1-70B en précision 16 bits sur 4x H100 GPUs.