Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Qwen2.5-VL, le dernier modèle phare de la série vision-langage Qwen, qui démontre des avancées significatives tant dans ses capacités fondamentales que dans ses fonctionnalités innovantes. Qwen2.5-VL réalise un bond majeur dans la compréhension et l'interaction avec le monde grâce à une reconnaissance visuelle améliorée, une localisation précise des objets, une analyse robuste de documents et une compréhension de vidéos longues. Une caractéristique remarquable de Qwen2.5-VL est sa capacité à localiser des objets avec précision en utilisant des boîtes englobantes ou des points. Il offre une extraction robuste de données structurées à partir de factures, formulaires et tableaux, ainsi qu'une analyse détaillée de graphiques, diagrammes et mises en page. Pour gérer des entrées complexes, Qwen2.5-VL introduit un traitement dynamique de la résolution et un encodage temporel absolu, lui permettant de traiter des images de tailles variées et des vidéos de longue durée (jusqu'à plusieurs heures) avec une localisation d'événements au niveau de la seconde. Cela permet au modèle de percevoir nativement les échelles spatiales et les dynamiques temporelles sans recourir à des techniques de normalisation traditionnelles. En entraînant un Vision Transformer (ViT) à résolution dynamique native dès le départ et en intégrant l'attention par fenêtre, nous réduisons la surcharge computationnelle tout en conservant la résolution native. En conséquence, Qwen2.5-VL excelle non seulement dans la compréhension d'images et de documents statiques, mais aussi en tant qu'agent visuel interactif capable de raisonner, d'utiliser des outils et d'exécuter des tâches dans des scénarios réels tels que l'utilisation d'ordinateurs et d'appareils mobiles. Qwen2.5-VL est disponible en trois tailles, répondant à divers cas d'utilisation, de l'IA embarquée au calcul haute performance. Le modèle phare Qwen2.5-VL-72B rivalise avec les modèles de pointe comme GPT-4o et Claude 3.5 Sonnet, excellant particulièrement dans la compréhension de documents et de diagrammes. De plus, Qwen2.5-VL maintient une performance linguistique robuste, préservant les compétences linguistiques fondamentales du LLM Qwen2.5.
Les modèles génératifs de base (GenFMs) sont apparus comme des outils transformateurs. Cependant, leur adoption généralisée soulève des préoccupations critiques concernant leur fiabilité à travers diverses dimensions. Cet article présente un cadre complet pour relever ces défis à travers trois contributions clés. Premièrement, nous passons systématiquement en revue les lois et politiques mondiales de gouvernance de l'IA émanant des gouvernements et des organismes de régulation, ainsi que les pratiques et normes de l'industrie. Sur la base de cette analyse, nous proposons un ensemble de principes directeurs pour les GenFMs, élaborés grâce à une collaboration multidisciplinaire approfondie intégrant des perspectives techniques, éthiques, juridiques et sociétales. Deuxièmement, nous introduisons TrustGen, la première plateforme de référence dynamique conçue pour évaluer la fiabilité à travers plusieurs dimensions et types de modèles, y compris les modèles texte-image, les grands modèles de langage et les modèles vision-langage. TrustGen exploite des composants modulaires—curation de métadonnées, génération de cas de test et variation contextuelle—pour permettre des évaluations adaptatives et itératives, surmontant ainsi les limites des méthodes d'évaluation statiques. En utilisant TrustGen, nous révélons des progrès significatifs en matière de fiabilité tout en identifiant des défis persistants. Enfin, nous proposons une discussion approfondie des défis et des orientations futures pour des GenFMs fiables, qui révèle la nature complexe et évolutive de la fiabilité, mettant en lumière les compromis nuancés entre utilité et fiabilité, et tenant compte de diverses applications en aval, identifiant des défis persistants et fournissant une feuille de route stratégique pour la recherche future. Ce travail établit un cadre holistique pour faire progresser la fiabilité dans l'IA générative, ouvrant la voie à une intégration plus sûre et plus responsable des GenFMs dans des applications critiques. Pour faciliter les avancées dans la communauté, nous mettons à disposition l'outil d'évaluation dynamique.
La génération de chansons à partir de texte, consistant à créer des voix et des accompagnements à partir d'entrées textuelles, présente des défis majeurs en raison de la complexité du domaine et de la rareté des données. Les approches existantes utilisent souvent des procédures de génération en plusieurs étapes, ce qui entraîne des pipelines d'entraînement et d'inférence lourds. Dans cet article, nous proposons SongGen, un transformeur auto-régressif en une seule étape, entièrement open-source, conçu pour la génération contrôlée de chansons. Le modèle proposé permet un contrôle précis sur divers attributs musicaux, notamment les paroles et les descriptions textuelles de l'instrumentation, du genre, de l'ambiance et du timbre, tout en offrant la possibilité d'utiliser un clip de référence de trois secondes pour le clonage vocal. Dans un cadre auto-régressif unifié, SongGen prend en charge deux modes de sortie : le mode mixte, qui génère directement un mélange de voix et d'accompagnement, et le mode double piste, qui les synthétise séparément pour une plus grande flexibilité dans les applications en aval. Nous explorons diverses stratégies de motifs de tokens pour chaque mode, conduisant à des améliorations notables et à des insights précieux. De plus, nous concevons un pipeline de prétraitement de données automatisé avec un contrôle de qualité efficace. Pour favoriser l'engagement de la communauté et les recherches futures, nous publierons les poids de notre modèle, le code d'entraînement, les données annotées et le pipeline de prétraitement. Les échantillons générés sont présentés sur notre page de projet à l'adresse https://liuzh-19.github.io/SongGen/, et le code sera disponible à l'adresse https://github.com/LiuZH-19/SongGen.
Les algorithmes existants de conduite autonome (AD) de bout en bout suivent généralement le paradigme de l'apprentissage par imitation (IL), qui fait face à des défis tels que la confusion causale et l'écart en boucle ouverte. Dans ce travail, nous établissons un paradigme d'entraînement en apprentissage par renforcement (RL) en boucle fermée basé sur 3DGS. En exploitant les techniques 3DGS, nous construisons une réplique numérique photoréaliste du monde physique réel, permettant à la politique AD d'explorer intensivement l'espace d'états et d'apprendre à gérer des scénarios hors distribution grâce à des essais et erreurs à grande échelle. Pour renforcer la sécurité, nous concevons des récompenses spécialisées qui guident la politique à répondre efficacement aux événements critiques pour la sécurité et à comprendre les relations causales du monde réel. Pour une meilleure adéquation avec le comportement de conduite humaine, l'IL est intégré à l'entraînement RL en tant que terme de régularisation. Nous introduisons un benchmark d'évaluation en boucle fermée composé de divers environnements 3DGS inédits. Par rapport aux méthodes basées sur l'IL, RAD obtient de meilleures performances sur la plupart des métriques en boucle fermée, notamment un taux de collision 3 fois plus faible. Des résultats abondants en boucle fermée sont présentés sur https://hgao-cv.github.io/RAD.
Les grands modèles de langage (LLMs) excellent dans les tâches de raisonnement complexe, et la distillation de leurs capacités de raisonnement dans des modèles plus petits s'est avérée prometteuse. Cependant, nous découvrons un phénomène intéressant, que nous appelons l'Écart d'Apprenabilité des Petits Modèles : les petits modèles (≤3B paramètres) ne bénéficient pas systématiquement des longues chaînes de raisonnement (CoT) ou de la distillation des modèles plus grands. Au contraire, ils obtiennent de meilleures performances lorsqu'ils sont affinés sur des chaînes de raisonnement plus courtes et plus simples, mieux alignées sur leur capacité d'apprentissage intrinsèque. Pour remédier à cela, nous proposons la Distillation Mixte, une stratégie simple mais efficace qui équilibre la complexité du raisonnement en combinant des exemples de CoT longs et courts ou des raisonnements issus à la fois de modèles plus grands et plus petits. Nos expériences démontrent que la Distillation Mixte améliore significativement les performances de raisonnement des petits modèles par rapport à un entraînement sur un seul type de données. Ces résultats mettent en lumière les limites de la distillation directe à partir de modèles forts et soulignent l'importance d'adapter la complexité du raisonnement pour un transfert efficace des capacités de raisonnement.
Les méthodes de modélisation de séquences linéaires, telles que l'attention linéaire, la modélisation par espace d'états et les RNN linéaires, offrent des améliorations significatives en termes d'efficacité en réduisant la complexité de l'entraînement et de l'inférence. Cependant, ces méthodes compressent généralement l'intégralité de la séquence d'entrée en un seul état de mémoire de taille fixe, ce qui entraîne des performances sous-optimales pour les tâches en aval intensives en rappel. S'inspirant des neurosciences, en particulier de la capacité du cerveau à maintenir une mémoire à long terme robuste tout en atténuant les "interférences de mémoire", nous introduisons une nouvelle architecture appelée Mixture-of-Memories (MoM). MoM utilise plusieurs états de mémoire indépendants, avec un réseau de routage qui dirige les tokens d'entrée vers des états de mémoire spécifiques. Cette approche améliore considérablement la capacité de mémoire globale tout en minimisant les interférences de mémoire. En conséquence, MoM excelle dans les tâches intensives en rappel, surpassant les techniques existantes de modélisation de séquences linéaires. Bien qu'elle intègre plusieurs états de mémoire, le calcul de chaque état de mémoire reste de complexité linéaire, permettant à MoM de conserver l'avantage de la complexité linéaire pendant l'entraînement, tout en maintenant une complexité constante pendant l'inférence. Nos résultats expérimentaux montrent que MoM surpasse significativement les modèles de séquences linéaires actuels sur les tâches linguistiques en aval, en particulier les tâches intensives en rappel, et atteint même des performances comparables à celles des modèles Transformer. Le code est disponible à l'adresse https://github.com/OpenSparseLLMs/MoM et fait également partie de https://github.com/OpenSparseLLMs/Linear-MoE.
Les embeddings de texte sont généralement évalués sur un ensemble limité de tâches, contraintes par la diversité des langues, des domaines et des types de tâches. Pour pallier ces limitations et offrir une évaluation plus complète, nous introduisons le Massive Multilingual Text Embedding Benchmark (MMTEB) - une extension à grande échelle et communautaire du MTEB, couvrant plus de 500 tâches d'évaluation contrôlées dans plus de 250 langues. Le MMTEB inclut un ensemble varié de tâches novatrices et complexes, telles que le suivi d'instructions, la recherche de documents longs et la recherche de code, représentant la plus grande collection multilingue de tâches d'évaluation pour les modèles d'embedding à ce jour. En utilisant cette collection, nous développons plusieurs benchmarks hautement multilingues, que nous utilisons pour évaluer un ensemble représentatif de modèles. Nous constatons que si les grands modèles de langage (LLMs) avec des milliards de paramètres peuvent atteindre des performances de pointe sur certains sous-ensembles de langues et catégories de tâches, le meilleur modèle disponible publiquement est multilingual-e5-large-instruct avec seulement 560 millions de paramètres. Pour faciliter l'accessibilité et réduire les coûts de calcul, nous introduisons une nouvelle méthode de sous-échantillonnage basée sur la corrélation inter-tâches, garantissant une sélection diversifiée tout en préservant les classements relatifs des modèles. De plus, nous optimisons des tâches telles que la recherche en échantillonnant des négatifs difficiles, créant ainsi des sous-ensembles plus petits mais efficaces. Ces optimisations nous permettent d'introduire des benchmarks qui réduisent considérablement les exigences de calcul. Par exemple, notre nouveau benchmark anglais en zero-shot maintient un ordre de classement similaire à la version complète mais à une fraction du coût de calcul.
Les grands modèles de langage (LLMs) ont démontré des capacités remarquables grâce au pré-entraînement et à l'alignement. Cependant, les LLMs performants en contexte court peuvent sous-performer dans des scénarios à contexte long en raison d'un alignement insuffisant sur ces contextes étendus. Ce processus d'alignement reste difficile en raison de l'impracticité de l'annotation humaine pour des contextes prolongés et de la complexité à équilibrer les performances en contexte court et long. Pour relever ces défis, nous introduisons LongPO, qui permet aux LLMs spécialisés en contexte court de s'auto-évoluer pour exceller dans les tâches à contexte long en transférant en interne leurs capacités acquises en contexte court. LongPO exploite les LLMs pour apprendre à partir de données de préférence auto-générées allant du court au long, comprenant des réponses jumelées générées pour des instructions identiques avec des entrées de contexte long et leurs versions compressées en contexte court. Cette préférence révèle les capacités et potentiels des LLMs cultivés lors de l'alignement en contexte court qui pourraient être atténués dans des scénarios à contexte long mal alignés. De plus, LongPO intègre une contrainte KL du court au long pour atténuer la baisse de performance en contexte court pendant l'alignement en contexte long. Appliqué à Mistral-7B-Instruct-v0.2 pour des longueurs de contexte allant de 128K à 512K, LongPO préserve entièrement les performances en contexte court et surpasse largement les approches naïves de SFT et DPO dans les tâches à contexte long et court. Plus précisément, les modèles entraînés avec \ourMethod peuvent atteindre des résultats sur les benchmarks de contexte long comparables, voire supérieurs, à ceux des LLMs de pointe (par exemple, GPT-4-128K) qui impliquent une annotation extensive en contexte long et des échelles de paramètres plus importantes.
Le web crawl constitue une source principale de données de pré-entraînement pour les grands modèles de langage (LLMs), mais la majorité des pages web crawléees sont écartées lors du pré-entraînement en raison de leur faible qualité. Cet article présente Crawl4LLM, une méthode de web crawling efficace qui explore le graphe web en se basant sur les préférences du pré-entraînement des LLMs. Plus précisément, elle utilise l'influence d'une page web dans le pré-entraînement des LLMs comme score de priorité pour le planificateur du web crawler, remplaçant ainsi la priorité standard basée sur la connectivité du graphe. Nos expériences sur un graphe web contenant 900 millions de pages issues de l'index d'un moteur de recherche commercial démontrent l'efficacité de Crawl4LLM pour obtenir des données de pré-entraînement de haute qualité. Avec seulement 21 % des URLs crawléees, les LLMs pré-entraînés sur les données de Crawl4LLM atteignent les mêmes performances en aval que les crawls précédents, réduisant ainsi considérablement le gaspillage de crawling et allégeant la charge sur les sites web. Notre code est disponible publiquement à l'adresse https://github.com/cxcscmu/Crawl4LLM.
Les applications de grands modèles de langage (LLM) évoluent au-delà des simples chatbots pour devenir des programmes agentiques polyvalents et dynamiques, qui mettent à l'échelle les appels aux LLM et les jetons de sortie pour aider les agents IA à raisonner, explorer et résoudre des tâches complexes. Cependant, les systèmes de service LLM existants ignorent les dépendances entre les programmes et les appels, manquant ainsi des opportunités significatives d'optimisation. Notre analyse révèle que les programmes soumis aux moteurs de service LLM subissent des temps d'attente cumulés longs, principalement en raison de blocages en tête de ligne au niveau des requêtes individuelles LLM et des programmes. Pour remédier à cela, nous introduisons Autellix, un système de service LLM qui traite les programmes comme des entités de premier ordre afin de minimiser leurs latences de bout en bout. Autellix intercepte les appels LLM soumis par les programmes, enrichissant les planificateurs avec un contexte au niveau du programme. Nous proposons deux algorithmes de planification - pour les programmes mono-thread et distribués - qui préemptent et hiérarchisent les appels LLM en fonction des appels précédemment terminés par leurs programmes. Notre évaluation démontre que, pour divers LLM et charges de travail agentiques, Autellix améliore le débit des programmes de 4 à 15 fois à la même latence par rapport aux systèmes de pointe, tels que vLLM.
Le Fine-Tuning Supervisé (SFT) a été une méthode privilégiée et efficace pour améliorer le raisonnement en chaîne de pensée (CoT) longue dans des modèles de langage relativement petits, en les affinant avec des réponses CoT longues provenant de modèles plus grands. Pour améliorer continuellement les capacités de raisonnement, nous pouvons soit collecter de nouvelles données SFT de haute qualité pour le raisonnement CoT long, soit entraîner de manière répétée sur des ensembles de données SFT existants. Cependant, l'acquisition de nouvelles données SFT pour le raisonnement CoT long est coûteuse et limitée, tandis qu'un entraînement répété conduit souvent à un plateau ou à une baisse de performance. Pour améliorer davantage les performances avec les données SFT, nous proposons l'Optimisation des Préférences de Raisonnement (ThinkPO), une méthode simple mais efficace post-SFT qui améliore le raisonnement CoT long sans nécessiter de nouvelles réponses CoT longes. Au lieu de cela, ThinkPO utilise des réponses de raisonnement CoT courtes, facilement disponibles ou obtenues, comme réponses rejetées, et des réponses CoT longes comme réponses choisies pour la même question. Il applique ensuite une optimisation directe des préférences pour encourager le modèle à privilégier des sorties de raisonnement plus longues. Les expériences montrent que ThinkPO améliore encore les performances de raisonnement des modèles affinés par SFT, par exemple, il augmente la précision du raisonnement mathématique des modèles affinés par SFT de 8,6 % et la longueur des sorties de 25,9 %. Notamment, ThinkPO est capable d'améliorer continuellement les performances du modèle SFT distillé publiquement, par exemple, en augmentant les performances officielles de DeepSeek-R1-Distill-Qwen-7B sur MATH500 de 87,4 % à 91,2 %.
Les grands modèles de langage (LLMs) ont démontré des capacités remarquables dans des domaines généraux, mais peinent souvent à accomplir des tâches nécessitant des connaissances spécialisées. Les techniques conventionnelles de génération augmentée par récupération (RAG) récupèrent généralement des informations externes à partir de bases de connaissances statiques, qui peuvent être obsolètes ou incomplètes, manquant ainsi de détails cliniques fins essentiels pour une réponse précise aux questions médicales. Dans ce travail, nous proposons SearchRAG, un cadre novateur qui surmonte ces limitations en exploitant des moteurs de recherche en temps réel. Notre méthode utilise la génération de requêtes synthétiques pour convertir des questions médicales complexes en requêtes adaptées aux moteurs de recherche et emploie une sélection de connaissances basée sur l'incertitude pour filtrer et intégrer les informations médicales les plus pertinentes et informatives dans l'entrée du LLM. Les résultats expérimentaux montrent que notre méthode améliore significativement la précision des réponses dans les tâches de question-réponse médicale, en particulier pour les questions complexes nécessitant des connaissances détaillées et à jour.
Les modèles de langage de grande taille (LLMs) ont considérablement fait progresser le traitement du langage naturel grâce à leurs capacités exceptionnelles de généralisation des tâches. L'adaptation à faible rang (LoRA) offre une solution de fine-tuning économique, en gelant les paramètres originaux du modèle et en entraînant uniquement des matrices d'adaptation légères et de faible rang. Cependant, l'empreinte mémoire de LoRA est largement dominée par les paramètres originaux du modèle. Pour atténuer ce problème, nous proposons LoRAM, un schéma d'entraînement LoRA économe en mémoire, fondé sur l'intuition que de nombreux neurones dans les LLMs sur-paramétrés ont une utilité d'entraînement faible mais sont essentiels pour l'inférence. LoRAM introduit une approche unique : il s'entraîne sur un modèle élagué (de petite taille) pour obtenir des matrices de faible rang élaguées, qui sont ensuite récupérées et utilisées avec le modèle original (de grande taille) pour l'inférence. De plus, un pré-entraînement continu à coût minimal, effectué à l'avance par les éditeurs du modèle, aligne les écarts de connaissances entre les modèles élagués et originaux. Nos expériences approfondies démontrent l'efficacité de LoRAM à travers diverses stratégies d'élagage et tâches en aval. Pour un modèle de 70 milliards de paramètres, LoRAM permet l'entraînement sur un GPU avec seulement 20 Go de HBM, remplaçant un GPU A100-80G pour l'entraînement LoRA et 15 GPU pour le fine-tuning complet. Plus précisément, QLoRAM, mis en œuvre par élagage structuré combiné à une quantification sur 4 bits, pour LLaMA-3.1-70B (LLaMA-2-70B), réduit le coût de stockage des paramètres qui domine l'utilisation de la mémoire dans l'entraînement des matrices de faible rang par un facteur de 15,81 (16,95), tout en obtenant des gains de performance significatifs par rapport à la fois au LLaMA-3.1-70B (LLaMA-2-70B) original et au LLaMA-3.1-8B (LLaMA-2-13B) entraîné avec LoRA.
Les noms sont profondément liés à l'identité humaine. Ils peuvent servir de marqueurs d'individualité, de patrimoine culturel et d'histoire personnelle. Cependant, utiliser les noms comme indicateur central de l'identité peut conduire à une simplification excessive d'identités complexes. Lors des interactions avec les LLM (modèles de langage de grande taille), les noms d'utilisateurs constituent un point d'information important pour la personnalisation. Les noms peuvent apparaître dans les conversations avec les chatbots via une saisie directe de l'utilisateur (demandée par les chatbots), dans des contextes de tâches comme la révision de CV, ou comme fonctionnalités de mémoire intégrées qui stockent les informations utilisateur pour la personnalisation. Nous étudions les biais associés aux noms en mesurant les présomptions culturelles dans les réponses générées par les LLM face à des requêtes courantes de recherche de suggestions, qui pourraient impliquer des suppositions sur l'utilisateur. Nos analyses révèlent de fortes hypothèses sur l'identité culturelle associée aux noms dans les générations des LLM, à travers plusieurs cultures. Notre travail a des implications pour la conception de systèmes de personnalisation plus nuancés, évitant de renforcer les stéréotypes tout en maintenant une personnalisation significative.
L'alignement sécuritaire des grands modèles de langage (LLMs) reste vulnérable, car leur comportement initial peut être facilement contourné par des attaques relativement simples. Étant donné que l'insertion d'un modèle fixe entre l'instruction d'entrée et la sortie initiale du modèle est une pratique courante pour les LLMs existants, nous émettons l'hypothèse que ce modèle est un facteur clé derrière leurs vulnérabilités : la prise de décision liée à la sécurité des LLMs repose excessivement sur les informations agrégées provenant de la région du modèle, ce qui influence largement le comportement sécuritaire de ces modèles. Nous qualifions ce problème d'alignement sécuritaire ancré au modèle. Dans cet article, nous menons des expériences approfondies et vérifions que l'alignement sécuritaire ancré au modèle est répandu parmi divers LLMs alignés. Nos analyses mécanistes démontrent comment cela conduit à la susceptibilité des modèles face aux attaques de contournement lors de l'inférence. De plus, nous montrons que le détachement des mécanismes de sécurité de la région du modèle est prometteur pour atténuer les vulnérabilités aux attaques de contournement. Nous encourageons les recherches futures à développer des techniques d'alignement sécuritaire plus robustes qui réduisent la dépendance à la région du modèle.
Les approches actuelles pour l'entraînement des modèles de récompense de processus (PRM) impliquent souvent la décomposition des réponses en plusieurs étapes de raisonnement à l'aide de techniques basées sur des règles, telles que l'utilisation de jetons prédéfinis ou la fixation de la longueur des étapes de raisonnement à une taille déterminée. Ces approches négligent le fait que des mots spécifiques ne marquent généralement pas les véritables points de décision dans un texte. Pour remédier à cela, nous proposons AdaptiveStep, une méthode qui divise les étapes de raisonnement en fonction de la confiance du modèle dans la prédiction du mot suivant. Cette méthode de division fournit davantage d'informations décisionnelles à chaque étape, améliorant ainsi les tâches en aval, comme l'apprentissage des modèles de récompense. De plus, notre méthode ne nécessite pas d'annotation manuelle. Nous démontrons son efficacité à travers des expériences avec des PRM entraînés par AdaptiveStep dans des tâches de raisonnement mathématique et de génération de code. Les résultats expérimentaux indiquent que le PRM obtenu atteint des performances de pointe en Best-of-N, surpassant la stratégie de recherche gloutonne avec décodage guidé par valeur au niveau des jetons, tout en réduisant les coûts de construction de plus de 30 % par rapport aux PRM open-source existants. En outre, nous fournissons une analyse approfondie et une étude de cas sur les performances, la transférabilité et les capacités de généralisation du PRM.
La génération de molécules 3D est cruciale pour la découverte de médicaments et la conception de matériaux. Bien que les efforts précédents se concentrent sur les modèles de diffusion 3D pour leurs avantages dans la modélisation des conformères 3D continus, ils négligent les avantages des modèles de langage (LM) basés sur SELFIES 1D, qui peuvent générer des molécules 100% valides et exploiter les ensembles de données de molécules 1D à l'échelle du milliard. Pour combiner ces avantages dans la génération de molécules 3D, nous proposons un modèle de base -- NExT-Mol : La diffusion 3D rencontre la modélisation de langage 1D pour la génération de molécules 3D. NExT-Mol utilise un modèle de langage de molécules pré-entraîné de manière extensive pour la génération de molécules 1D, puis prédit les conformères 3D de la molécule générée avec un modèle de diffusion 3D. Nous améliorons les performances de NExT-Mol en augmentant la taille du modèle LM, en affinant l'architecture neuronale de diffusion, et en appliquant l'apprentissage par transfert de 1D à 3D. Notamment, notre modèle de langage de molécules 1D surpasse significativement les modèles de référence en termes de similarité distributionnelle tout en garantissant la validité, et notre modèle de diffusion 3D atteint des performances de pointe dans la prédiction des conformères. Grâce à ces améliorations dans la modélisation 1D et 3D, NExT-Mol réalise une amélioration relative de 26% en FCD 3D pour la génération de novo 3D sur GEOM-DRUGS, et un gain relatif moyen de 13% pour la génération conditionnelle 3D sur QM9-2014. Nos codes et points de contrôle pré-entraînés sont disponibles à l'adresse https://github.com/acharkq/NExT-Mol.
Les grands modèles de langage (LLMs) et les grands modèles de langage multimodaux (MLLMs) ont réalisé des avancées significatives en matière de capacités de raisonnement. Cependant, ils continuent de rencontrer des défis tels que des exigences computationnelles élevées et des préoccupations en matière de confidentialité. Cet article se concentre sur le développement de petits modèles de langage (SLMs) et de petits modèles de langage multimodaux (MSLMs) efficaces, tout en conservant des capacités de raisonnement compétitives. Nous introduisons un nouveau pipeline d'entraînement qui améliore les capacités de raisonnement et facilite le déploiement sur des appareils périphériques, atteignant des performances de pointe tout en minimisant les coûts de développement. \InfR~ vise à faire progresser les systèmes d'IA en améliorant le raisonnement, en réduisant les barrières à l'adoption et en abordant les préoccupations de confidentialité grâce à des tailles de modèles plus réduites. Les ressources sont disponibles à l'adresse https://github.com/Reallm-Labs/InfiR.
L'apprentissage automatique, fondement de l'intelligence artificielle moderne, a propulsé des innovations qui ont transformé le monde de manière fondamentale. Pourtant, derrière ces avancées se cache un processus complexe et souvent fastidieux, nécessitant des itérations et expérimentations intensives en termes de main-d'œuvre et de puissance de calcul. Les ingénieurs et scientifiques développant des modèles d'apprentissage automatique consacrent une grande partie de leur temps à des tâches d'essai-erreur plutôt qu'à la conceptualisation de solutions innovantes ou d'hypothèses de recherche. Pour relever ce défi, nous présentons AI-Driven Exploration (AIDE), un agent d'ingénierie en apprentissage automatique alimenté par des modèles de langage de grande taille (LLM). AIDE aborde l'ingénierie en apprentissage automatique comme un problème d'optimisation de code et formule l'essai-erreur comme une recherche arborescente dans l'espace des solutions potentielles. En réutilisant et en affinant stratégiquement les solutions prometteuses, AIDE échange efficacement des ressources computationnelles contre une performance accrue, atteignant des résultats de pointe sur plusieurs benchmarks d'ingénierie en apprentissage automatique, y compris nos évaluations Kaggle, OpenAI MLE-Bench et METRs RE-Bench.
Nous présentons TESS 2, un modèle de langage à diffusion généraliste capable de suivre des instructions, qui surpasse les modèles à diffusion contemporains ajustés aux instructions, et rivalise voire dépasse parfois les modèles autoregressifs (AR) performants. Nous entraînons TESS 2 en adaptant d'abord un modèle AR robuste via un pré-entraînement continu avec la perte d'entropie croisée habituelle comme fonction de diffusion, puis en effectuant un ajustement supplémentaire aux instructions. Nous constatons que l'entraînement d'adaptation ainsi que le choix du modèle de base sont cruciaux pour former de bons modèles à diffusion capables de suivre des instructions. Nous proposons en outre le guidage par récompense, une nouvelle procédure modulaire de guidage au moment de l'inférence pour aligner les sorties du modèle sans avoir besoin de réentraîner le modèle sous-jacent. Enfin, nous montrons que TESS 2 s'améliore davantage avec une augmentation des ressources de calcul lors de l'inférence, mettant en avant l'utilité des modèles de langage à diffusion pour offrir un contrôle précis sur la quantité de calcul utilisée au moment de l'inférence. Le code et les modèles sont disponibles à l'adresse https://github.com/hamishivi/tess-2.
Les capacités de dialogue ouvert à long terme sont essentielles pour les chatbots visant à se souvenir des interactions passées et à démontrer une intelligence émotionnelle (IE). Cependant, la plupart des recherches existantes s'appuient sur des données synthétiques générées par des modèles de langage (LLM), laissant des questions ouvertes sur les modèles de conversation réels. Pour combler cette lacune, nous présentons REALTALK, un corpus de 21 jours de dialogues authentiques issus d'applications de messagerie, offrant un benchmark direct par rapport aux interactions humaines réelles. Nous commençons par une analyse du jeu de données, en nous concentrant sur les attributs d'IE et la cohérence de la persona pour comprendre les défis uniques posés par les dialogues du monde réel. En comparant avec les conversations générées par des LLM, nous mettons en évidence des différences clés, notamment des expressions émotionnelles variées et des variations dans la stabilité de la persona que les dialogues synthétiques échouent souvent à capturer. Sur la base de ces observations, nous introduisons deux tâches de benchmark : (1) la simulation de persona, où un modèle poursuit une conversation au nom d'un utilisateur spécifique en fonction du contexte de dialogue précédent ; et (2) le sondage de mémoire, où un modèle répond à des questions ciblées nécessitant une mémoire à long terme des interactions passées. Nos résultats révèlent que les modèles ont du mal à simuler un utilisateur uniquement à partir de l'historique des dialogues, tandis que l'affinage sur des conversations spécifiques d'utilisateurs améliore l'émulation de la persona. De plus, les modèles existants rencontrent des défis significatifs pour se souvenir et exploiter le contexte à long terme dans les conversations réelles.
L'utilisation de modèles de langage de grande taille (LLMs) pour les évaluations de pertinence offre des opportunités prometteuses pour améliorer la recherche d'information (IR), le traitement du langage naturel (NLP) et les domaines connexes. En effet, les LLMs permettent aux expérimentateurs en IR de constituer des collections d'évaluation avec une fraction du travail manuel humain actuellement requis. Cela pourrait s'avérer utile pour des sujets émergents où les connaissances sont encore limitées et pourrait atténuer les défis liés à l'évaluation des systèmes de classement dans des scénarios à faibles ressources, où il est difficile de trouver des annotateurs humains. Compte tenu des récents développements rapides dans ce domaine, de nombreuses questions concernant les LLMs en tant qu'évaluateurs restent sans réponse. Parmi les aspects nécessitant des investigations supplémentaires, on peut citer l'impact de divers composants dans un pipeline de génération de jugements de pertinence, tels que l'invite utilisée ou le LLM choisi. Cet article présente et analyse les résultats d'une évaluation à grande échelle de jugements de pertinence automatiques, le défi LLMJudge à SIGIR 2024, où différentes approches d'évaluation de pertinence ont été proposées. En détail, nous publions et évaluons 42 labels générés par des LLMs pour les jugements de pertinence de la piste Deep Learning de TREC 2023, produits par huit équipes internationales ayant participé au défi. Étant donné leur nature diverse, ces jugements de pertinence générés automatiquement peuvent aider la communauté non seulement à étudier les biais systématiques causés par les LLMs, mais aussi à explorer l'efficacité des modèles d'ensemble, à analyser les compromis entre différents modèles et évaluateurs humains, et à faire progresser les méthodologies pour améliorer les techniques d'évaluation automatisées. La ressource publiée est disponible à l'adresse suivante : https://llm4eval.github.io/LLMJudge-benchmark/
Les modèles de langage de grande taille (LLMs) sont de plus en plus utilisés dans les environnements de travail pour une large gamme de tâches, excellant dans la résolution de problèmes individuels de manière isolée. Cependant, sont-ils également capables de collaborer efficacement sur des interactions à long terme ? Pour explorer cette question, nous introduisons MemoryCode, un ensemble de données synthétique multi-sessions conçu pour tester la capacité des LLMs à suivre et exécuter des instructions de codage simples au milieu d'informations non pertinentes, simulant ainsi un cadre réaliste. Bien que tous les modèles testés gèrent bien les instructions isolées, même la performance des modèles de pointe comme GPT-4o se détériore lorsque les instructions sont réparties sur plusieurs sessions. Notre analyse suggère que cela est dû à leur incapacité à récupérer et intégrer des informations sur de longues chaînes d'instructions. Nos résultats mettent en lumière une limitation fondamentale des LLMs actuels, restreignant leur capacité à collaborer efficacement lors d'interactions prolongées.
La recommandation générative (Generative Recommendation, GR) est un paradigme émergent où les actions des utilisateurs sont tokenisées en motifs de tokens discrets et générées de manière autorégressive comme prédictions. Cependant, les modèles GR existants tokenisent chaque action indépendamment, attribuant les mêmes tokens fixes à des actions identiques dans toutes les séquences, sans tenir compte des relations contextuelles. Ce manque de sensibilité au contexte peut entraîner des performances sous-optimales, car la même action peut avoir des significations différentes selon son contexte environnant. Pour résoudre ce problème, nous proposons ActionPiece, qui intègre explicitement le contexte lors de la tokenisation des séquences d'actions. Dans ActionPiece, chaque action est représentée comme un ensemble de caractéristiques d'items, qui servent de tokens initiaux. Étant donné les corpus de séquences d'actions, nous construisons le vocabulaire en fusionnant les motifs de caractéristiques en nouveaux tokens, en fonction de leur fréquence de co-occurrence à la fois au sein des ensembles individuels et entre ensembles adjacents. Considérant la nature non ordonnée des ensembles de caractéristiques, nous introduisons en outre une régularisation par permutation d'ensemble, qui produit plusieurs segmentations des séquences d'actions avec la même sémantique. Les expériences sur des jeux de données publics démontrent qu'ActionPiece surpasse systématiquement les méthodes existantes de tokenisation d'actions, améliorant NDCG@10 de 6,00 % à 12,82 %.
Les hallucinations dans les sorties des grands modèles de langage (LLM) limitent gravement leur fiabilité dans des tâches nécessitant des connaissances approfondies, telles que la réponse à des questions. Pour relever ce défi, nous introduisons REFIND (Retrieval-augmented Factuality halllucINation Detection), un cadre novateur qui détecte les segments hallucinés dans les sorties des LLM en exploitant directement des documents récupérés. Dans le cadre de REFIND, nous proposons le Ratio de Sensibilité au Contexte (CSR), une nouvelle métrique qui quantifie la sensibilité des sorties des LLM aux preuves récupérées. Cette approche innovante permet à REFIND de détecter efficacement et précisément les hallucinations, se distinguant ainsi des méthodes existantes. Lors de l'évaluation, REFIND a démontré une robustesse à travers neuf langues, y compris dans des contextes à ressources limitées, et a surpassé de manière significative les modèles de référence, obtenant des scores IoU supérieurs dans l'identification des segments hallucinés. Ce travail met en lumière l'efficacité de la quantification de la sensibilité au contexte pour la détection des hallucinations, ouvrant ainsi la voie à des applications de LLM plus fiables et dignes de confiance à travers diverses langues.
Le questionnement à choix multiples (MCQA) est populaire pour l'évaluation des LLM en raison de sa simplicité et de son aspect proche des tests humains, mais nous plaidons pour sa réforme. Nous révélons d'abord les défauts du format MCQA, qui peine à : 1) tester la génération et la subjectivité ; 2) correspondre aux cas d'utilisation des LLM ; et 3) évaluer pleinement les connaissances. Nous préconisons plutôt des formats génératifs inspirés des tests humains, où les LLM construisent et expliquent leurs réponses, captant mieux les besoins des utilisateurs et leurs connaissances tout en restant faciles à noter. Nous montrons ensuite que même lorsque le MCQA est un format utile, ses ensembles de données souffrent de : fuites d'informations ; questions sans réponse ; raccourcis ; et saturation. Pour chaque problème, nous proposons des solutions issues de l'éducation, comme des grilles d'évaluation pour guider la rédaction des QCM, des méthodes de notation pour limiter les conjectures, et la théorie de réponse à l'item pour créer des QCM plus difficiles. Enfin, nous discutons des erreurs des LLM dans le MCQA—robustesse, biais et explications infidèles—en montrant comment nos solutions précédentes mesurent ou traitent mieux ces problèmes. Bien que nous n'ayons pas besoin d'abandonner le MCQA, nous encourageons davantage d'efforts pour affiner cette tâche en s'appuyant sur les tests éducatifs, afin de faire progresser les évaluations.
Les grands modèles vision-langage (Large Vision-Language Models, LVLMs) ont récemment attiré l'attention en raison de leurs performances distinctives et de leur applicabilité étendue. Bien qu'il ait été précédemment démontré que leur efficacité dans des scénarios d'utilisation impliquant des contextes non occidentaux est insuffisante, les études existantes sont limitées en portée, couvrant seulement un éventail restreint de cultures, se concentrant exclusivement sur un petit nombre d'aspects culturels, ou évaluant une sélection limitée de modèles sur une seule tâche. Pour une recherche sur les LVLMs véritablement inclusive à l'échelle mondiale, nous introduisons GIMMICK, un benchmark multimodal étendu conçu pour évaluer un large spectre de connaissances culturelles à travers 144 pays représentant six macro-régions mondiales. GIMMICK comprend six tâches basées sur trois nouveaux ensembles de données qui couvrent 728 événements ou facettes culturels uniques, sur lesquels nous avons évalué 20 LVLMs et 11 LLMs, incluant cinq modèles propriétaires et 26 modèles open-weight de toutes tailles. Nous examinons systématiquement (1) les biais culturels régionaux, (2) l'influence de la taille des modèles, (3) les modalités d'entrée, et (4) les indices externes. Nos analyses révèlent de forts biais en faveur des cultures occidentales à travers les modèles et les tâches, et mettent en évidence de fortes corrélations entre la taille des modèles et leurs performances, ainsi que l'efficacité des entrées multimodales et des indices géographiques externes. Nous constatons en outre que les modèles possèdent plus de connaissances sur les aspects tangibles que sur les aspects intangibles (par exemple, la nourriture vs les rituels) et qu'ils excellent à reconnaître les origines culturelles générales mais peinent à en avoir une compréhension plus nuancée.
Les benchmarks multilingues existants en vision-langage (VL) ne couvrent souvent qu'un nombre limité de langues. Par conséquent, les évaluations des grands modèles vision-langage (LVLMs) ciblent principalement les langues à ressources élevées, soulignant le besoin de données d'évaluation pour les langues à ressources limitées. Pour pallier cette limitation, nous introduisons MVL-SIB, un benchmark massivement multilingue en vision-langage qui évalue à la fois l'appariement thématique intermodal et textuel à travers 205 langues — soit plus de 100 langues supplémentaires que les benchmarks VL multilingues existants les plus complets. Nous évaluons ensuite une gamme de LVLMs open-weight ainsi que GPT-4o(-mini) sur MVL-SIB. Nos résultats révèlent que les LVLMs peinent à réaliser l'appariement thématique intermodal dans les langues à ressources limitées, ne dépassant pas le niveau du hasard pour des langues comme le N'Koo. Notre analyse montre en outre que le support VL dans les LVLMs diminue de manière disproportionnée par rapport au support textuel pour les langues à ressources limitées, comme en témoigne la comparaison des performances d'appariement thématique intermodal et textuel. Nous observons également que les LVLMs open-weight ne tirent pas avantage à représenter un thème avec plus d'une image, suggérant que ces modèles ne sont pas encore pleinement efficaces pour gérer des tâches multi-images. En corrélant les performances sur MVL-SIB avec d'autres benchmarks VL multilingues, nous mettons en évidence que MVL-SIB sert de sonde exhaustive pour évaluer la compréhension multilingue en vision-langage des LVLMs.
Malgré les récents progrès dans la synthèse de nouvelles vues (NVS), la génération de vues haute fidélité à partir d'observations uniques ou éparses reste un défi majeur. Les approches existantes basées sur le splatting produisent souvent une géométrie déformée en raison d'erreurs de splatting. Bien que les méthodes basées sur la diffusion exploitent des connaissances 3D riches pour améliorer la géométrie, elles souffrent souvent d'hallucinations de texture. Dans cet article, nous présentons SplatDiff, un modèle de diffusion vidéo guidé par pixel-splatting conçu pour synthétiser des vues nouvelles haute fidélité à partir d'une seule image. Plus précisément, nous proposons une stratégie de synthèse alignée pour un contrôle précis des points de vue cibles et une synthèse de vues cohérente en termes de géométrie. Pour atténuer les hallucinations de texture, nous concevons un module de pont de texture qui permet une génération de texture haute fidélité grâce à une fusion adaptative de caractéristiques. De cette manière, SplatDiff exploite les forces du splatting et de la diffusion pour générer des vues nouvelles avec une géométrie cohérente et des détails haute fidélité. Des expériences approfondies confirment les performances de pointe de SplatDiff dans la NVS à vue unique. De plus, sans entraînement supplémentaire, SplatDiff démontre des performances remarquables en généralisation zéro-shot à travers diverses tâches, y compris la NVS à vues éparses et la conversion de vidéo stéréo.
L'adaptation de domaine hétérogène semi-supervisée (SHDA) aborde l'apprentissage à travers des domaines présentant des représentations de caractéristiques et des distributions distinctes, où les échantillons sources sont étiquetés tandis que la plupart des échantillons cibles ne le sont pas, avec seulement une petite fraction étiquetée. De plus, il n'existe pas de correspondance un-à-un entre les échantillons sources et cibles. Bien que diverses méthodes SHDA aient été développées pour résoudre ce problème, la nature des connaissances transférées à travers des domaines hétérogènes reste floue. Cet article explore cette question d'un point de vue empirique. Nous menons des expériences approfondies sur environ 330 tâches SHDA, en utilisant deux méthodes d'apprentissage supervisé et sept méthodes SHDA représentatives. Étonnamment, nos observations indiquent que ni la catégorie ni les informations de caractéristiques des échantillons sources n'ont un impact significatif sur la performance du domaine cible. De plus, du bruit tiré de distributions simples, lorsqu'il est utilisé comme échantillons sources, peut contenir des connaissances transférables. Sur la base de cette intuition, nous réalisons une série d'expériences pour découvrir les principes sous-jacents des connaissances transférables en SHDA. Plus précisément, nous concevons un cadre unifié de transfert de connaissances (KTF) pour la SHDA. En nous appuyant sur le KTF, nous constatons que les connaissances transférables en SHDA proviennent principalement de la transférabilité et de la discriminabilité du domaine source. Par conséquent, garantir ces propriétés dans les échantillons sources, quelle que soit leur origine (par exemple, image, texte, bruit), peut améliorer l'efficacité du transfert de connaissances dans les tâches SHDA. Les codes et les jeux de données sont disponibles à l'adresse https://github.com/yyyaoyuan/SHDA.
La capacité à générer des requêtes SPARQL à partir de questions en langage naturel est essentielle pour assurer une récupération efficace et précise des données structurées à partir de graphes de connaissances (KG). Bien que les grands modèles de langage (LLM) soient largement utilisés pour la génération de requêtes SPARQL, ils sont souvent sujets à des hallucinations et à des erreurs hors distribution lors de la production d'éléments de KG tels que les identifiants de ressource uniforme (URI) basés sur leur connaissance paramétrique interne. Cela aboutit fréquemment à un contenu qui semble plausible mais qui est factuellement incorrect, posant des défis majeurs pour leur utilisation dans des applications réelles de recherche d'information (IR). Cela a conduit à une augmentation des recherches visant à détecter et à atténuer de telles erreurs. Dans cet article, nous présentons PGMR (Post-Generation Memory Retrieval), un cadre modulaire qui intègre un module de mémoire non paramétrique pour récupérer des éléments de KG et améliorer la génération de requêtes SPARQL basée sur les LLM. Nos résultats expérimentaux indiquent que PGMR offre constamment de solides performances sur divers ensembles de données, distributions de données et LLM. Notamment, PGMR atténue significativement les hallucinations d'URI, éliminant presque le problème dans plusieurs scénarios.