Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Seed1.5-VL, un modèle fondationnel vision-langage conçu pour faire progresser la compréhension et le raisonnement multimodales à usage général. Seed1.5-VL est composé d'un encodeur visuel de 532 millions de paramètres et d'un modèle de langage à base de mélange d'experts (MoE) comptant 20 milliards de paramètres actifs. Malgré son architecture relativement compacte, il offre des performances solides sur un large éventail de benchmarks publics de modèles vision-langage (VLM) et de suites d'évaluation internes, atteignant des performances de pointe sur 38 des 60 benchmarks publics. De plus, dans des tâches centrées sur l'agent, telles que le contrôle d'interface graphique et le gameplay, Seed1.5-VL surpasse les principaux systèmes multimodaux, y compris OpenAI CUA et Claude 3.7. Au-delà de la compréhension visuelle et vidéo, il démontre également de solides capacités de raisonnement, le rendant particulièrement efficace pour les défis de raisonnement multimodal tels que les puzzles visuels. Nous croyons que ces capacités permettront d'élargir les applications à travers diverses tâches. Dans ce rapport, nous fournissons principalement une revue complète de nos expériences dans la construction de Seed1.5-VL, couvrant la conception du modèle, la construction des données et l'entraînement à différentes étapes, espérant que ce rapport inspirera des recherches supplémentaires. Seed1.5-VL est désormais accessible à l'adresse https://www.volcengine.com/ (ID de modèle Volcano Engine : doubao-1-5-thinking-vision-pro-250428).
Nous présentons MiMo-7B, un grand modèle de langage conçu pour les tâches de raisonnement, optimisé à la fois lors des étapes de pré-entraînement et de post-entraînement. Durant le pré-entraînement, nous améliorons le pipeline de prétraitement des données et utilisons une stratégie de mélange de données en trois étapes pour renforcer le potentiel de raisonnement du modèle de base. MiMo-7B-Base est pré-entraîné sur 25 billions de tokens, avec un objectif supplémentaire de prédiction multi-tokens pour améliorer les performances et accélérer la vitesse d'inférence. Lors du post-entraînement, nous constituons un ensemble de données de 130 000 problèmes vérifiables de mathématiques et de programmation pour l'apprentissage par renforcement, en intégrant un schéma de récompense basé sur la difficulté des tests pour atténuer les problèmes de récompense éparse, et en utilisant un rééchantillonnage stratégique des données pour stabiliser l'entraînement. Des évaluations approfondies montrent que MiMo-7B-Base possède un potentiel de raisonnement exceptionnel, surpassant même des modèles beaucoup plus grands de 32 milliards de paramètres. Le modèle final ajusté par apprentissage par renforcement, MiMo-7B-RL, obtient des performances supérieures en mathématiques, en code et en tâches de raisonnement général, dépassant les performances d'OpenAI o1-mini. Les points de contrôle du modèle sont disponibles à l'adresse https://github.com/xiaomimimo/MiMo.
Alors que l'intelligence artificielle générative a progressé de manière significative dans les domaines du texte, de l'image, de l'audio et de la vidéo, la génération 3D reste relativement peu développée en raison de défis fondamentaux tels que la rareté des données, les limitations algorithmiques et la fragmentation de l'écosystème. À cette fin, nous présentons Step1X-3D, un cadre ouvert qui aborde ces défis à travers : (1) un pipeline rigoureux de curation de données traitant plus de 5 millions d'actifs pour créer un ensemble de données de 2 millions d'éléments de haute qualité avec des propriétés géométriques et texturales standardisées ; (2) une architecture native 3D en deux étapes combinant un générateur de géométrie hybride VAE-DiT avec un module de synthèse de textures basé sur la diffusion ; et (3) la publication open-source complète des modèles, du code d'entraînement et des modules d'adaptation. Pour la génération de géométrie, le composant hybride VAE-DiT produit des représentations TSDF en utilisant un encodage latent basé sur des percepteurs avec un échantillonnage des arêtes vives pour préserver les détails. Le module de synthèse de textures basé sur la diffusion assure ensuite la cohérence inter-vues grâce au conditionnement géométrique et à la synchronisation de l'espace latent. Les résultats de référence démontrent des performances de pointe qui surpassent les méthodes open-source existantes, tout en atteignant une qualité compétitive avec les solutions propriétaires. Notamment, le cadre relie de manière unique les paradigmes de génération 2D et 3D en permettant le transfert direct des techniques de contrôle 2D (par exemple, LoRA) à la synthèse 3D. En faisant progresser simultanément la qualité des données, la fidélité algorithmique et la reproductibilité, Step1X-3D vise à établir de nouvelles normes pour la recherche ouverte dans la génération contrôlée d'actifs 3D.
Les modèles de raisonnement à grande échelle (LRMs) possèdent la capacité de s'auto-corriger même lorsqu'ils commettent des erreurs dans leurs chemins de raisonnement. Cependant, notre étude révèle que lorsque le processus de raisonnement commence par un début court mais médiocre, il devient difficile pour le modèle de se rétablir. Nous qualifions ce phénomène de "Piège de la Dominance du Préfixe". Inspirés par des découvertes psychologiques montrant que l'interaction entre pairs peut favoriser l'auto-correction sans impacter négativement les individus déjà précis, nous proposons **Apprendre des Pairs** (LeaP) pour remédier à ce phénomène. Concrètement, à intervalles réguliers, chaque chemin de raisonnement résume son raisonnement intermédiaire et le partage avec les autres via un mécanisme de routage, permettant ainsi aux chemins d'intégrer les insights de leurs pairs lors de l'inférence. Cependant, nous observons que les modèles plus petits échouent parfois à suivre efficacement les instructions de résumé et de réflexion. Pour y remédier, nous les affinons en notre série de modèles **LeaP-T**. Les expériences sur AIME 2024, AIME 2025, AIMO 2025 et GPQA Diamond montrent que LeaP apporte des améliorations substantielles. Par exemple, QwQ-32B avec LeaP obtient près de 5 points absolus de plus que la ligne de base en moyenne, et surpasse DeepSeek-R1-671B sur trois benchmarks mathématiques avec un gain moyen de 3,3 points. Notamment, notre modèle affiné LeaP-T-7B atteint des performances comparables à celles de DeepSeek-R1-Distill-Qwen-14B sur AIME 2024. Une analyse approfondie révèle la robuste correction d'erreurs de LeaP grâce aux insights opportuns des pairs, démontrant une forte tolérance aux erreurs et une gestion efficace de la difficulté des tâches. LeaP marque une étape importante en permettant aux LRMs de collaborer pendant le raisonnement. Notre code, jeux de données et modèles sont disponibles à l'adresse https://learning-from-peers.github.io/.
Les récents progrès dans les modèles génératifs continus, incluant les approches multi-étapes comme la diffusion et l'appariement de flux (nécessitant généralement 8 à 1000 étapes d'échantillonnage) ainsi que les méthodes à faible nombre d'étapes telles que les modèles de cohérence (généralement 1 à 8 étapes), ont démontré des performances génératives impressionnantes. Cependant, les travaux existants traitent souvent ces approches comme des paradigmes distincts, conduisant à des méthodologies d'entraînement et d'échantillonnage séparées. Nous introduisons un cadre unifié pour l'entraînement, l'échantillonnage et l'analyse de ces modèles. Notre implémentation, le Unified Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), atteint des performances de pointe (SOTA). Par exemple, sur ImageNet 256x256 en utilisant un transformeur de diffusion de 675M, UCGM-T entraîne un modèle multi-étapes atteignant un FID de 1,30 en 20 étapes et un modèle à faible nombre d'étapes atteignant un FID de 1,42 en seulement 2 étapes. De plus, l'application d'UCGM-S à un modèle pré-entraîné (précédemment à 1,26 FID en 250 étapes) améliore les performances à 1,06 FID en seulement 40 étapes. Le code est disponible à l'adresse suivante : https://github.com/LINs-lab/UCGM.
Les modèles de langage de grande taille (LLMs) basés sur des instructions se sont avérés efficaces dans de nombreuses tâches de traitement du langage naturel (NLP) en few-shot ou zero-shot. Cependant, la création de données d'instructions annotées par des humains est chronophage, coûteuse et souvent limitée en quantité et en diversité de tâches. Les recherches précédentes ont tenté de relever ce défi en proposant des cadres capables de générer des instructions de manière semi-automatisée et indépendante de la tâche, directement à partir du modèle lui-même. Bon nombre de ces efforts se sont appuyés sur des modèles à paramètres volumineux et accessibles uniquement via des API, tels que GPT-3.5 (175B), qui sont coûteux et soumis à des limites sur le nombre de requêtes. Cet article explore la performance de trois petits LLMs open-source, tels que LLaMA 2-7B, LLaMA 2-13B et Mistral 7B, en utilisant un cadre semi-automatisé, réduisant ainsi l'intervention humaine, l'effort et le coût nécessaires pour générer un ensemble de données d'instructions pour le fine-tuning des LLMs. De plus, nous démontrons que l'intégration d'un algorithme d'apprentissage par renforcement (RL) dans ce cadre basé sur les LLMs conduit à des améliorations supplémentaires. Notre évaluation de l'ensemble de données révèle que ces cadres basés sur le RL permettent des améliorations substantielles dans 63 à 66 % des tâches par rapport aux approches précédentes.
Les récentes avancées dans les modèles génératifs, en particulier les modèles de diffusion et les flux rectifiés, ont révolutionné la création de contenu visuel. Cependant, l'alignement des sorties de ces modèles avec les préférences humaines reste un défi majeur. Les méthodes existantes basées sur l'apprentissage par renforcement (RL) pour la génération visuelle rencontrent des limitations critiques : incompatibilité avec les paradigmes modernes d'échantillonnage basés sur les équations différentielles ordinaires (EDO), instabilité lors de l'entraînement à grande échelle, et manque de validation pour la génération vidéo. Ce papier présente DanceGRPO, le premier cadre unifié adaptant l'Optimisation de Politique Relative par Groupe (GRPO) aux paradigmes de génération visuelle, déployant un algorithme RL unifié à travers deux paradigmes génératifs (modèles de diffusion et flux rectifiés), trois tâches (texte-à-image, texte-à-vidéo, image-à-vidéo), quatre modèles de base (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V), et cinq modèles de récompense (esthétique image/vidéo, alignement texte-image, qualité du mouvement vidéo, et récompense binaire). À notre connaissance, DanceGRPO est le premier cadre unifié basé sur RL capable de s'adapter de manière fluide à divers paradigmes génératifs, tâches, modèles de base et modèles de récompense. DanceGRPO démontre des améliorations constantes et substantielles, surpassant les bases de référence jusqu'à 181 % sur des benchmarks tels que HPS-v2.1, CLIP Score, VideoAlign et GenEval. Notamment, DanceGRPO peut non seulement stabiliser l'optimisation de politique pour la génération vidéo complexe, mais aussi permettre à la politique générative de mieux capturer les trajectoires de débruitage pour le scaling d'inférence Best-of-N et d'apprendre à partir de retours binaires épars. Nos résultats établissent DanceGRPO comme une solution robuste et polyvalente pour l'échelle des tâches d'Apprentissage par Renforcement à partir des Retours Humains (RLHF) dans la génération visuelle, offrant de nouvelles perspectives sur l'harmonisation de l'apprentissage par renforcement et de la synthèse visuelle. Le code sera publié.
Nous proposons Skywork-VL Reward, un modèle de récompense multimodal qui fournit des signaux de récompense pour les tâches de compréhension et de raisonnement multimodales. Notre approche technique comprend deux composants clés : Premièrement, nous construisons un ensemble de données de préférences multimodal à grande échelle qui couvre un large éventail de tâches et de scénarios, avec des réponses collectées à partir de modèles vision-langage (VLMs) standards et de raisonneurs VLM avancés. Deuxièmement, nous concevons une architecture de modèle de récompense basée sur Qwen2.5-VL-7B-Instruct, intégrant une tête de récompense et appliquant un affinage multi-étapes en utilisant une perte de classement par paires sur des données de préférences par paires. Les évaluations expérimentales montrent que Skywork-VL Reward atteint des résultats de pointe sur le benchmark multimodal VL-RewardBench et affiche des performances compétitives sur le benchmark textuel RewardBench. De plus, les données de préférences construites à partir de notre Skywork-VL Reward s'avèrent très efficaces pour l'entraînement de l'Optimisation de Préférences Mixtes (MPO), conduisant à des améliorations significatives des capacités de raisonnement multimodal. Nos résultats soulignent Skywork-VL Reward comme une avancée majeure vers des modèles de récompense généralistes et fiables pour l'alignement multimodal. Notre modèle a été rendu public pour promouvoir la transparence et la reproductibilité.
Récemment, l’intérêt pour la collecte de données de pré-entraînement intensives en raisonnement afin d’améliorer les capacités de raisonnement complexe des modèles de langage de grande taille (LLMs) a considérablement augmenté. Les approches précédentes reposent généralement sur des classificateurs supervisés pour identifier ces données, ce qui nécessite un étiquetage par des humains ou des LLMs, introduisant souvent des biais spécifiques au domaine. Étant donné que les têtes d’attention sont cruciales pour le raisonnement en contexte, nous proposons AttentionInfluence, une méthode simple mais efficace, sans signal de supervision et ne nécessitant pas d’entraînement. Notre approche permet à un petit modèle de langage pré-entraîné d’agir comme un sélecteur de données performant grâce à une simple opération de masquage des têtes d’attention. Plus précisément, nous identifions les têtes de récupération et calculons la différence de perte lors du masquage de ces têtes. Nous appliquons AttentionInfluence à un modèle dense de 1,3 milliard de paramètres pour effectuer une sélection de données sur le corpus SmolLM de 241 milliards de tokens, puis mélangeons le corpus SmolLM avec le sous-ensemble sélectionné comprenant 73 milliards de tokens pour pré-entraîner un modèle dense de 7 milliards de paramètres en utilisant 1 trillion de tokens d’entraînement et une planification du taux d’apprentissage WSD. Nos résultats expérimentaux montrent des améliorations substantielles, allant de 1,4 à 3,5 points de pourcentage, sur plusieurs benchmarks intensifs en connaissances et en raisonnement (c’est-à-dire MMLU, MMLU-Pro, AGIEval-en, GSM8K et HumanEval). Cela démontre une propriété efficace de mise à l’échelle faible à forte, où les petits modèles améliorent les performances finales des modèles plus grands, offrant ainsi une voie prometteuse et évolutive pour la sélection de données centrée sur le raisonnement.
Le pré-entraînement continu (Continual Pre-Training, CPT) est devenu une méthode populaire et efficace pour appliquer des modèles de base robustes à des tâches spécifiques en aval. Dans ce travail, nous explorons la dynamique d'apprentissage tout au long du processus de CPT pour les grands modèles de langage. Nous nous concentrons spécifiquement sur l'évolution des performances générales et spécifiques au domaine à chaque étape d'entraînement, les performances du domaine étant mesurées via les pertes de validation. Nous avons observé que la courbe de perte du CPT caractérise fondamentalement la transition d'une courbe à une autre courbe cachée, et pourrait être décrite en découplant les effets du décalage de distribution et de l'ajustement du taux d'apprentissage. Nous dérivons une loi d'échelle pour le CPT qui combine ces deux facteurs, permettant de prédire la perte à n'importe quelle étape d'entraînement (continue) et pour différents plans de taux d'apprentissage (LRS) dans le CPT. Notre formulation offre une compréhension approfondie de plusieurs facteurs critiques dans le CPT, notamment le potentiel de perte, le taux d'apprentissage maximal, les étapes d'entraînement, le ratio de rejeu, etc. De plus, notre approche peut être adaptée pour personnaliser les hyperparamètres d'entraînement en fonction de différents objectifs de CPT, comme l'équilibre entre les performances générales et spécifiques au domaine. Des expériences approfondies démontrent que notre loi d'échelle est valable pour divers ensembles de données de CPT et hyperparamètres d'entraînement.
Les agents basés sur LLM ont démontré un grand potentiel dans la génération et la gestion de code au sein de bases de code complexes. Dans cet article, nous présentons WebGen-Bench, un nouveau benchmark conçu pour mesurer la capacité d'un agent basé sur LLM à créer des bases de code de sites web multi-fichiers à partir de zéro. Il contient des instructions variées pour la génération de sites web, créées grâce à l'effort combiné d'annotateurs humains et de GPT-4o. Ces instructions couvrent trois catégories principales et treize sous-catégories, englobant presque tous les types importants d'applications web. Pour évaluer la qualité des sites web générés, nous utilisons GPT-4o pour générer des cas de test ciblant chaque fonctionnalité décrite dans les instructions, puis nous les filtrons, ajustons et organisons manuellement pour garantir leur précision, ce qui donne 647 cas de test. Chaque cas de test spécifie une opération à effectuer sur le site web et le résultat attendu après cette opération. Pour automatiser les tests et améliorer la reproductibilité, nous employons un puissant agent de navigation web pour exécuter les tests sur les sites web générés et déterminer si les réponses observées correspondent aux résultats attendus. Nous évaluons trois frameworks d'agents de code hautes performances, Bolt.diy, OpenHands et Aider, en utilisant plusieurs LLM propriétaires et open-source comme moteurs. La combinaison la plus performante, Bolt.diy alimenté par DeepSeek-R1, n'atteint que 27,8 % de précision sur les cas de test, soulignant la nature exigeante de notre benchmark. De plus, nous construisons WebGen-Instruct, un ensemble d'entraînement composé de 6 667 instructions de génération de sites web. L'entraînement de Qwen2.5-Coder-32B-Instruct sur les trajectoires de Bolt.diy générées à partir d'un sous-ensemble de cet ensemble d'entraînement atteint une précision de 38,2 %, surpassant la performance du meilleur modèle propriétaire.
La sagesse conventionnelle suggère que les modèles autorégressifs sont utilisés pour traiter des données discrètes. Lorsqu'ils sont appliqués à des modalités continues telles que les données visuelles, la modélisation visuelle autorégressive (VAR) recourt généralement à des approches basées sur la quantification pour transformer les données en un espace discret, ce qui peut entraîner une perte significative d'information. Pour résoudre ce problème, nous introduisons un cadre de VAR continue qui permet une génération visuelle autorégressive directe sans quantification vectorielle. Le fondement théorique sous-jacent repose sur les règles de score strictement propres, qui fournissent des outils statistiques puissants capables d'évaluer dans quelle mesure un modèle génératif approxime la distribution réelle. Dans ce cadre, tout ce dont nous avons besoin est de sélectionner un score strictement propre et de le définir comme objectif d'entraînement à optimiser. Nous explorons principalement une classe d'objectifs d'entraînement basés sur le score énergétique, qui est exempt de vraisemblance et surmonte ainsi la difficulté de faire des prédictions probabilistes dans l'espace continu. Les efforts précédents sur la génération autorégressive continue, tels que GIVT et la perte de diffusion, peuvent également être dérivés de notre cadre en utilisant d'autres scores strictement propres. Code source : https://github.com/shaochenze/EAR.
Nous présentons INTELLECT-2, la première exécution de formation par apprentissage par renforcement (RL) distribuée à l'échelle mondiale pour un modèle de langage de 32 milliards de paramètres. Contrairement aux efforts de formation centralisés traditionnels, INTELLECT-2 entraîne un modèle de raisonnement en utilisant un apprentissage par renforcement entièrement asynchrone à travers un essaim dynamique et hétérogène de contributeurs de calcul sans permission. Pour permettre une exécution de formation avec cette infrastructure unique, nous avons construit divers composants à partir de zéro : nous introduisons PRIME-RL, notre cadre de formation spécialement conçu pour l'apprentissage par renforcement asynchrone distribué, basé sur des composants novateurs tels que TOPLOC, qui vérifie les déploiements provenant de travailleurs d'inférence non fiables, et SHARDCAST, qui diffuse efficacement les poids de politique des nœuds de formation aux travailleurs d'inférence. Au-delà des composants d'infrastructure, nous proposons des modifications à la recette de formation GRPO standard et des techniques de filtrage des données qui ont été cruciales pour atteindre la stabilité de la formation et garantir que notre modèle a appris avec succès son objectif de formation, améliorant ainsi QwQ-32B, le modèle de raisonnement de pointe dans la gamme des 32 milliards de paramètres. Nous rendons INTELLECT-2 open-source ainsi que tout notre code et nos données, dans l'espoir d'encourager et de permettre davantage de recherches ouvertes dans le domaine de la formation décentralisée.
La retouche est une tâche essentielle dans le post-traitement des photographies brutes. L'édition générative, guidée par du texte ou des traits, offre un nouvel outil accessible aux utilisateurs, mais peut facilement modifier l'identité des objets originaux de manière inacceptable et imprévisible. En revanche, bien que les modifications procédurales traditionnelles, couramment supportées par les outils de retouche photo (par exemple, Gimp, Lightroom), soient conservatrices, elles restent préférées par les professionnels. Malheureusement, la retouche de qualité professionnelle implique de nombreuses opérations de modification procédurales individuelles qui sont difficiles à planifier pour la plupart des novices. Dans cet article, nous nous demandons si un modèle de langage multimodal (MLLM) peut être formé pour critiquer des photographies brutes, suggérer des remèdes appropriés, et enfin les réaliser avec un ensemble prédéfini d'opérations procédurales sur les images. Nous démontrons que les MLLMs peuvent d'abord être rendus conscients des opérations de traitement d'image sous-jacentes, en les entraînant à résoudre des puzzles visuels spécialement conçus. Par la suite, un tel MLLM conscient des opérations peut à la fois planifier et proposer des séquences de modifications. Pour faciliter l'entraînement, étant donné un ensemble de photos retouchées par des experts, nous synthétisons un ensemble de données de raisonnement en manipulant procéduralement les retouches expertes, puis en ancrant un LLM pré-entraîné sur les ajustements visuels, pour synthétiser un raisonnement destiné au fine-tuning. Les opérations de retouche proposées sont, par construction, compréhensibles par les utilisateurs, préservent les détails et la résolution des objets, et peuvent être optionnellement modifiées. Nous évaluons notre configuration sur une variété d'exemples de test et montrons des avantages, en termes d'explicabilité et de préservation de l'identité, par rapport aux alternatives génératives et procédurales existantes. Le code, les données, les modèles et les résultats supplémentaires peuvent être trouvés sur notre site web de projet à l'adresse https://monetgpt.github.io.
La génération augmentée par recherche (RAG) est une stratégie courante pour réduire les hallucinations dans les grands modèles de langage (LLMs). Bien que l'apprentissage par renforcement (RL) puisse permettre aux LLMs d'agir comme agents de recherche en activant des capacités de récupération, les modèles existants sous-utilisent souvent leurs connaissances internes. Cela peut entraîner des récupérations redondantes, des conflits potentiels de connaissances nuisibles et une latence d'inférence accrue. Pour remédier à ces limitations, un agent de recherche efficace et adaptatif, capable de discerner le moment optimal pour la récupération et d'intégrer de manière synergique les connaissances paramétriques (internes) et récupérées (externes), est urgent. Cet article présente l'agent de raisonnement synergique des connaissances internes-externes renforcé (IKEA), qui peut identifier ses propres limites de connaissances et prioriser l'utilisation des connaissances internes, en recourant à la recherche externe uniquement lorsque les connaissances internes sont jugées insuffisantes. Cela est réalisé grâce à une nouvelle fonction de récompense consciente des limites de connaissances et à un ensemble de données d'entraînement conscient des limites de connaissances. Ces éléments sont conçus pour un apprentissage par renforcement orienté vers la synergie des connaissances internes-externes, incitant le modèle à fournir des réponses précises, à minimiser les récupérations inutiles et à encourager les recherches externes appropriées lorsque ses propres connaissances sont insuffisantes. Les évaluations sur plusieurs tâches de raisonnement sur les connaissances démontrent qu'IKEA surpasse significativement les méthodes de référence, réduit considérablement la fréquence de récupération et présente des capacités de généralisation robustes.
Dans ce document de position, nous observons que l'évaluation empirique dans l'IA générative est à un point critique, car les stratégies traditionnelles d'évaluation et de benchmarking en apprentissage automatique sont insuffisantes pour répondre aux besoins d'évaluation des modèles et systèmes modernes d'IA générative. Plusieurs raisons expliquent cela, notamment le fait que ces modèles ont généralement des espaces d'entrée et de sortie quasi illimités, ne possèdent généralement pas de vérité terrain bien définie, et présentent souvent des boucles de rétroaction fortes ainsi qu'une dépendance des prédictions basée sur le contexte des sorties précédentes du modèle. Au-delà de ces problèmes critiques, nous soutenons que les problèmes de {\em fuite} et de {\em contamination} sont en réalité les enjeux les plus importants et les plus difficiles à résoudre pour les évaluations en IA générative. Il est intéressant de noter que le domaine des compétitions d'IA a développé des mesures et des pratiques efficaces pour lutter contre la fuite, dans le but de contrer la triche par des acteurs malveillants dans un cadre compétitif. Cela fait des compétitions d'IA une ressource particulièrement précieuse (mais sous-utilisée). Il est temps pour le domaine de considérer les compétitions d'IA comme la référence en matière de rigueur empirique pour l'évaluation en IA générative, et de valoriser et exploiter leurs résultats en conséquence.
Les architectures de mélange d'experts parcimonieux (MoE) se sont imposées comme une approche prometteuse pour l'extension des modèles Transformer. Alors que les travaux initiaux intégraient principalement le MoE dans les couches de réseaux feed-forward (FFN), des études récentes ont exploré l'extension du paradigme MoE aux couches d'attention afin d'améliorer les performances des modèles. Cependant, les couches MoE basées sur l'attention existantes nécessitent des implémentations spécialisées et présentent des performances sous-optimales par rapport à leurs homologues basées sur les FFN. Dans cet article, nous visons à unifier les conceptions MoE dans les couches d'attention et FFN en introduisant une nouvelle reformulation du mécanisme d'attention, révélant une structure sous-jacente de type FFN au sein des modules d'attention. Notre architecture proposée, UMoE, atteint des performances supérieures grâce à des couches MoE basées sur l'attention tout en permettant un partage efficace des paramètres entre les composants FFN et d'attention.
Les systèmes de génération augmentée par la récupération (RAG) combinent des modèles de langage de grande taille (LLM) avec la récupération de connaissances externes, les rendant très efficaces pour les tâches nécessitant une expertise approfondie. Un composant crucial mais souvent sous-exploré de ces systèmes est le réordonnanceur, qui affine les documents récupérés pour améliorer la qualité et l'explicabilité de la génération. Le défi de sélectionner le nombre optimal de documents (k) reste non résolu : un nombre trop faible peut omettre des informations critiques, tandis qu'un nombre trop élevé introduit du bruit et des inefficacités. Bien que des études récentes aient exploré des réordonnanceurs basés sur des LLM, elles exploitent principalement les connaissances internes du modèle et négligent les signaux de supervision riches que les LLM peuvent fournir, tels que l'utilisation de la qualité des réponses comme retour pour optimiser les décisions de réordonnancement. Dans cet article, nous proposons DynamicRAG, un nouveau cadre RAG où le réordonnanceur ajuste dynamiquement à la fois l'ordre et le nombre de documents récupérés en fonction de la requête. Nous modélisons le réordonnanceur comme un agent optimisé par apprentissage par renforcement (RL), en utilisant des récompenses dérivées de la qualité des sorties du LLM. Sur sept ensembles de données nécessitant une expertise approfondie, DynamicRAG démontre une performance supérieure, atteignant des résultats de pointe. Le modèle, les données et le code sont disponibles à l'adresse suivante : https://github.com/GasolSun36/DynamicRAG
Nous présentons LlamaPIE, le premier assistant proactif en temps réel conçu pour améliorer les conversations humaines grâce à des conseils discrets et concis délivrés via des dispositifs auditifs. Contrairement aux modèles de langage traditionnels qui nécessitent une invocation explicite par l'utilisateur, cet assistant fonctionne en arrière-plan, anticipant les besoins de l'utilisateur sans interrompre les conversations. Nous abordons plusieurs défis, notamment la détermination du moment opportun pour répondre, la formulation de réponses concises qui enrichissent les conversations, l'exploitation des connaissances de l'utilisateur pour une assistance contextuelle, ainsi que le traitement en temps réel et sur l'appareil. Pour y parvenir, nous construisons un ensemble de dialogues semi-synthétiques et proposons un pipeline à deux modèles : un petit modèle qui décide quand répondre et un modèle plus large qui génère la réponse. Nous évaluons notre approche sur des ensembles de données réels, démontrant son efficacité à fournir une assistance utile et non intrusive. Des études utilisateurs avec notre assistant, implémenté sur du matériel Apple Silicon M2, montrent une forte préférence pour l'assistant proactif par rapport à un scénario sans assistance et à un modèle réactif, soulignant le potentiel de LlamaPIE pour améliorer les conversations en direct.
L'apprentissage de politiques visuomotrices a connu des progrès substantiels dans la manipulation robotique, les approches récentes s'appuyant principalement sur des modèles génératifs pour modéliser la distribution des actions. Cependant, ces méthodes négligent souvent le couplage critique entre la perception visuelle et la prédiction des actions. Dans ce travail, nous présentons Triply-Hierarchical Diffusion Policy (H^{\mathbf{3}DP}), un nouveau cadre d'apprentissage visuomoteur qui intègre explicitement des structures hiérarchiques pour renforcer l'intégration entre les caractéristiques visuelles et la génération d'actions. H^{3}DP contient 3 niveaux de hiérarchie : (1) un empilement d'entrées prenant en compte la profondeur qui organise les observations RGB-D en fonction des informations de profondeur ; (2) des représentations visuelles multi-échelles qui encodent des caractéristiques sémantiques à différents niveaux de granularité ; et (3) un processus de diffusion conditionné hiérarchiquement qui aligne la génération d'actions allant du grossier au fin avec les caractéristiques visuelles correspondantes. Des expériences approfondies démontrent que H^{3}DP offre une amélioration relative moyenne de +27,5 % par rapport aux méthodes de référence sur 44 tâches de simulation et obtient des performances supérieures dans 4 tâches de manipulation bimanuelle complexes dans le monde réel. Page du projet : https://lyy-iiis.github.io/h3dp/.
Une tendance récente dans les modèles de langage de grande taille (LLMs) est le développement de modèles récurrents sous-quadratiques qui améliorent l'efficacité du traitement des contextes longs. Nous étudions les principaux modèles conçus pour les contextes étendus, en nous concentrant sur la manière dont leur mémoire récurrente de taille fixe influence leurs performances. Nos expériences révèlent que, même lorsque ces modèles sont entraînés pour des contextes prolongés, leur utilisation des contextes longs reste sous-exploitée. Plus précisément, nous démontrons qu'une procédure d'inférence basée sur des segments, qui identifie et traite uniquement la partie la plus pertinente de l'entrée, peut atténuer les défaillances de la mémoire récurrente et s'avérer efficace pour de nombreuses tâches impliquant des contextes longs : sur LongBench, notre méthode améliore les performances globales de Falcon3-Mamba-Inst-7B de 14 %, Falcon-Mamba-Inst-7B de 28 %, RecurrentGemma-IT-9B de 50 % et RWKV6-Finch-7B de 51 %. Étonnamment, cette approche simple conduit également à des résultats de pointe dans le benchmark exigeant LongBench v2, affichant des performances compétitives avec des Transformers de taille équivalente. Par ailleurs, nos résultats soulèvent des questions sur la capacité des modèles récurrents à exploiter véritablement les dépendances à long terme, car notre stratégie à segment unique offre de meilleures performances, même dans des tâches censées nécessiter des relations inter-contextes.
Alors que les modèles de langage de grande taille (LLMs) sont de plus en plus appliqués à des tâches basées sur des documents - telles que la synthèse de documents, la réponse à des questions et l'extraction d'informations - où les exigences des utilisateurs se concentrent sur la récupération d'informations à partir de documents fournis plutôt que sur la connaissance paramétrique du modèle, garantir la fiabilité et l'interprétabilité de ces systèmes est devenu un enjeu critique. Une approche centrale pour relever ce défi est l'attribution, qui consiste à retracer les sorties générées jusqu'à leurs documents sources. Cependant, puisque les LLMs peuvent produire des réponses inexactes ou imprécises, il est crucial d'évaluer la fiabilité de ces citations. Pour résoudre ce problème, notre travail propose deux techniques. (1) Une approche zero-shot qui formule l'attribution comme une tâche simple d'implication textuelle. Notre méthode utilisant flan-ul2 démontre une amélioration de 0,27 % et 2,4 % par rapport à la meilleure base de référence des ensembles ID et OOD d'AttributionBench, respectivement. (2) Nous explorons également le rôle du mécanisme d'attention dans l'amélioration du processus d'attribution. En utilisant un LLM plus petit, flan-t5-small, les scores F1 surpassent la base de référence dans presque toutes les couches, à l'exception de la couche 4 et des couches 8 à 11.
Bien que les modèles d'apprentissage profond aient démontré un potentiel remarquable dans la prévision météorologique, la plupart d'entre eux négligent soit la physique de l'évolution météorologique sous-jacente, soit la topographie de la surface terrestre. Face à ces inconvénients, nous développons PASSAT, un nouveau modèle d'apprentissage profond assisté par la physique et informé par la topographie pour la prévision météorologique. PASSAT attribue l'évolution météorologique à deux facteurs clés : (i) le processus d'advection qui peut être caractérisé par l'équation d'advection et les équations de Navier-Stokes ; (ii) l'interaction Terre-atmosphère qui est difficile à modéliser et à calculer. PASSAT prend également en compte la topographie de la surface terrestre, au lieu de la traiter simplement comme un plan. Avec ces considérations, PASSAT résout numériquement l'équation d'advection et les équations de Navier-Stokes sur la variété sphérique, utilise un réseau de neurones graphiques sphériques pour capturer l'interaction Terre-atmosphère, et génère les champs de vitesse initiaux, essentiels pour résoudre l'équation d'advection, à partir du même réseau de neurones graphiques sphériques. Sur le jeu de données ERA5 à une résolution de 5,625 degrés, PASSAT surpasse à la fois les modèles de prévision météorologique basés sur l'apprentissage profond les plus avancés et le modèle opérationnel de prévision numérique du temps IFS T42. Le code et les points de contrôle sont disponibles à l'adresse suivante : https://github.com/Yumenomae/PASSAT_5p625.
La conception de séquences biologiques satisfaisant des critères fonctionnels et biophysiques multiples, souvent conflictuels, reste un défi central en ingénierie des biomolécules. Bien que les modèles de correspondance de flux discrets aient récemment montré des résultats prometteurs pour un échantillonnage efficace dans des espaces de séquences de haute dimension, les approches existantes ne traitent que des objectifs uniques ou nécessitent des embeddings continus qui peuvent déformer les distributions discrètes. Nous présentons le Multi-Objective-Guided Discrete Flow Matching (MOG-DFM), un cadre général pour orienter tout générateur de correspondance de flux en temps discret pré-entraîné vers des compromis Pareto-efficaces sur plusieurs objectifs scalaires. À chaque étape d'échantillonnage, MOG-DFM calcule un score hybride de rang-direction pour les transitions candidates et applique un filtre hyperconique adaptatif pour assurer une progression multi-objective cohérente. Nous avons également entraîné deux modèles de correspondance de flux discrets inconditionnels, PepDFM pour la génération diversifiée de peptides et EnhancerDFM pour la génération d'ADN d'enhancer fonctionnel, comme modèles de base pour MOG-DFM. Nous démontrons l'efficacité de MOG-DFM dans la génération de peptides liants optimisés sur cinq propriétés (hémolyse, anti-encrassement, solubilité, demi-vie et affinité de liaison), et dans la conception de séquences d'ADN avec des classes d'enhancer et des formes d'ADN spécifiques. Au total, MOG-DFM s'avère être un outil puissant pour la conception de séquences de biomolécules guidée par plusieurs propriétés.