papers.description
L'adaptation à faible rang (LoRA) a considérablement fait progresser le réglage fin efficace en paramètres des grands modèles pré-entraînés. LoRA enrichit les poids pré-entraînés d'un modèle en ajoutant le produit de deux matrices plus petites qui forment ensemble une mise à jour matricielle à faible rang. Des recherches récentes ont montré que les disparités d'échelle entre ces deux matrices provoquent souvent des dynamiques d'entraînement instables, conduisant à des performances sous-optimales. Dans cet article, nous proposons SingLoRA, qui reformule l'adaptation à faible rang en apprenant la mise à jour des poids comme une décomposition d'une seule matrice à faible rang multipliée par sa transposée. Cette conception simple supprime intrinsèquement les conflits d'échelle inter-matriciels, garantissant une optimisation stable, et réduit approximativement de moitié le nombre de paramètres. Nous analysons SingLoRA dans le cadre des réseaux de neurones à largeur infinie, montrant qu'il garantit par construction un apprentissage stable des caractéristiques. Des expériences approfondies sur plusieurs tâches valident ces avantages. En raisonnement de bon sens, le réglage fin de LLama 7B sur MNLI avec SingLoRA atteint une précision de 91,3 % - surpassant LoRA (89,1 %) et LoRA+ (90,2 %) - tout en utilisant seulement 60 % de leur budget en paramètres. En génération d'images, le réglage fin de Stable Diffusion avec SingLoRA améliore significativement la fidélité des images sur DreamBooth, atteignant un score de similarité DINO de 0,151, contre des scores de 0,148 et 0,143 pour DoRA et LoRA, respectivement.
Les grands modèles de langage (LLM) ont démontré des capacités de raisonnement impressionnantes, en particulier lorsqu'ils sont guidés par un raisonnement explicite en chaîne de pensée (CoT) qui verbalise les étapes intermédiaires. Bien que le CoT améliore à la fois l'interprétabilité et la précision, sa dépendance au raisonnement en langage naturel limite la bande passante expressive du modèle. Le raisonnement latent aborde ce goulot d'étranglement en effectuant une inférence multi-étapes entièrement dans l'état caché continu du modèle, éliminant ainsi la supervision au niveau des tokens. Pour faire progresser la recherche sur le raisonnement latent, cette étude propose un aperçu complet du domaine émergent du raisonnement latent. Nous commençons par examiner le rôle fondamental des couches de réseaux de neurones comme substrat computationnel pour le raisonnement, en soulignant comment les représentations hiérarchiques soutiennent des transformations complexes. Ensuite, nous explorons diverses méthodologies de raisonnement latent, y compris la récurrence basée sur les activations, la propagation des états cachés, et les stratégies de fine-tuning qui compressent ou internalisent les traces de raisonnement explicites. Enfin, nous discutons des paradigmes avancés tels que le raisonnement latent à profondeur infinie via des modèles de diffusion masqués, qui permettent des processus de raisonnement globalement cohérents et réversibles. En unifiant ces perspectives, nous visons à clarifier le paysage conceptuel du raisonnement latent et à tracer des directions futures pour la recherche à la frontière de la cognition des LLM. Un dépôt GitHub associé, rassemblant les derniers articles et référentiels, est disponible à l'adresse suivante : https://github.com/multimodal-art-projection/LatentCoT-Horizon/.
La création d'actifs 3D avec des structures de parties explicites et modifiables est cruciale pour faire progresser les applications interactives, mais la plupart des méthodes génératives ne produisent que des formes monolithiques, limitant ainsi leur utilité. Nous présentons OmniPart, un nouveau cadre pour la génération d'objets 3D conscients des parties, conçu pour atteindre un découplage sémantique élevé entre les composants tout en maintenant une cohésion structurelle robuste. OmniPart découple de manière unique cette tâche complexe en deux étapes synergiques : (1) un module de planification de structure autoregressif génère une séquence contrôlable et de longueur variable de boîtes englobantes 3D pour les parties, guidé de manière critique par des masques de parties 2D flexibles qui permettent un contrôle intuitif de la décomposition des parties sans nécessiter de correspondances directes ou d'étiquettes sémantiques ; et (2) un modèle de flux rectifié conditionné spatialement, efficacement adapté à partir d'un générateur 3D holistique pré-entraîné, synthétise toutes les parties 3D simultanément et de manière cohérente dans la disposition planifiée. Notre approche prend en charge la granularité des parties définie par l'utilisateur, la localisation précise, et permet diverses applications en aval. Des expériences approfondies démontrent qu'OmniPart atteint des performances de pointe, ouvrant la voie à un contenu 3D plus interprétable, modifiable et polyvalent.
Les agents web basés sur des LLM (modèles de langage de grande taille) ont récemment réalisé des progrès significatifs, mais une grande partie de ces avancées a eu lieu dans des systèmes propriétaires, creusant ainsi l'écart avec les alternatives open source. Ces progrès ont été freinés par deux défis majeurs : premièrement, une focalisation étroite sur des tâches en une seule étape, négligeant la complexité des interactions web multi-étapes ; et deuxièmement, les coûts de calcul élevés nécessaires pour le post-entraînement des agents web basés sur des LLM. Pour y remédier, nous présentons la première étude statistiquement fondée sur l'allocation de ressources de calcul pour le post-entraînement des agents web LLM. Notre approche utilise un pipeline en deux étapes, entraînant un étudiant Llama 3.1 8B à imiter un enseignant Llama 3.3 70B via un fine-tuning supervisé (SFT), suivi d'un apprentissage par renforcement sur politique. Nous constatons que ce processus est très sensible aux choix d'hyperparamètres, rendant les balayages exhaustifs impraticables. Pour éviter à d'autres des essais et erreurs coûteux, nous échantillonnons 1 370 configurations et utilisons le bootstrapping pour estimer les hyperparamètres efficaces. Nos résultats montrent que la combinaison du SFT avec l'apprentissage par renforcement sur politique surpasse systématiquement chaque approche seule, à la fois sur WorkArena et MiniWob++. De plus, cette stratégie nécessite seulement 55 % des ressources de calcul pour atteindre la performance maximale du SFT pur sur MiniWob++, repoussant efficacement la frontière de Pareto entre calcul et performance, et est la seule stratégie capable de combler l'écart avec les modèles propriétaires.
La navigation vision-langage (VLN) dans des environnements réels nécessite que les agents traitent des flux visuels continus et génèrent des actions avec une faible latence, en se basant sur des instructions linguistiques. Bien que les modèles de langage de grande taille basés sur la vidéo (Video-LLMs) aient récemment permis des avancées, les méthodes actuelles de VLN basées sur Video-LLM sont souvent confrontées à des compromis entre la compréhension visuelle fine, la modélisation de contexte à long terme et l'efficacité computationnelle. Nous présentons StreamVLN, un cadre de VLN en flux continu qui utilise une stratégie hybride de modélisation de contexte lent-rapide pour soutenir le raisonnement multimodal sur des entrées entrelacées de vision, de langage et d'actions. Le contexte de dialogue en flux rapide facilite la génération réactive d'actions grâce à une fenêtre glissante de dialogues actifs, tandis que le contexte de mémoire à mise à jour lente compresse les états visuels historiques en utilisant une stratégie d'élagage de tokens 3D. Grâce à cette conception lent-rapide, StreamVLN réalise un dialogue cohérent sur plusieurs tours grâce à une réutilisation efficace du cache KV, supportant de longs flux vidéo avec une taille de contexte et un coût d'inférence limités. Les expériences sur les benchmarks VLN-CE démontrent des performances de pointe avec une latence faible et stable, garantissant robustesse et efficacité dans un déploiement réel. La page du projet est : https://streamvln.github.io/{https://streamvln.github.io/}.
La traduction d'énoncés mathématiques en langage naturel en code formel et exécutable constitue un défi fondamental dans la démonstration automatique de théorèmes. Alors que les travaux antérieurs se sont concentrés sur la génération et la compilation, peu d'attention a été accordée à la phase de critique - l'évaluation de la capacité des formalisations générées à capturer fidèlement l'intention sémantique du problème original. Dans cet article, nous présentons CriticLean, un cadre novateur d'apprentissage par renforcement guidé par un critique, qui élève le rôle du critique d'un validateur passif à un composant actif d'apprentissage. Plus précisément, nous proposons d'abord CriticLeanGPT, entraîné via un ajustement supervisé et un apprentissage par renforcement, pour évaluer rigoureusement la fidélité sémantique des formalisations en Lean 4. Ensuite, nous introduisons CriticLeanBench, un benchmark conçu pour mesurer la capacité des modèles à distinguer les formalisations sémantiquement correctes des incorrectes, et démontrons que nos modèles CriticLeanGPT entraînés surpassent significativement des bases de référence solides, tant ouvertes que propriétaires. En nous appuyant sur le cadre CriticLean, nous construisons FineLeanCorpus, un ensemble de données comprenant plus de 285 000 problèmes, qui présente une riche diversité de domaines, une large couverture des niveaux de difficulté et une grande exactitude selon l'évaluation humaine. Globalement, nos résultats soulignent que l'optimisation de la phase de critique est essentielle pour produire des formalisations fiables, et nous espérons que CriticLean fournira des insights précieux pour les avancées futures dans le raisonnement mathématique formel.
Les grands modèles de langage (LLM) excellent dans le raisonnement logique et algorithmique, mais leur intelligence émotionnelle (QE) reste bien en deçà de leurs prouesses cognitives. Bien que l'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) ait progressé dans d'autres domaines, son application au dialogue—en particulier pour l'intelligence émotionnelle—reste peu explorée. Dans ce travail, nous introduisons RLVER, le premier cadre d'apprentissage par renforcement de bout en bout qui exploite des récompenses émotionnelles vérifiables provenant d'utilisateurs simulés pour cultiver des capacités empathiques de haut niveau dans les LLM. Dans ce cadre, des utilisateurs simulés affectivement cohérents s'engagent dans des déroulements de dialogue et produisent des scores émotionnels déterministes pendant les conversations, servant de signaux de récompense pour guider l'apprentissage du LLM. Le fine-tuning du modèle Qwen2.5-7B-Instruct, disponible publiquement, avec PPO augmente son score au Sentient-Benchmark de 13,3 à 79,2 tout en préservant largement ses compétences en mathématiques et en codage. Des expériences approfondies révèlent que : (i) RLVER améliore systématiquement plusieurs capacités de dialogue ; (ii) Les modèles pensants et non-pensants montrent des tendances distinctes—les modèles pensants excellent en empathie et en perspicacité, tandis que les modèles non-pensants privilégient l'action ; (iii) GRPO offre souvent des gains stables, tandis que PPO peut pousser certaines capacités à un niveau supérieur ; (iv) Les environnements plus difficiles ne sont pas toujours meilleurs—des environnements modérés peuvent produire des résultats plus solides. Nos résultats montrent que RLVER est une voie pratique vers des agents linguistiques émotionnellement intelligents et globalement compétents.
Les récents progrès dans la génération de vidéos ont montré des avancées remarquables dans des contextes ouverts, mais la génération de vidéos médicales reste largement inexplorée. Les vidéos médicales sont essentielles pour des applications telles que la formation clinique, l'éducation et la simulation, nécessitant non seulement une fidélité visuelle élevée mais aussi une précision médicale stricte. Cependant, les modèles actuels produisent souvent un contenu irréaliste ou erroné lorsqu'ils sont appliqués à des prompts médicaux, principalement en raison du manque de jeux de données à grande échelle et de haute qualité adaptés au domaine médical. Pour combler cette lacune, nous introduisons MedVideoCap-55K, le premier jeu de données à grande échelle, diversifié et riche en légendes pour la génération de vidéos médicales. Il comprend plus de 55 000 clips soigneusement sélectionnés couvrant des scénarios médicaux réels, offrant une base solide pour l'entraînement de modèles généralistes de génération de vidéos médicales. Basé sur ce jeu de données, nous développons MedGen, qui atteint des performances de pointe parmi les modèles open-source et rivalise avec les systèmes commerciaux sur plusieurs benchmarks en termes de qualité visuelle et de précision médicale. Nous espérons que notre jeu de données et notre modèle pourront servir de ressource précieuse et contribuer à catalyser davantage de recherches dans le domaine de la génération de vidéos médicales. Notre code et nos données sont disponibles à l'adresse suivante : https://github.com/FreedomIntelligence/MedGen.
Les agents d'interface utilisateur graphique (GUI) opèrent de manière autonome sur diverses plateformes (par exemple, Linux) pour accomplir des tâches en interagissant avec des éléments visuels. Plus précisément, une instruction utilisateur est décomposée en une séquence de propositions d'actions, chacune correspondant à une interaction avec l'interface graphique. Après chaque action, l'agent observe l'environnement GUI mis à jour pour planifier l'étape suivante. Cependant, deux défis majeurs se posent : i) résoudre l'ambiguïté dans la planification des tâches (c'est-à-dire la séquence de propositions d'actions), où la sélection d'un plan approprié est non triviale, car plusieurs plans valides peuvent exister ; ii) ancrer avec précision les actions dans des interfaces complexes et à haute résolution, c'est-à-dire interagir précisément avec des cibles visuelles. Cet article examine les deux défis mentionnés ci-dessus avec notre agent de mise à l'échelle au moment du test, nommé GTA1. Premièrement, pour sélectionner la proposition d'action la plus appropriée, nous introduisons une méthode de mise à l'échelle au moment du test. À chaque étape, nous échantillonnons plusieurs propositions d'actions candidates et utilisons un modèle de jugement pour évaluer et sélectionner la plus adaptée. Cela permet de faire un compromis entre le calcul et la qualité de la décision grâce à un échantillonnage concurrent, en réduisant les étapes d'exécution des tâches et en améliorant les performances globales. Deuxièmement, nous proposons un modèle qui améliore la précision lors de l'ancrage de la proposition d'action sélectionnée à ses éléments visuels correspondants. Notre idée clé est que l'apprentissage par renforcement (RL) facilite l'ancrage visuel grâce à des alignements d'objectifs inhérents, récompensant les clics réussis sur les éléments de l'interface. Expérimentalement, notre méthode établit des performances de pointe sur divers benchmarks. Par exemple, GTA1-7B atteint des précisions de 50,1 %, 92,4 % et 67,7 % sur Screenspot-Pro, Screenspot-V2 et OSWorld-G, respectivement. Lorsqu'il est associé à un planificateur appliquant notre stratégie de mise à l'échelle au moment du test, il montre des performances agentiques de pointe (par exemple, un taux de réussite des tâches de 45,2 % sur OSWorld). Nous mettons à disposition notre code et nos modèles en open source ici.
Le modèle du monde, supposé être le substitut algorithmique de l'environnement réel que les agents biologiques expérimentent et sur lequel ils agissent, est devenu un sujet émergent ces dernières années en raison des besoins croissants de développer des agents virtuels dotés d'une intelligence artificielle (générale). De nombreux débats ont eu lieu sur ce qu'est vraiment un modèle du monde, comment le construire, comment l'utiliser et comment l'évaluer. Dans cet essai, en partant de l'imagination du célèbre classique de science-fiction Dune, et en s'inspirant du concept de "pensée hypothétique" dans la littérature psychologique, nous offrons une critique de plusieurs courants de pensée sur la modélisation du monde, et soutenons que l'objectif principal d'un modèle du monde est de simuler toutes les possibilités actionnables du monde réel pour un raisonnement et une action intentionnels. Sur la base de ces critiques, nous proposons une nouvelle architecture pour un modèle du monde à usage général, basée sur des représentations hiérarchiques, multi-niveaux, et mixtes continues/discrètes, ainsi qu'un cadre d'apprentissage génératif et auto-supervisé, avec une perspective d'un système d'IA Générale Physique, Agentique et Imbriquée (PAN) rendu possible par un tel modèle.
Nous présentons Nile-Chat-4B, 3x4B-A6B et 12B, une collection de modèles de langage de grande taille (LLMs) pour le dialecte égyptien, conçus de manière unique pour comprendre et générer des textes écrits à la fois en caractères arabes et latins. Plus précisément, avec Nile-Chat-3x4B-A6B, nous introduisons une nouvelle approche d'adaptation linguistique en exploitant la stratégie Branch-Train-MiX pour fusionner des experts spécialisés dans chaque script en un seul modèle MoE (Mixture of Experts). Nos modèles Nile-Cchat surpassent significativement les principaux LLMs multilingues et arabes, tels que LLaMa, Jais et ALLaM, sur nos nouveaux benchmarks d'évaluation égyptiens, qui couvrent à la fois des tâches de compréhension et de génération. Notamment, notre modèle 12B obtient un gain de performance de 14,4 % par rapport à Qwen2.5-14B-Instruct sur les benchmarks en caractères latins. Toutes nos ressources sont publiquement disponibles. Nous pensons que ce travail présente une méthodologie complète pour adapter les LLMs aux langues à double script, abordant un aspect souvent négligé dans le développement moderne des LLMs.
La mise à l'échelle des données a conduit à des succès remarquables dans les modèles de base pour le traitement du langage naturel (NLP) et la vision par ordinateur (CV), mais les principes d'une mise à l'échelle efficace des données dans la manipulation robotique restent insuffisamment compris. Dans ce travail, nous étudions le rôle nuancé de la diversité des données dans l'apprentissage robotique en examinant trois dimensions critiques - la tâche (quoi faire), l'embodiment (quel robot utiliser) et l'expert (qui démontre) - remettant en question l'intuition conventionnelle selon laquelle "plus diversifié est meilleur". À travers des expériences approfondies sur diverses plateformes robotiques, nous révélons que (1) la diversité des tâches s'avère plus critique que la quantité de démonstrations par tâche, bénéficiant au transfert de tâches de pré-entraînement variées vers de nouveaux scénarios en aval ; (2) les données de pré-entraînement multi-embodiment sont optionnelles pour le transfert inter-embodiment - les modèles entraînés sur des données de haute qualité d'un seul embodiment peuvent transférer efficacement vers différentes plateformes, montrant une propriété de mise à l'échelle plus souhaitable lors du fine-tuning que les modèles pré-entraînés multi-embodiment ; et (3) la diversité des experts, résultant des préférences opérationnelles individuelles et des variations stochastiques dans les démonstrations humaines, peut être source de confusion pour l'apprentissage des politiques, avec la multimodalité de la vitesse émergeant comme un facteur contributif clé. Sur la base de cette observation, nous proposons une méthode de débiaisage de distribution pour atténuer l'ambiguïté de la vitesse, le modèle GO-1-Pro résultant obtenant des gains de performance substantiels de 15 %, équivalents à l'utilisation de 2,5 fois plus de données de pré-entraînement. Collectivement, ces résultats offrent de nouvelles perspectives et des conseils pratiques sur la manière de mettre à l'échelle efficacement les ensembles de données de manipulation robotique.
Les grands modèles de langage (LLMs) ont réalisé des progrès remarquables dans la génération de code, mais leur véritable compétence en programmation reste insuffisamment explorée. Nous introduisons le cadre du Triangle de Code, qui évalue systématiquement les LLMs selon trois dimensions fondamentales : l'analyse éditoriale, l'implémentation de code et la génération de cas de test. À travers des expériences approfondies sur des benchmarks de programmation compétitive, nous révélons que, bien que les LLMs puissent former un système auto-cohérent à travers ces dimensions, leurs solutions manquent souvent de la diversité et de la robustesse des programmeurs humains. Nous identifions un décalage significatif entre la cognition des modèles et l'expertise humaine, les erreurs des modèles ayant tendance à se regrouper en raison des biais des données d'entraînement et d'un transfert de raisonnement limité. Notre étude démontre que l'intégration d'éditoriaux, de solutions et de cas de test diversifiés générés par des humains, ainsi que l'utilisation de mélanges de modèles, peuvent considérablement améliorer à la fois la performance et la robustesse des LLMs. De plus, nous révélons à la fois la cohérence et l'incohérence dans la cognition des LLMs, ce qui pourrait faciliter l'auto-réflexion et l'auto-amélioration, offrant ainsi une direction potentielle pour le développement de modèles de codage plus puissants.
Les modèles séquentiels comme les Transformers et les RNNs allouent souvent une attention excessive à un contexte non pertinent, ce qui entraîne des représentations intermédiaires bruyantes. Cela dégrade les capacités des LLM en favorisant les hallucinations, en affaiblissant les capacités de traitement à long terme et de récupération, et en réduisant la robustesse. Des travaux récents ont montré qu'une conception différentielle peut atténuer ce problème dans les Transformers, améliorant ainsi leur efficacité dans diverses applications. Dans cet article, nous explorons si ces techniques, initialement développées pour les Transformers, peuvent être appliquées à Mamba, une architecture récente basée sur des couches d'espace d'état sélectives qui atteint des performances comparables aux Transformers avec une plus grande efficacité. Nous montrons qu'une adaptation naïve de la conception différentielle à Mamba est insuffisante et nécessite des modifications architecturales minutieuses. Pour résoudre ce problème, nous introduisons un nouveau mécanisme différentiel pour Mamba, validé empiriquement sur des benchmarks de modélisation du langage, démontrant des capacités de récupération améliorées et une performance supérieure à celle de Mamba standard. Enfin, nous menons des études d'ablation approfondies et des analyses empiriques pour justifier nos choix de conception et fournir des preuves que notre approche atténue efficacement le problème de surallocation dans les modèles basés sur Mamba. Notre code est disponible publiquement.
Les modèles de langage de grande taille (LLMs) ont récemment été appliqués aux tâches de reranking en recherche d'information, obtenant des performances remarquables. Cependant, leurs exigences élevées en termes de calcul entravent souvent leur déploiement pratique. Les études existantes évaluent l'efficacité des rerankers basés sur les LLMs à l'aide de métriques indirectes telles que la latence, le nombre de passes avant, les tokens d'entrée et les tokens de sortie. Cependant, ces métriques dépendent du matériel et des choix d'exécution (par exemple, parallèle ou non, taille du lot, etc.), et ne prennent souvent pas en compte la taille du modèle, rendant difficile l'interprétation et obscurcissant l'évaluation du compromis efficacité-performance. Pour résoudre ce problème, nous proposons E2R-FLOPs pour les rerankers basés sur les LLMs : des métriques de ranking par PetaFLOP (RPP) pour la pertinence par calcul et des requêtes par PetaFLOP (QPP) pour un débit indépendant du matériel. Accompagné de ces nouvelles métriques, un estimateur de FLOPs interprétable est construit pour estimer les FLOPs d'un reranker basé sur un LLM sans même avoir besoin de réaliser des expériences. Sur la base des métriques proposées, nous menons des expériences approfondies pour évaluer un large éventail de rerankers basés sur les LLMs avec différentes architectures, étudiant le compromis efficacité-performance et attirant l'attention de la communauté de recherche sur cette question.
Les modèles multimodaux de grande taille (LMM) de pointe rencontrent des difficultés lors du traitement d'images haute résolution, car ces entrées sont converties en un nombre considérable de tokens visuels, dont beaucoup sont sans rapport avec la tâche en aval. Dans cet article, nous proposons l'Optimisation de Politique basée sur l'Ancrage Multi-tours (MGPO), un cadre d'apprentissage par renforcement (RL) de bout en bout qui permet aux LMM de se concentrer itérativement sur les régions visuelles clés en recadrant automatiquement des sous-images, en se basant sur les coordonnées d'ancrage prédites par le modèle dans un cadre de conversation multi-tours. Par rapport au réglage fin supervisé (SFT), qui nécessite des annotations d'ancrage supplémentaires coûteuses, notre approche met en évidence que les LMM peuvent développer des capacités d'ancrage robustes pendant le processus d'entraînement RL, en exploitant uniquement une fonction de récompense binaire dérivée de la justesse de la réponse finale. De plus, nous observons que les LMM ont du mal à déclencher de manière autonome l'ancrage visuel pendant le processus de déploiement. Pour résoudre ce problème de démarrage à froid, nous concevons un modèle de conversation multi-tours et limitons le calcul de la perte de politique aux sorties du modèle générées sur plusieurs tours de dialogue, favorisant ainsi une optimisation stable. Des expériences approfondies démontrent que, lorsqu'il est entraîné sur des données standard de questions-réponses visuelles courtes sans annotations d'ancrage, MGPO suscite efficacement des capacités d'ancrage plus fortes par rapport à GRPO, conduisant à une amélioration de 5,4 % sur MME-Realworld en distribution et de 5,2 % sur le benchmark hors distribution (OOD) V* Bench. Notamment, l'entraînement postérieur de MGPO sur Qwen2.5-VL-7B avec 21 000 échantillons surpasse les modèles o1 d'OpenAI et GPT-4o sur le benchmark OOD V* Bench. Les codes sont disponibles à l'adresse https://github.com/EvolvingLMMs-Lab/MGPO.
Les méthodes computationnelles basées sur l'apprentissage profond ont obtenu des résultats prometteurs dans la prédiction des interactions protéine-protéine (PPI). Cependant, les benchmarks existants se concentrent principalement sur des évaluations par paires isolées, négligeant la capacité d'un modèle à reconstruire des réseaux de PPI biologiquement significatifs, ce qui est crucial pour la recherche en biologie. Pour combler cette lacune, nous introduisons PRING, le premier benchmark complet qui évalue la prédiction des interactions protéine-protéine d'un point de vue au niveau du graphe. PRING rassemble un ensemble de données de haute qualité de réseaux de PPI multi-espèces comprenant 21 484 protéines et 186 818 interactions, avec des stratégies bien conçues pour traiter à la fois la redondance et la fuite des données. Sur la base de cet ensemble de données de référence, nous établissons deux paradigmes d'évaluation complémentaires : (1) des tâches orientées topologie, qui évaluent la construction de réseaux de PPI intra et inter-espèces, et (2) des tâches orientées fonction, incluant la prédiction de complexes protéiques, l'analyse de modules GO, et la justification des protéines essentielles. Ces évaluations reflètent non seulement la capacité du modèle à comprendre la topologie du réseau, mais facilitent également l'annotation des fonctions protéiques, la détection de modules biologiques, et même l'analyse des mécanismes des maladies. Des expériences approfondies sur quatre catégories de modèles représentatives, comprenant des approches basées sur la similarité de séquence, des séquences naïves, des modèles de langage protéique, et des structures, démontrent que les modèles actuels de PPI présentent des limitations potentielles dans la récupération des propriétés structurelles et fonctionnelles des réseaux de PPI, mettant en évidence l'écart dans le soutien des applications biologiques réelles. Nous croyons que PRING fournit une plateforme fiable pour guider le développement de modèles de prédiction de PPI plus efficaces pour la communauté. L'ensemble de données et le code source de PRING sont disponibles à l'adresse https://github.com/SophieSarceau/PRING.
L'intelligence artificielle (IA) possède un potentiel significatif dans les applications de santé, mais son entraînement et son déploiement rencontrent des défis en raison de la diversité des données médicales, de la complexité des tâches et de la nécessité de préserver la confidentialité. Les modèles de base qui excellent dans les tâches médicales et nécessitent moins de données d'ajustement spécifiques à une tâche sont essentiels pour accélérer le développement des applications d'IA en santé. Nous présentons MedGemma, une collection de modèles de base vision-langage médicaux basés sur Gemma 3 4B et 27B. MedGemma démontre une compréhension et un raisonnement médicaux avancés sur les images et le texte, surpassant significativement les performances des modèles génératifs de taille similaire et approchant les performances des modèles spécifiques à une tâche, tout en conservant les capacités générales des modèles de base Gemma 3. Pour les tâches hors distribution, MedGemma obtient une amélioration de 2,6 à 10 % sur les questions-réponses multimodales médicales, de 15,5 à 18,1 % sur la classification des anomalies radiologiques thoraciques, et de 10,8 % sur les évaluations agentiques par rapport aux modèles de base. Le fine-tuning de MedGemma améliore encore les performances dans les sous-domaines, réduisant les erreurs dans la récupération d'informations des dossiers médicaux électroniques de 50 % et atteignant des performances comparables aux méthodes spécialisées de pointe existantes pour la classification du pneumothorax et la classification des patchs histopathologiques. Nous introduisons également MedSigLIP, un encodeur visuel adapté au domaine médical dérivé de SigLIP. MedSigLIP alimente les capacités de compréhension visuelle de MedGemma et, en tant qu'encodeur, atteint des performances comparables ou supérieures à celles des encodeurs d'images médicales spécialisés. Ensemble, la collection MedGemma fournit une base solide de capacités en imagerie et en texte médical, avec le potentiel d'accélérer significativement la recherche médicale et le développement d'applications en aval. La collection MedGemma, incluant des tutoriels et les poids des modèles, est disponible à l'adresse suivante : https://goo.gle/medgemma.
Les récents efforts en matière de "segmentation universelle" montrent des résultats prometteurs grâce à l'apprentissage à partir de données à grande échelle. Cependant, l'adaptation directe de ces modèles aux images médicales reste difficile en raison de la complexité des données médicales, des annotations bruyantes et des exigences d'apprentissage continu à travers diverses modalités et structures anatomiques. Dans ce travail, nous proposons SAMed-2, un nouveau modèle de base pour la segmentation d'images médicales, construit sur l'architecture SAM-2. Plus précisément, nous introduisons un adaptateur temporel dans l'encodeur d'images pour capturer les corrélations d'images et un mécanisme de mémoire piloté par la confiance pour stocker des caractéristiques à haute certitude en vue d'une récupération ultérieure. Cette stratégie basée sur la mémoire contrecarre le bruit omniprésent dans les ensembles de données médicales à grande échelle et atténue l'oubli catastrophique lors de la rencontre de nouvelles tâches ou modalités. Pour entraîner et évaluer SAMed-2, nous avons constitué MedBank-100k, un ensemble de données complet couvrant sept modalités d'imagerie et 21 tâches de segmentation médicale. Nos expériences sur des benchmarks internes et 10 ensembles de données externes démontrent une performance supérieure par rapport aux meilleures méthodes de référence dans des scénarios multi-tâches. Le code est disponible à l'adresse suivante : https://github.com/ZhilingYan/Medical-SAM-Bench.
Les récentes avancées dans les modèles de transformateurs à diffusion pour la génération de vidéos guidées par le mouvement, tels que Tora, ont montré des progrès significatifs. Dans cet article, nous présentons Tora2, une version améliorée de Tora, qui introduit plusieurs améliorations de conception pour étendre ses capacités en matière de personnalisation de l'apparence et du mouvement. Plus précisément, nous introduisons un extracteur de personnalisation découplé qui génère des embeddings de personnalisation complets pour plusieurs entités à ensemble ouvert, préservant mieux les détails visuels fins par rapport aux méthodes précédentes. Sur cette base, nous concevons un mécanisme d'auto-attention à porte pour intégrer la trajectoire, la description textuelle et les informations visuelles pour chaque entité. Cette innovation réduit considérablement les désalignements dans le conditionnement multimodal pendant l'entraînement. De plus, nous introduisons une fonction de perte contrastive qui optimise conjointement la dynamique de la trajectoire et la cohérence des entités grâce à un mappage explicite entre les embeddings de mouvement et de personnalisation. Tora2 est, à notre connaissance, la première méthode à réaliser une personnalisation simultanée de l'apparence et du mouvement pour plusieurs entités dans la génération de vidéos. Les résultats expérimentaux démontrent que Tora2 atteint des performances compétitives avec les méthodes de personnalisation de pointe tout en offrant des capacités avancées de contrôle du mouvement, ce qui marque une avancée critique dans la génération de vidéos multi-conditionnelles. Page du projet : https://github.com/alibaba/Tora.
Le traitement de contextes longs est devenu une capacité fondamentale pour les grands modèles de langage (LLMs). Pour évaluer les performances des modèles sur des contextes longs, de nombreux benchmarks d'évaluation ont été proposés. Cependant, les variations dans les paramètres d'évaluation entre ces benchmarks entraînent des résultats incohérents, rendant difficile la réalisation de comparaisons fiables. Par ailleurs, le coût computationnel élevé de l'évaluation des contextes longs constitue un obstacle majeur pour la communauté, limitant la possibilité de mener des évaluations complètes des modèles de contextes longs. Dans cet article, nous proposons LOOM-Scope, un cadre complet et efficace pour l'évaluation des contextes longs. LOOM-Scope standardise les paramètres d'évaluation à travers divers benchmarks, prend en charge le déploiement de méthodes d'accélération efficaces pour l'inférence de contextes longs, et introduit une suite de benchmarks holistique mais légère pour évaluer les modèles de manière exhaustive. Page d'accueil : https://loomscope.github.io
Nous présentons any4, une solution de quantification des poids sur 4 bits apprise pour les grands modèles de langage (LLMs), offrant des représentations numériques arbitraires sans nécessiter de prétraitement des poids ou des activations. any4 offre une précision supérieure par rapport à d'autres types de représentations numériques sur 4 bits : int4, fp4 et nf4, comme évalué sur une gamme de tailles de modèles, de générations et de familles (Llama 2, Llama 3, Mistral et Mixtral). Bien qu'any4 ne nécessite pas de prétraitement des poids ou des activations, il est également compétitif avec des techniques orthogonales qui nécessitent un tel prétraitement (par exemple, AWQ et GPTQ). Nous expérimentons également avec any3 et any2 et montrons leur compétitivité à des nombres de bits inférieurs. De plus, nous montrons que nous pouvons effectuer l'étalonnage en utilisant un seul échantillon diversifié plutôt que des centaines d'échantillons provenant d'un ensemble de données, comme c'est le cas dans la plupart des approches de quantification. Nous ouvrons également le code source de tinygemm, une bibliothèque de multiplication matricielle GPU optimisée pour la latence pour les LLMs, qui implémente any4 en utilisant une stratégie de table de recherche efficace sur GPU ainsi que d'autres méthodes de quantification courantes. Nous ouvrons notre code source à l'adresse https://github.com/facebookresearch/any4.
Les grands modèles de langage (LLM) ont démontré des capacités remarquables dans un large éventail de tâches, mais ils présentent également une tendance à mémoriser leurs données d'entraînement. Ce phénomène soulève des questions cruciales concernant le comportement des modèles, les risques pour la vie privée et la frontière entre apprentissage et mémorisation. Pour répondre à ces préoccupations, cet article synthétise des études récentes et explore le paysage de la mémorisation, les facteurs qui l'influencent, ainsi que les méthodes pour la détecter et l'atténuer. Nous examinons les principaux facteurs, notamment la duplication des données d'entraînement, la dynamique de l'entraînement et les procédures de fine-tuning qui influencent la mémorisation des données. De plus, nous étudions des méthodologies telles que l'extraction basée sur les préfixes, l'inférence d'appartenance et l'invocation adversative, en évaluant leur efficacité pour détecter et mesurer le contenu mémorisé. Au-delà de l'analyse technique, nous explorons également les implications plus larges de la mémorisation, y compris les aspects juridiques et éthiques. Enfin, nous discutons des stratégies d'atténuation, telles que le nettoyage des données, la confidentialité différentielle et le désapprentissage post-entraînement, tout en mettant en lumière les défis ouverts pour équilibrer la minimisation de la mémorisation nuisible avec l'utilité. Cet article offre un aperçu complet de l'état actuel de la recherche sur la mémorisation des LLM, couvrant les dimensions techniques, de confidentialité et de performance, et identifie des directions critiques pour les travaux futurs.
La complétion sémantique de scènes (SSC) vise à déduire à la fois la géométrie 3D et la sémantique d'une scène à partir d'images uniques. Contrairement aux travaux précédents sur la SSC qui reposent fortement sur des annotations au sol coûteuses, nous abordons la SSC dans un cadre non supervisé. Notre nouvelle méthode, SceneDINO, adapte des techniques issues de l'apprentissage auto-supervisé de représentations et de la compréhension non supervisée de scènes 2D à la SSC. Notre entraînement utilise exclusivement l'auto-supervision par cohérence multi-vues, sans aucune forme de vérité terrain sémantique ou géométrique. Étant donné une seule image d'entrée, SceneDINO infère la géométrie 3D et des caractéristiques DINO 3D expressives de manière directe. Grâce à une nouvelle approche de distillation de caractéristiques 3D, nous obtenons une sémantique 3D non supervisée. Dans la compréhension non supervisée de scènes en 3D et en 2D, SceneDINO atteint une précision de segmentation de pointe. Une sonde linéaire appliquée à nos caractéristiques 3D correspond à la précision de segmentation d'une approche supervisée actuelle de la SSC. De plus, nous démontrons la généralisation de domaine et la cohérence multi-vues de SceneDINO, posant ainsi les premières bases d'une compréhension solide des scènes 3D à partir d'une seule image.
La compréhension compositionnelle est cruciale pour l'intelligence humaine, mais il reste incertain si les modèles de vision contemporains en font preuve. Le paradigme dominant en apprentissage automatique repose sur le postulat que l'augmentation de la taille des données et des modèles améliorera les performances hors distribution, y compris la généralisation compositionnelle. Nous testons ce postulat à travers des expériences contrôlées qui varient systématiquement l'échelle des données, la diversité des concepts et la couverture des combinaisons. Nous constatons que la généralisation compositionnelle est pilotée par la diversité des données, et non simplement par leur volume. Une couverture combinatoire accrue force les modèles à découvrir une structure de représentation factorisée linéairement, où les concepts se décomposent en composantes additives. Nous prouvons que cette structure est essentielle à l'efficacité, permettant une généralisation parfaite à partir de quelques combinaisons observées. En évaluant des modèles pré-entraînés (DINO, CLIP), nous observons des performances supérieures au hasard mais imparfaites, suggérant une présence partielle de cette structure. Notre travail plaide pour un accent plus fort sur la construction de jeux de données diversifiés pour la généralisation compositionnelle, et pour la prise en compte de l'importance de la structure de représentation qui permet un apprentissage compositionnel efficace. Le code est disponible à l'adresse suivante : https://github.com/oshapio/visual-compositional-generalization.
Les avancées en génération d'images à partir de texte ont été principalement centrées sur l'anglais, créant des barrières pour les locuteurs non anglophones et perpétuant les inégalités numériques. Bien que les systèmes existants reposent sur des pipelines de traduction, ceux-ci introduisent une dérive sémantique, une surcharge computationnelle et un décalage culturel. Nous présentons NeoBabel, un nouveau cadre de génération d'images multilingue qui établit une nouvelle frontière de Pareto en termes de performance, d'efficacité et d'inclusivité, prenant en charge six langues : l'anglais, le chinois, le néerlandais, le français, l'hindi et le persan. Le modèle est entraîné en combinant un prétraitement multilingue à grande échelle et un réglage d'instructions à haute résolution. Pour évaluer ses capacités, nous étendons deux benchmarks exclusivement en anglais à leurs équivalents multilingues : m-GenEval et m-DPG. NeoBabel atteint des performances multilingues de pointe tout en conservant une forte capacité en anglais, obtenant un score de 0,75 sur m-GenEval et de 0,68 sur m-DPG. Il se montre notamment à égalité avec les modèles leaders sur les tâches en anglais tout en les surpassant de +0,11 et +0,09 sur les benchmarks multilingues, bien que ces modèles soient construits sur des LLM de base multilingues. Cela démontre l'efficacité de notre entraînement d'alignement ciblé pour préserver et étendre la généralisation translinguistique. Nous introduisons en outre deux nouvelles métriques pour évaluer rigoureusement l'alignement multilingue et la robustesse aux invites en code-mixage. NeoBabel correspond ou dépasse les modèles exclusivement en anglais tout en étant 2 à 4 fois plus petit. Nous publions une boîte à outils ouverte, incluant tout le code, les points de contrôle du modèle, un ensemble de données soigneusement sélectionné de 124 millions de paires texte-image multilingues, et des protocoles d'évaluation multilingues standardisés, pour faire progresser la recherche en IA inclusive. Notre travail démontre que la capacité multilingue n'est pas un compromis mais un catalyseur pour une robustesse, une efficacité et une fidélité culturelle améliorées dans l'IA générative.
Nous concevons et mettons en œuvre AXLearn, un système de deep learning de production qui facilite l'entraînement scalable et performant de modèles de deep learning de grande taille. Par rapport à d'autres systèmes de deep learning de pointe, AXLearn se distingue par son accent unique sur la modularité et son support pour une infrastructure matérielle hétérogène. Les interfaces internes d'AXLearn entre les composants logiciels suivent une encapsulation stricte, permettant à différents composants d'être assemblés pour faciliter le développement rapide de modèles et l'expérimentation sur des infrastructures de calcul hétérogènes. Nous introduisons une méthode novatrice de quantification de la modularité via la complexité en lignes de code (LoC), qui démontre comment notre système maintient une complexité constante lors de la mise à l'échelle des composants, contrairement à une complexité linéaire ou quadratique dans d'autres systèmes. Cela permet d'intégrer des fonctionnalités telles que les Rotary Position Embeddings (RoPE) dans AXLearn à travers des centaines de modules avec seulement 10 lignes de code, contre des centaines nécessaires dans d'autres systèmes. Parallèlement, AXLearn maintient des performances équivalentes par rapport aux systèmes d'entraînement de pointe. Enfin, nous partageons notre expérience dans le développement et l'exploitation d'AXLearn.
Les avancées récentes dans les modèles de diffusion sur graphes (GDMs) ont permis la synthèse de structures de réseaux réalistes, mais garantir l'équité dans les données générées reste un défi critique. Les solutions existantes tentent de réduire les biais en ré-entraînant les GDMs avec des contraintes d'équité ad hoc. À l'inverse, dans ce travail, nous proposons FAROS, un nouveau cadre de génération de graphes équitables (FAir graph geneRatiOn framework) exploitant des mécanismes de commutation d'attributs et fonctionnant directement dans le processus de génération du GDM pré-entraîné. Techniquement, notre approche consiste à modifier les attributs sensibles des nœuds pendant la génération. Pour ce faire, FAROS calcule la fraction optimale de nœuds à commuter et sélectionne l'étape de diffusion pour effectuer la commutation en définissant des contraintes multicritères sur mesure afin de préserver le profil de topologie des nœuds de la distribution originale (un proxy pour la précision) tout en garantissant l'indépendance des arêtes par rapport aux attributs sensibles pour le graphe généré (un proxy pour l'équité). Nos expériences sur des ensembles de données de référence pour la prédiction de liens démontrent que l'approche proposée réduit efficacement les écarts d'équité tout en maintenant des performances de précision comparables (voire supérieures) à celles d'autres méthodes similaires. Il est à noter que FAROS parvient également à atteindre un meilleur compromis précision-équité que d'autres concurrents dans certains des scénarios testés selon le concept d'optimalité de Pareto, démontrant ainsi l'efficacité des contraintes multicritères imposées.