Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'Asie du Sud-Est (ASE) est une région d'une extraordinaire diversité linguistique et culturelle, mais elle reste significativement sous-représentée dans la recherche en vision-langage (VL). Cela se traduit souvent par des modèles d'intelligence artificielle (IA) qui ne parviennent pas à saisir les nuances culturelles de l'ASE. Pour combler cette lacune, nous présentons SEA-VL, une initiative open-source dédiée au développement de données de haute qualité et culturellement pertinentes pour les langues de l'ASE. En impliquant des contributeurs issus des pays de l'ASE, SEA-VL vise à garantir une meilleure pertinence culturelle et une plus grande diversité, favorisant ainsi une inclusion accrue des langues sous-représentées dans la recherche en VL. Au-delà du crowdsourcing, notre initiative va plus loin en explorant la collecte automatique d'images culturellement pertinentes via le crawling et la génération d'images. Premièrement, nous constatons que le crawling d'images atteint environ ~85 % de pertinence culturelle tout en étant plus économique et plus rapide que le crowdsourcing. Deuxièmement, malgré les progrès substantiels des modèles génératifs visuels, les images synthétiques restent peu fiables pour refléter avec précision les cultures de l'ASE. Les images générées échouent souvent à représenter les traditions nuancées et les contextes culturels de la région. Collectivement, nous rassemblons 1,28 million d'images culturellement pertinentes pour l'ASE, soit plus de 50 fois la taille des autres ensembles de données existants. À travers SEA-VL, nous aspirons à combler le fossé de représentation en ASE, en favorisant le développement de systèmes d'IA plus inclusifs qui représentent authentiquement les diverses cultures de l'ASE.
L'amélioration du raisonnement dans les modèles multimodaux de grande taille (LMM) rencontre des défis uniques liés à l'interaction complexe entre la perception visuelle et le raisonnement logique, en particulier dans les architectures compactes de 3 milliards de paramètres où les contraintes architecturales limitent la capacité de raisonnement et l'alignement des modalités. Alors que l'apprentissage par renforcement basé sur des règles (RL) excelle dans les domaines textuels purs, son extension multimodale se heurte à deux obstacles critiques : (1) les limitations de données dues à des réponses ambiguës et à la rareté d'exemples de raisonnement complexe, et (2) la dégradation du raisonnement fondamental induite par le prétraitement multimodal. Pour relever ces défis, nous proposons \method, un cadre en deux étapes adaptant le RL basé sur des règles pour le raisonnement multimodal grâce à un Renforcement du Raisonnement Fondamental (FRE) suivi d'un Entraînement à la Généralisation Multimodale (MGT). L'étape FRE renforce d'abord les capacités de raisonnement en utilisant des données textuelles avec le RL basé sur des règles, puis l'étape MGT généralise ces capacités de raisonnement aux domaines multimodaux. Les expériences sur Qwen2.5-VL-Instruct-3B montrent que \method obtient des améliorations moyennes de 4,83 % et 4,5 % par rapport aux modèles de référence dans les benchmarks multimodaux et textuels purs, respectivement, avec un gain de 3,63 % dans les tâches complexes de Football Game. Ces résultats valident que le renforcement du raisonnement basé sur le texte permet une généralisation multimodale efficace, offrant un paradigme économe en données qui contourne le besoin coûteux de données d'entraînement multimodales de haute qualité.
Nous abordons la tâche de génération musicale de longue durée, en particulier le problème complexe de la transformation de paroles en chanson, en introduisant YuE, une famille de modèles de fondation ouverts basés sur l'architecture LLaMA2. Plus précisément, YuE s'adapte à des milliers de milliards de tokens et génère jusqu'à cinq minutes de musique tout en maintenant un alignement lyrique, une structure musicale cohérente et des mélodies vocales engageantes avec un accompagnement approprié. Cela est réalisé grâce à (1) une prédiction de token suivant découplée par piste pour surmonter les signaux de mélange denses, (2) un conditionnement progressif structurel pour un alignement lyrique à long contexte, et (3) une recette de pré-entraînement multitâche et multiphase pour converger et généraliser. De plus, nous repensons la technique d'apprentissage en contexte pour la génération musicale, permettant un transfert de style polyvalent (par exemple, convertir une pop urbaine japonaise en un rap anglais tout en conservant l'accompagnement original) et une génération bidirectionnelle. Grâce à une évaluation approfondie, nous démontrons que YuE égale ou dépasse même certains systèmes propriétaires en termes de musicalité et d'agilité vocale. Par ailleurs, le fine-tuning de YuE permet des contrôles supplémentaires et un meilleur support pour les langues minoritaires. En outre, au-delà de la génération, nous montrons que les représentations apprises par YuE performent bien sur des tâches de compréhension musicale, où les résultats de YuE égalent ou surpassent les méthodes de pointe sur le benchmark MARBLE. Mots-clés : paroles2chanson, génération de chansons, longue durée, modèle de fondation, génération musicale.
L'entraînement des modèles à utiliser efficacement les ressources de calcul au moment du test est crucial pour améliorer les performances de raisonnement des LLM (Large Language Models). Les méthodes actuelles y parviennent principalement par le biais d'un ajustement fin sur des traces de recherche ou en exécutant un apprentissage par renforcement (RL) avec une récompense binaire (0/1), mais ces approches exploitent-elles efficacement les ressources de calcul au moment du test ? Continueraient-elles à s'adapter à mesure que le budget augmente ? Dans cet article, nous tentons de répondre à ces questions. Nous formalisons le problème de l'optimisation des ressources de calcul au moment du test comme un problème de méta-apprentissage par renforcement (meta-RL), offrant ainsi une perspective théorique sur l'allocation de ces ressources. Cette perspective nous permet de considérer le flux de sortie long du LLM comme une série d'épisodes exécutés au moment du test et nous conduit à utiliser une notion de regret cumulé sur les tokens de sortie comme mesure de l'efficacité des ressources de calcul. De la même manière que les algorithmes de RL parviennent à équilibrer exploration et exploitation pendant l'entraînement, minimiser le regret cumulé permettrait également d'atteindre le meilleur équilibre entre exploration et exploitation dans le flux de tokens. Bien que nous montrions que les modèles de pointe ne minimisent pas le regret, il est possible d'y parvenir en maximisant une récompense dense supplémentaire, combinée à la récompense binaire (0/1) du RL. Cette récompense supplémentaire correspond aux « progrès » réalisés par chaque bloc suivant dans le flux de sortie, quantifiés par le changement dans la probabilité de succès final. En nous appuyant sur ces insights, nous développons le Meta Reinforcement Fine-Tuning (MRT), une nouvelle classe de méthodes d'ajustement fin pour optimiser les ressources de calcul au moment du test. MRT permet d'obtenir un gain relatif de 2 à 3 fois en performance et environ 1,5 fois en efficacité token pour le raisonnement mathématique par rapport au RL basé sur la récompense binaire.
Dans ce rapport, nous présentons Gemini Embedding, un modèle d'embedding de pointe qui exploite la puissance de Gemini, le modèle de langage le plus performant de Google. Tirant parti des capacités intrinsèques de Gemini en matière de compréhension multilingue et de code, Gemini Embedding produit des embeddings hautement généralisables pour des textes couvrant de nombreuses langues et modalités textuelles. Les représentations générées par Gemini Embedding peuvent être précalculées et appliquées à une variété de tâches en aval, notamment la classification, la similarité, le clustering, le classement et la recherche. Évalué sur le Massive Multilingual Text Embedding Benchmark (MMTEB), qui inclut plus d'une centaine de tâches réparties sur 250+ langues, Gemini Embedding surpasse largement les modèles de pointe précédents, démontrant des améliorations considérables en termes de qualité des embeddings. Atteignant des performances de pointe sur les benchmarks multilingues, anglais et de code du MMTEB, notre modèle unifié montre de solides capacités sur un large éventail de tâches et dépasse les modèles spécialisés spécifiques à un domaine.
L'avancée rapide des modèles de diffusion a catalysé des progrès remarquables dans le domaine de la génération d'images. Cependant, les modèles prédominants tels que Flux, SD3.5 et Midjourney continuent de rencontrer des problèmes tels que les biais du modèle, des capacités limitées de rendu de texte et une compréhension insuffisante des nuances culturelles chinoises. Pour pallier ces limitations, nous présentons Seedream 2.0, un modèle de base de génération d'images bilingue natif chinois-anglais qui excelle dans diverses dimensions, gérant habilement les invites textuelles en chinois et en anglais, et supportant la génération d'images et le rendu de texte bilingues. Nous avons développé un système de données puissant qui facilite l'intégration des connaissances, ainsi qu'un système de légendes qui équilibre la précision et la richesse des descriptions d'images. En particulier, Seedream est intégré à un grand modèle de langage bilingue auto-développé en tant qu'encodeur de texte, lui permettant d'apprendre des connaissances natives directement à partir de données massives. Cela lui permet de générer des images haute fidélité avec des nuances culturelles précises et des expressions esthétiques décrites en chinois ou en anglais. Par ailleurs, Glyph-Aligned ByT5 est appliqué pour un rendu de texte flexible au niveau des caractères, tandis qu'un Scaled ROPE généralise bien aux résolutions non entraînées. Des optimisations post-entraînement multi-phases, incluant des itérations de SFT et RLHF, améliorent encore les capacités globales. À travers des expérimentations approfondies, nous démontrons que Seedream 2.0 atteint des performances de pointe dans de multiples aspects, incluant le suivi des invites, l'esthétique, le rendu de texte et la correction structurelle. De plus, Seedream 2.0 a été optimisé à travers plusieurs itérations de RLHF pour aligner étroitement ses sorties avec les préférences humaines, comme en témoigne son score ELO exceptionnel. En outre, il peut être facilement adapté à un modèle d'édition d'images basé sur des instructions, tel que SeedEdit, avec une forte capacité d'édition qui équilibre le suivi des instructions et la cohérence de l'image.
Nous présentons MagicInfinite, un nouveau framework de Transformer de diffusion (DiT) qui surmonte les limitations traditionnelles de l'animation de portraits, offrant des résultats haute fidélité pour divers types de personnages - humains réalistes, figures en pied et personnages d'anime stylisés. Il prend en charge diverses poses faciales, y compris les vues de dos, et anime un ou plusieurs personnages avec des masques d'entrée pour une désignation précise du locuteur dans les scènes multi-personnages. Notre approche relève trois défis majeurs grâce à trois innovations : (1) des mécanismes d'attention 3D complets avec une stratégie de débruiteur à fenêtre glissante, permettant une génération vidéo infinie avec une cohérence temporelle et une qualité visuelle pour divers styles de personnages ; (2) un schéma d'apprentissage curriculaire en deux étapes, intégrant l'audio pour la synchronisation labiale, le texte pour les dynamiques expressives et les images de référence pour la préservation de l'identité, permettant un contrôle multi-modal flexible sur de longues séquences ; et (3) des masques spécifiques à la région avec des fonctions de perte adaptatives pour équilibrer le contrôle textuel global et le guidage audio local, soutenant les animations spécifiques au locuteur. L'efficacité est améliorée grâce à nos techniques innovantes de distillation unifiée par étape et cfg, obtenant une accélération de l'inférence de 20x par rapport au modèle de base : génération d'une vidéo de 10 secondes en 540x540p en 10 secondes ou en 720x720p en 30 secondes sur 8 GPU H100, sans perte de qualité. Les évaluations sur notre nouveau benchmark démontrent la supériorité de MagicInfinite en termes de synchronisation audio-labiale, de préservation de l'identité et de naturalité du mouvement dans divers scénarios. Il est disponible publiquement à l'adresse https://www.hedra.com/, avec des exemples sur https://magicinfinite.github.io/.
Comment deux individus diffèrent-ils lorsqu'ils effectuent la même action ? Dans ce travail, nous introduisons VidDiff (Video Action Differencing), une nouvelle tâche consistant à identifier les différences subtiles entre des vidéos de la même action, qui trouve de nombreuses applications, telles que le coaching et l'apprentissage de compétences. Pour permettre le développement sur cette nouvelle tâche, nous créons d'abord VidDiffBench, un ensemble de données de référence contenant 549 paires de vidéos, avec des annotations humaines de 4 469 différences d'action fines et 2 075 timestamps de localisation indiquant où ces différences se produisent. Nos expériences montrent que VidDiffBench représente un défi significatif pour les modèles multimodaux de pointe (LMMs), tels que GPT-4o et Qwen2-VL. En analysant les échecs des LMMs sur VidDiffBench, nous mettons en évidence deux défis clés pour cette tâche : la localisation des sous-actions pertinentes sur deux vidéos et la comparaison fine des images. Pour les surmonter, nous proposons la méthode VidDiff, un workflow agentique qui décompose la tâche en trois étapes : proposition de différences d'action, localisation des images clés et différenciation des images, chaque étape utilisant des modèles de base spécialisés. Pour encourager les recherches futures sur cette nouvelle tâche, nous publions le benchmark à l'adresse https://huggingface.co/datasets/jmhb/VidDiffBench et le code à l'adresse http://jmhb0.github.io/viddiff.
Les modèles multimodaux unifiés (UMM) sont apparus comme un paradigme puissant dans la recherche fondamentale en vision par ordinateur, démontrant un potentiel significatif à la fois dans la compréhension et la génération d'images. Cependant, les recherches existantes dans le domaine du visage se concentrent principalement sur la compréhension grossière des attributs faciaux, avec une capacité limitée à gérer des attributs faciaux fins et sans aborder les capacités de génération. Pour surmonter ces limitations, nous proposons UniF^2ace, le premier UMM spécifiquement conçu pour la compréhension et la génération fine du visage. En général, nous entraînons UniF^2ace sur un ensemble de données spécialisé et auto-construit, en utilisant deux techniques de diffusion mutuellement bénéfiques et une architecture à deux niveaux de mixture d'experts. Plus précisément, nous construisons d'abord un ensemble de données faciales à grande échelle, UniF^2ace-130K, qui contient 130 000 paires image-texte avec un million de paires question-réponse couvrant un large éventail d'attributs faciaux. Ensuite, nous établissons une connexion théorique entre le score de diffusion discrète et les modèles génératifs masqués, optimisant simultanément les bornes inférieures de l'évidence, ce qui améliore considérablement la capacité du modèle à synthétiser les détails faciaux. Enfin, nous introduisons une mixture d'experts à la fois au niveau des tokens et des séquences, permettant un apprentissage efficace des représentations fines pour les tâches de compréhension et de génération. Des expériences approfondies sur UniF^2ace-130K démontrent qu'UniF^2ace surpasse les UMM et modèles génératifs existants, obtenant des performances supérieures dans les tâches de compréhension et de génération.
Bien que les MLLM (Modèles Multimodaux de Langage) aient démontré des capacités adéquates de compréhension d'images, ils peinent encore à atteindre une compréhension au niveau des pixels, ce qui limite leurs applications pratiques. Les tâches d'évaluation actuelles, telles que la VQA (Question-Réponse Visuelle) et l'ancrage visuel, restent trop grossières pour évaluer avec précision la compréhension fine des pixels. Bien que la segmentation soit fondamentale pour une compréhension au niveau des pixels, les méthodes existantes obligent souvent les MLLM à générer des tokens implicites, décodés via des décodeurs de pixels externes. Cette approche perturbe l'espace de sortie textuelle des MLLM, compromettant potentiellement leurs capacités linguistiques et réduisant leur flexibilité et extensibilité, tout en ne reflétant pas la compréhension intrinsèque des pixels par le modèle. Ainsi, nous introduisons la tâche d'annotation de masque de type humain (HLMAT), un nouveau paradigme où les MLLM imitent les annotateurs humains en utilisant des outils de segmentation interactive. En modélisant la segmentation comme un processus de décision markovien multi-étapes, HLMAT permet aux MLLM de générer itérativement des points de clic basés sur du texte, obtenant ainsi des masques de haute qualité sans modifications architecturales ni tokens implicites. Grâce à cette configuration, nous développons SegAgent, un modèle affiné sur des trajectoires d'annotation de type humain, qui atteint des performances comparables aux méthodes de pointe (SOTA) et supporte des tâches supplémentaires comme le raffinement de masques et le filtrage d'annotations. HLMAT fournit un protocole pour évaluer la compréhension fine des pixels dans les MLLM et introduit une tâche de prise de décision multi-étapes centrée sur la vision, facilitant l'exploration des capacités de raisonnement visuel des MLLM. Nos adaptations de la méthode d'amélioration de politique StaR et de la recherche arborescente guidée par PRM renforcent davantage la robustesse du modèle dans les tâches de segmentation complexes, posant ainsi les bases pour des avancées futures dans la perception visuelle fine et la prise de décision multi-étapes pour les MLLM.
Alors que les récents progrès des modèles de diffusion texte-vidéo permettent de générer des vidéos courtes de haute qualité à partir d'une seule instruction, la génération de vidéos longues réalistes en une seule passe reste un défi en raison de données limitées et de coûts de calcul élevés. Pour y remédier, plusieurs travaux proposent des approches sans ajustement, c'est-à-dire l'extension des modèles existants pour la génération de vidéos longues, en utilisant notamment plusieurs instructions pour permettre des changements de contenu dynamiques et contrôlés. Cependant, ces méthodes se concentrent principalement sur l'assurance de transitions fluides entre les images adjacentes, ce qui entraîne souvent une dérive du contenu et une perte progressive de cohérence sémantique sur des séquences plus longues. Pour résoudre ce problème, nous proposons Synchronized Coupled Sampling (SynCoS), un nouveau cadre d'inférence qui synchronise les chemins de débruitage sur l'ensemble de la vidéo, garantissant une cohérence à long terme à la fois entre les images adjacentes et distantes. Notre approche combine deux stratégies d'échantillonnage complémentaires : l'échantillonnage inversé et basé sur l'optimisation, qui assurent respectivement des transitions locales fluides et une cohérence globale. Cependant, alterner directement entre ces échantillonnages désaligne les trajectoires de débruitage, perturbant le guidage des instructions et introduisant des changements de contenu non intentionnels car ils opèrent indépendamment. Pour résoudre ce problème, SynCoS les synchronise via un pas de temps ancré et un bruit de base fixe, garantissant un échantillonnage entièrement couplé avec des chemins de débruitage alignés. Des expériences approfondies montrent que SynCoS améliore significativement la génération de vidéos longues multi-événements, obtenant des transitions plus fluides et une cohérence à long terme supérieure, surpassant les approches précédentes à la fois quantitativement et qualitativement.
Le calcul au moment du test émerge comme un nouveau paradigme pour améliorer les capacités de raisonnement complexe en plusieurs étapes des modèles de langage, comme en témoignent les succès d'OpenAI avec o1 et o3, ainsi que de DeepSeek avec R1. Par rapport au raisonnement explicite dans le calcul au moment du test, le raisonnement implicite est plus efficace en termes d'inférence, nécessitant moins de tokens générés. Cependant, pourquoi la capacité de raisonnement avancée n'émerge-t-elle pas dans le style de raisonnement implicite ? Dans ce travail, nous entraînons GPT-2 à partir de zéro sur un ensemble de données de raisonnement mathématique en plusieurs étapes soigneusement sélectionné et menons des expériences analytiques pour étudier comment les modèles de langage effectuent un raisonnement implicite dans des tâches en plusieurs étapes. Nos résultats révèlent : 1) Les modèles de langage peuvent effectuer un raisonnement étape par étape et atteindre une grande précision dans les tests intra-domaines et extra-domaines via un raisonnement implicite. Cependant, cette capacité n'émerge que lorsqu'ils sont entraînés sur des données à motif fixe. 2) À l'inverse, les capacités de raisonnement implicite émergeant d'un entraînement sur des données à motif non fixe ont tendance à sur-adapter un motif spécifique et échouent à généraliser davantage. Notamment, cette limitation est également observée dans les modèles de langage de pointe. Ces résultats suggèrent que les modèles de langage acquièrent un raisonnement implicite par apprentissage de raccourcis, permettant des performances solides sur des tâches avec des motifs similaires tout en manquant de généralisation.
Les récents progrès dans la génération d'images à partir de texte reposent principalement sur des jeux de données étendus et des architectures riches en paramètres. Ces exigences limitent considérablement l'accessibilité pour les chercheurs et praticiens disposant de ressources computationnelles limitées. Dans cet article, nous présentons \model, un paradigme d'entraînement efficace pour les modèles de génération d'images qui utilise la distillation de connaissances (KD) et l'optimisation directe des préférences (DPO). S'inspirant du succès des techniques de KD de données largement adoptées dans les modèles de langage multi-modaux de grande taille (MLLMs), LightGen distille les connaissances des modèles de pointe (SOTA) de génération d'images à partir de texte dans une architecture compacte de type Autoregressive Masqué (MAR) avec seulement 0,7 milliard de paramètres. En utilisant un jeu de données synthétique compact de seulement 2 millions d'images de haute qualité générées à partir de descriptions variées, nous démontrons que la diversité des données influence significativement plus la performance du modèle que le volume de données. Cette stratégie réduit considérablement les exigences computationnelles et diminue le temps de pré-entraînement de potentiellement des milliers de jours-GPU à seulement 88 jours-GPU. De plus, pour pallier les lacunes inhérentes aux données synthétiques, notamment les détails haute fréquence de mauvaise qualité et les inexactitudes spatiales, nous intégrons la technique DPO qui affine la fidélité des images et la précision positionnelle. Des expériences approfondies confirment que LightGen atteint une qualité de génération d'images comparable aux modèles SOTA tout en réduisant significativement les ressources computationnelles et en élargissant l'accessibilité pour les environnements à ressources limitées. Le code est disponible à l'adresse suivante : https://github.com/XianfengWu01/LightGen.
Les récents progrès dans les modèles unifiés de compréhension multimodale et de génération visuelle (ou génération multimodale) ont été entravés par leur complexité computationnelle quadratique et leur dépendance à des données d'entraînement à grande échelle. Nous présentons OmniMamba, le premier modèle de génération multimodale basé sur une architecture linéaire, capable de générer à la fois du texte et des images grâce à un paradigme unifié de prédiction de token suivant. Le modèle tire pleinement parti de la haute efficacité computationnelle et mémoire de Mamba-2, étendant ses capacités de génération de texte à la génération multimodale. Pour remédier à l'inefficacité des données des modèles unifiés existants, nous proposons deux innovations clés : (1) des vocabulaires découplés pour guider la génération spécifique à chaque modalité, et (2) un LoRA spécifique à la tâche pour une adaptation efficace en termes de paramètres. De plus, nous introduisons une stratégie d'entraînement en deux étapes découplées pour atténuer le déséquilibre des données entre les deux tâches. Doté de ces techniques, OmniMamba atteint des performances compétitives avec JanusFlow tout en surpassant Show-o sur les benchmarks, malgré un entraînement sur seulement 2 millions de paires image-texte, soit 1 000 fois moins que Show-o. Notamment, OmniMamba se distingue par une efficacité d'inférence exceptionnelle, atteignant jusqu'à 119,2 fois d'accélération et une réduction de 63 % de la mémoire GPU pour la génération de séquences longues par rapport aux modèles basés sur Transformer. Le code et les modèles sont disponibles à l'adresse https://github.com/hustvl/OmniMamba.
Les systèmes de recherche guidés par instructions ont été largement adoptés aux côtés des LLM dans des applications réelles, mais peu de travaux ont exploré les risques de sécurité liés à leurs capacités de recherche croissantes. Nous étudions empiriquement la capacité de ces systèmes à répondre à des requêtes malveillantes, qu'ils soient utilisés directement ou dans un cadre de génération augmentée par recherche. Concrètement, nous examinons six systèmes de recherche de premier plan, dont NV-Embed et LLM2Vec, et constatons que, face à des demandes malveillantes, la plupart d'entre eux peuvent (pour >50 % des requêtes) sélectionner des passages pertinents mais nuisibles. Par exemple, LLM2Vec sélectionne correctement des passages pour 61,35 % de nos requêtes malveillantes. Nous mettons également en lumière un risque émergent avec les systèmes de recherche guidés par instructions, où des informations hautement pertinentes mais nuisibles peuvent être révélées en exploitant leurs capacités à suivre des instructions. Enfin, nous montrons que même des LLM alignés sur la sécurité, comme Llama3, peuvent satisfaire des demandes malveillantes lorsqu'ils reçoivent des passages nuisibles récupérés en contexte. En résumé, nos résultats soulignent les risques de mauvaise utilisation associés à l'amélioration des capacités des systèmes de recherche.
La localisation de code – l'identification précise des endroits dans une base de code où des modifications doivent être apportées – est une tâche fondamentale mais complexe dans la maintenance logicielle. Les approches existantes peinent à naviguer efficacement dans des bases de code complexes pour identifier les sections de code pertinentes. Le défi réside dans la connexion entre les descriptions de problèmes en langage naturel et les éléments de code appropriés, nécessitant souvent un raisonnement à travers des structures hiérarchiques et de multiples dépendances. Nous présentons LocAgent, un cadre qui aborde la localisation de code via une représentation basée sur des graphes. En analysant les bases de code en graphes hétérogènes dirigés, LocAgent crée une représentation légère qui capture les structures de code (fichiers, classes, fonctions) et leurs dépendances (imports, invocations, héritage), permettant aux agents LLM de rechercher et de localiser efficacement les entités pertinentes grâce à un raisonnement multi-saut puissant. Les résultats expérimentaux sur des benchmarks du monde réel démontrent que notre approche améliore significativement la précision dans la localisation de code. Notamment, notre méthode avec le modèle fine-tuné Qwen-2.5-Coder-Instruct-32B atteint des résultats comparables aux modèles propriétaires de pointe à un coût considérablement réduit (environ 86 % de réduction), atteignant jusqu'à 92,7 % de précision pour la localisation au niveau des fichiers tout en améliorant les taux de réussite de résolution des problèmes GitHub de 12 % pour plusieurs tentatives (Pass@10). Notre code est disponible à l'adresse https://github.com/gersteinlab/LocAgent.
L'interaction humaine avec le monde extérieur implique fondamentalement l'échange de mémoire personnelle, que ce soit avec d'autres individus, des sites web, des applications ou, à l'avenir, des agents d'IA. Une part importante de cette interaction est redondante, obligeant les utilisateurs à fournir à plusieurs reprises les mêmes informations dans différents contextes. Les solutions existantes, telles que les identifiants stockés dans les navigateurs, les mécanismes de remplissage automatique et les systèmes d'authentification unifiée, ont cherché à atténuer cette redondance en servant d'intermédiaires pour stocker et récupérer les données utilisateur couramment utilisées. L'avènement des grands modèles de langage (LLMs) offre une opportunité de redéfinir la gestion de la mémoire à travers un paradigme natif de l'IA : SECOND ME. SECOND ME agit comme un système intelligent et persistant de décharge de mémoire qui conserve, organise et utilise dynamiquement les connaissances spécifiques à l'utilisateur. En servant d'intermédiaire dans les interactions utilisateur, il peut générer de manière autonome des réponses adaptées au contexte, préremplir les informations requises et faciliter une communication fluide avec les systèmes externes, réduisant ainsi considérablement la charge cognitive et les frictions d'interaction. Contrairement aux solutions traditionnelles de stockage de mémoire, SECOND ME va au-delà de la rétention statique des données en exploitant la paramétrisation de la mémoire basée sur les LLMs. Cela permet une organisation structurée, un raisonnement contextuel et une récupération adaptative des connaissances, facilitant une approche plus systématique et intelligente de la gestion de la mémoire. À mesure que les agents personnels pilotés par l'IA comme SECOND ME s'intègrent de plus en plus dans les écosystèmes numériques, SECOND ME représente une étape cruciale vers l'augmentation de l'interaction humain-monde avec des systèmes de mémoire persistants, conscients du contexte et auto-optimisants. Nous avons open-sourcé le système de déploiement entièrement localisable sur GitHub : https://github.com/Mindverse/Second-Me.
Nous présentons un nouveau cadre de tokenisation visuelle qui intègre une structure de type PCA prouvable dans l'espace latent des tokens. Alors que les tokeniseurs visuels existants optimisent principalement pour la fidélité de reconstruction, ils négligent souvent les propriétés structurelles de l'espace latent -- un facteur critique tant pour l'interprétabilité que pour les tâches en aval. Notre méthode génère une séquence causale 1D de tokens pour les images, où chaque token successif apporte une information non redondante avec une variance expliquée mathématiquement garantie décroissante, analogue à l'analyse en composantes principales. Cette contrainte structurelle garantit que le tokeniseur extrait d'abord les caractéristiques visuelles les plus saillantes, chaque token suivant ajoutant une information complémentaire mais décroissante. De plus, nous avons identifié et résolu un effet de couplage sémantique-spectral qui entraîne un enchevêtrement indésirable entre le contenu sémantique de haut niveau et les détails spectraux de bas niveau dans les tokens, en exploitant un décodeur à diffusion. Les expériences démontrent que notre approche atteint des performances de reconstruction à la pointe de l'état de l'art et permet une meilleure interprétabilité alignée avec le système visuel humain. Par ailleurs, les modèles auto-régressifs entraînés sur nos séquences de tokens atteignent des performances comparables aux méthodes actuelles les plus avancées tout en nécessitant moins de tokens pour l'entraînement et l'inférence.
Alors que les modèles fondationnels multimodaux commencent à être déployés expérimentalement dans les voitures autonomes, une question raisonnable que nous nous posons est à quel point ces systèmes réagissent de manière similaire aux humains dans certaines situations de conduite — en particulier celles qui sont hors distribution. Pour étudier cela, nous créons le jeu de données Robusto-1, qui utilise des vidéos de dashcam provenant du Pérou, un pays comptant parmi les conducteurs les plus agressifs au monde, un indice de trafic élevé et un ratio important d'objets de rue bizarres par rapport aux non-bizarres, probablement jamais vus pendant l'entraînement. En particulier, pour tester préliminairement au niveau cognitif à quel point les modèles fondationnels visuels et linguistiques (VLMs) se comparent aux humains en conduite, nous nous éloignons des boîtes englobantes, des cartes de segmentation, des cartes d'occupation ou de l'estimation de trajectoire pour nous concentrer sur le question-réponse visuel multimodal (VQA), comparant à la fois les humains et les machines à travers une méthode populaire en neurosciences des systèmes connue sous le nom d'Analyse de Similarité Représentationnelle (RSA). Selon le type de questions que nous posons et les réponses que ces systèmes donnent, nous montrerons dans quels cas les VLMs et les humains convergent ou divergent, nous permettant d'explorer leur alignement cognitif. Nous constatons que le degré d'alignement varie considérablement en fonction du type de questions posées à chaque type de système (Humains vs VLMs), mettant en évidence un écart dans leur alignement.
Dans cet article, nous présentons CineBrain, le premier jeu de données à grande échelle comprenant des enregistrements simultanés d'EEG et d'IRMf lors d'une stimulation audiovisuelle dynamique. Conscient des forces complémentaires de la haute résolution temporelle de l'EEG et de la couverture spatiale profonde de l'IRMf, CineBrain propose environ six heures de contenu narratif tiré de la série télévisée populaire The Big Bang Theory pour chacun des six participants. S'appuyant sur ce jeu de données unique, nous proposons CineSync, un cadre innovant de décodage multimodal qui intègre un Encodeur de Fusion Multi-Modale avec un Décodeur de Latence Neuronale basé sur la diffusion. Notre approche fusionne efficacement les signaux EEG et IRMf, améliorant significativement la qualité de reconstruction des stimuli audiovisuels complexes. Pour faciliter une évaluation rigoureuse, nous introduisons Cine-Benchmark, un protocole d'évaluation complet qui évalue les reconstructions à travers les dimensions sémantiques et perceptuelles. Les résultats expérimentaux démontrent que CineSync atteint des performances de reconstruction vidéo de pointe et mettent en lumière notre succès initial dans la combinaison de l'IRMf et de l'EEG pour reconstruire à la fois les stimuli vidéo et audio. Page du projet : https://jianxgao.github.io/CineBrain.
Les grands modèles vision-langage (LVLMs) ont démontré des réalisations remarquables, mais la génération de réponses non factuelles reste prévalente dans les tâches de question-réponse (QA) axées sur les faits. Les benchmarks multimodaux actuels pour la recherche de faits se concentrent principalement sur la comparaison des sorties des modèles avec des réponses de référence, offrant des insights limités sur la performance des modules spécifiques à chaque modalité. Pour combler cette lacune, nous introduisons VisualSimpleQA, un benchmark multimodal de recherche de faits avec deux caractéristiques clés. Premièrement, il permet une évaluation simplifiée et découplée des LVLMs dans les modalités visuelle et linguistique. Deuxièmement, il intègre des critères de difficulté bien définis pour guider l'annotation humaine et faciliter l'extraction d'un sous-ensemble difficile, VisualSimpleQA-hard. Les expériences sur 15 LVLMs montrent que même les modèles de pointe comme GPT-4o atteignent à peine plus de 60% de précision dans les tâches de QA multimodales sur VisualSimpleQA et plus de 30% sur VisualSimpleQA-hard. De plus, l'évaluation découplée à travers ces modèles met en évidence des opportunités substantielles d'amélioration dans les modules visuels et linguistiques. Le dataset est disponible à l'adresse suivante : https://huggingface.co/datasets/WYLing/VisualSimpleQA.
Les benchmarks sont essentiels pour une évaluation cohérente et la reproductibilité. L'intégration de l'Intelligence Artificielle dans le Génie Logiciel (IA4GL) a donné naissance à de nombreux benchmarks pour des tâches telles que la génération de code et la correction de bugs. Cependant, cette prolifération présente des défis : (1) la dispersion des connaissances sur les benchmarks à travers les tâches, (2) la difficulté à sélectionner des benchmarks pertinents, (3) l'absence d'une norme uniforme pour le développement de benchmarks, et (4) les limitations des benchmarks existants. Dans cet article, nous passons en revue 173 études et identifions 204 benchmarks IA4GL. Nous classons ces benchmarks, analysons leurs limitations et mettons en lumière les lacunes dans les pratiques. Sur la base de notre revue, nous avons créé BenchScout, un outil de recherche sémantique pour trouver des benchmarks pertinents, en utilisant un regroupement automatique des contextes issus des études associées. Nous avons mené une étude utilisateur avec 22 participants pour évaluer la facilité d'utilisation, l'efficacité et l'intuitivité de BenchScout, qui ont obtenu des scores moyens de 4,5, 4,0 et 4,1 sur 5. Pour faire progresser les normes de benchmarking, nous proposons BenchFrame, une méthode unifiée pour améliorer la qualité des benchmarks. En tant qu'étude de cas, nous avons appliqué BenchFrame au benchmark HumanEval et avons abordé ses principales limitations. Cela a conduit à HumanEvalNext, qui présente (1) des erreurs corrigées, (2) une conversion de langage améliorée, (3) une couverture de test étendue et (4) une difficulté accrue. Nous avons ensuite évalué dix modèles de langage de code de pointe sur HumanEval, HumanEvalPlus et HumanEvalNext. Sur HumanEvalNext, les modèles ont montré une réduction du score pass@1 de 31,22 % et 19,94 % par rapport à HumanEval et HumanEvalPlus, respectivement.
Les neurones dans les grands modèles de langage présentent souvent une polysémanticité, encodant simultanément plusieurs concepts non liés et obscurcissant ainsi l'interprétabilité. Plutôt que de recourir à des méthodes post-hoc, nous présentons MoE-X, un modèle de langage à base de Mixture-of-Experts (MoE) conçu pour être intrinsèquement interprétable. Notre approche est motivée par l'observation que, dans les modèles de langage, les réseaux plus larges avec des activations éparses sont plus susceptibles de capturer des facteurs interprétables. Cependant, entraîner directement de tels grands réseaux épars est prohibitif en termes de calcul. Les architectures MoE offrent une alternative évolutive en activant uniquement un sous-ensemble d'experts pour chaque entrée, s'alignant ainsi naturellement sur les objectifs d'interprétabilité. Dans MoE-X, nous établissons cette connexion en réécrivant la couche MoE comme un MLP (Multi-Layer Perceptron) éparse et large équivalent. Cette approche permet une mise à l'échelle efficace de la taille cachée tout en maintenant la parcimonie. Pour renforcer davantage l'interprétabilité, nous imposons une activation éparse au sein de chaque expert et redéfinissons le mécanisme de routage pour privilégier les experts présentant la plus grande parcimonie d'activation. Ces conceptions garantissent que seules les caractéristiques les plus saillantes sont routées et traitées par les experts. Nous évaluons MoE-X sur des tâches d'échecs et de langage naturel, montrant qu'il atteint des performances comparables aux modèles denses tout en améliorant significativement l'interprétabilité. MoE-X obtient une perplexité supérieure à celle de GPT-2, avec une interprétabilité surpassant même les approches basées sur des autoencodeurs épars (SAE).
La génération conjointe audio-vidéo (AV) reste un défi majeur dans le domaine de l'IA générative, principalement en raison de trois exigences critiques : la qualité des échantillons générés, la synchronisation multimodale fluide et la cohérence temporelle, avec des pistes audio correspondant aux données visuelles et vice versa, ainsi qu'une durée vidéo illimitée. Dans cet article, nous présentons , une nouvelle architecture basée sur les transformateurs qui aborde tous les défis clés de la génération AV. Nous explorons trois modules distincts d'interaction intermodale, notre module de fusion temporelle léger se révélant comme l'approche la plus efficace et la plus efficiente sur le plan computationnel pour aligner les modalités audio et visuelles. Nos résultats expérimentaux démontrent que surpasse les modèles de pointe existants dans les tâches de génération multimodale AV. Notre code et nos points de contrôle sont disponibles à l'adresse https://github.com/ErgastiAlex/R-FLAV.
Malgré les récents progrès dans l'interpolation de mouvement basée sur l'apprentissage, une limitation clé a été négligée : la nécessité de jeux de données spécifiques à chaque personnage. Dans ce travail, nous présentons AnyMoLe, une nouvelle méthode qui aborde cette limitation en exploitant des modèles de diffusion vidéo pour générer des images intermédiaires de mouvement pour des personnages arbitraires sans données externes. Notre approche utilise un processus de génération d'images en deux étapes pour améliorer la compréhension contextuelle. De plus, pour combler l'écart de domaine entre les animations de personnages du monde réel et celles rendues, nous introduisons ICAdapt, une technique de fine-tuning pour les modèles de diffusion vidéo. Par ailleurs, nous proposons une technique d'optimisation de « mimétisme mouvement-vidéo », permettant une génération fluide de mouvements pour des personnages avec des structures articulaires arbitraires en utilisant des caractéristiques 2D et 3D. AnyMoLe réduit significativement la dépendance aux données tout en générant des transitions fluides et réalistes, le rendant applicable à un large éventail de tâches d'interpolation de mouvement.
Les études précédentes ont établi que les modèles de langage manifestent des biais stéréotypés. Les stratégies existantes de réduction des biais, telles que le réentraînement d'un modèle avec des données contrefactuelles, la projection de représentations et l'utilisation d'invites, échouent souvent à éliminer efficacement les biais ou à modifier directement les représentations internes biaisées des modèles. Pour résoudre ces problèmes, nous proposons BiasEdit, une méthode efficace d'édition de modèles visant à supprimer les biais stéréotypés des modèles de langage grâce à des réseaux légers qui agissent comme des éditeurs pour générer des mises à jour de paramètres. BiasEdit utilise une fonction de perte de réduction des biais pour guider les réseaux éditeurs à effectuer des modifications locales sur une partie des paramètres d'un modèle de langage afin de réduire les biais, tout en préservant les capacités de modélisation du langage grâce à une fonction de perte de rétention. Les expériences sur StereoSet et Crows-Pairs démontrent l'efficacité, l'efficience et la robustesse de BiasEdit dans l'élimination des biais par rapport aux méthodes de référence tangentielles, avec un impact minimal voire nul sur les capacités générales des modèles de langage. De plus, nous effectuons un traçage des biais pour explorer leur présence dans divers modules et étudions les impacts de l'édition des biais sur différentes composantes des modèles de langage.
Les humains sont sans aucun doute les participants les plus importants en vision par ordinateur, et la capacité à détecter un individu à partir d'une description en langage naturel, une tâche que nous définissons comme la référence à toute personne, revêt une valeur pratique considérable. Cependant, nous constatons que les modèles existants échouent généralement à atteindre une utilité réelle, et les benchmarks actuels sont limités par leur focalisation sur la référence un-à-un, ce qui entrave les progrès dans ce domaine. Dans ce travail, nous revisitons cette tâche sous trois perspectives critiques : la définition de la tâche, la conception des jeux de données et l'architecture des modèles. Nous identifions d'abord cinq aspects des entités référençables et trois caractéristiques distinctives de cette tâche. Ensuite, nous introduisons HumanRef, un nouveau jeu de données conçu pour relever ces défis et mieux refléter les applications réelles. Du point de vue de la conception des modèles, nous intégrons un modèle de langage multimodal à un cadre de détection d'objets, construisant ainsi un modèle de référence robuste nommé RexSeek. Les résultats expérimentaux révèlent que les modèles de pointe, qui performent bien sur des benchmarks couramment utilisés comme RefCOCO/+/g, peinent avec HumanRef en raison de leur incapacité à détecter plusieurs individus. En revanche, RexSeek excelle non seulement dans la référence humaine, mais se généralise également efficacement à la référence d'objets courants, le rendant largement applicable à diverses tâches de perception. Le code est disponible à l'adresse https://github.com/IDEA-Research/RexSeek.
Les modèles de diffusion et le Flow Matching génèrent des échantillons de haute qualité mais sont lents lors de l'inférence, et leur distillation en modèles à quelques étapes entraîne souvent des instabilités et nécessite un réglage approfondi. Pour résoudre ces compromis, nous proposons l'Inductive Moment Matching (IMM), une nouvelle classe de modèles génératifs permettant un échantillonnage en une ou quelques étapes avec une procédure d'entraînement en une seule étape. Contrairement à la distillation, IMM ne nécessite pas d'initialisation par pré-entraînement ni l'optimisation de deux réseaux ; et contrairement aux Consistency Models, IMM garantit une convergence au niveau de la distribution et reste stable sous divers hyperparamètres et architectures de modèles standards. IMM surpasse les modèles de diffusion sur ImageNet-256x256 avec un FID de 1,99 en utilisant seulement 8 étapes d'inférence et atteint un FID en 2 étapes de pointe de 1,98 sur CIFAR-10 pour un modèle entraîné à partir de zéro.
Les études précédentes ont montré que les modèles de recherche basés sur les PLM (Pre-trained Language Models) présentent une préférence pour le contenu généré par les LLM (Large Language Models), attribuant des scores de pertinence plus élevés à ces documents même lorsque leur qualité sémantique est comparable à celle des documents rédigés par des humains. Ce phénomène, connu sous le nom de biais de source, menace le développement durable de l'écosystème d'accès à l'information. Cependant, les causes sous-jacentes de ce biais de source restent inexplorées. Dans cet article, nous expliquons le processus de recherche d'information à l'aide d'un graphe causal et découvrons que les systèmes de recherche basés sur les PLM apprennent des caractéristiques de perplexité pour estimer la pertinence, ce qui provoque un biais de source en classant plus haut les documents ayant une faible perplexité. L'analyse théorique révèle en outre que ce phénomène découle de la corrélation positive entre les gradients des fonctions de perte dans la tâche de modélisation du langage et la tâche de recherche. Sur la base de cette analyse, une méthode de débiaisage au moment de l'inférence inspirée par la causalité est proposée, appelée Diagnostic et Correction Causale (CDC). CDC diagnostique d'abord l'effet de biais de la perplexité, puis sépare cet effet de biais du score de pertinence global estimé. Les résultats expérimentaux dans trois domaines démontrent l'efficacité supérieure de CDC en matière de débiaisage, soulignant la validité de notre cadre explicatif proposé. Les codes sources sont disponibles à l'adresse suivante : https://github.com/WhyDwelledOnAi/Perplexity-Trap.
Les modèles de diffusion ont obtenu un succès remarquable dans divers domaines. Cependant, leur lenteur de génération reste un défi critique. Les méthodes d'accélération existantes, bien qu'elles visent à réduire le nombre d'étapes, compromettent souvent la qualité des échantillons, la contrôlabilité, ou introduisent des complexités d'entraînement. Par conséquent, nous proposons RayFlow, un nouveau cadre de diffusion qui aborde ces limitations. Contrairement aux méthodes précédentes, RayFlow guide chaque échantillon le long d'un chemin unique vers une distribution cible spécifique à l'instance. Cette méthode minimise les étapes d'échantillonnage tout en préservant la diversité et la stabilité de la génération. De plus, nous introduisons Time Sampler, une technique d'échantillonnage d'importance pour améliorer l'efficacité de l'entraînement en se concentrant sur les étapes temporelles cruciales. Des expériences approfondies démontrent la supériorité de RayFlow dans la génération d'images de haute qualité avec une vitesse, un contrôle et une efficacité d'entraînement améliorés par rapport aux techniques d'accélération existantes.
Le domaine de la traduction automatique neuronale (NMT) a évolué avec l'avènement des grands modèles de langage (LLMs). Une grande partie de l'attention récente en traitement automatique du langage naturel (NLP) s'est portée sur la modélisation de la traduction automatique et de nombreux autres problèmes à l'aide d'un seul décodeur Transformer pré-entraîné, tandis que les architectures encodeur-décodeur, qui étaient la norme dans les modèles NMT antérieurs, ont reçu relativement moins d'attention. Dans cet article, nous explorons des modèles de traduction universels, efficaces et faciles à optimiser, en combinant le monde des LLMs avec celui de la NMT. Nous appliquons les LLMs à l'encodage NMT et laissons le décodeur NMT inchangé. Nous développons également des méthodes pour adapter les LLMs afin qu'ils fonctionnent mieux avec le décodeur NMT. De plus, nous construisons un nouveau jeu de données impliquant plusieurs tâches pour évaluer dans quelle mesure le système de traduction automatique généralise à travers diverses tâches. Les évaluations sur les jeux de données WMT et les nôtres montrent que les résultats obtenus avec notre méthode égalent ou surpassent une gamme de références en termes de qualité de traduction, tout en atteignant des accélérations d'inférence de 2,4 à 6,5 fois et une réduction de 75 % de l'empreinte mémoire du cache KV. Cela démontre également une forte généralisation à travers une variété de tâches liées à la traduction.
Les avancées récentes dans la compréhension de vidéos longues atténuent généralement la redondance visuelle par l'élagage de tokens visuels basé sur la distribution de l'attention. Cependant, bien que les méthodes existantes utilisent un élagage post-hoc des tokens à faible réponse dans les couches de décodage, elles négligent la corrélation sémantique au niveau de l'entrée entre les tokens visuels et les instructions (requête). Dans cet article, nous proposons QuoTA, un module ante-hoc sans apprentissage qui étend les modèles de langage-vidéo de grande taille (LVLMs) existants pour l'assignation de tokens visuels basée sur une évaluation de l'importance au niveau des images orientée par la requête. La sélection de tokens orientée par la requête est cruciale car elle aligne le traitement visuel avec les exigences spécifiques à la tâche, optimisant l'utilisation du budget de tokens tout en préservant le contenu sémantiquement pertinent. Plus précisément, (i) QuoTA attribue stratégiquement des scores d'importance au niveau des images en fonction de la pertinence de la requête, permettant une assignation unique des tokens visuels avant les interactions intermodales dans les couches de décodage, (ii) nous découplons la requête par un raisonnement en chaîne de pensées (Chain-of-Thoughts) pour faciliter un calcul plus précis de l'importance des images basé sur les LVLMs, et (iii) QuoTA offre une fonctionnalité plug-and-play qui s'étend aux LVLMs existants. Les résultats expérimentaux approfondis montrent que l'implémentation de QuoTA avec LLaVA-Video-7B améliore en moyenne les performances de 3,2 % sur six benchmarks (incluant Video-MME et MLVU) tout en opérant avec un budget de tokens visuels identique à celui de la référence. Les codes sont open-source à l'adresse https://github.com/MAC-AutoML/QuoTA.
Aussi simple que cela puisse paraître, déplacer un objet vers un autre emplacement dans une image est, en réalité, une tâche complexe de retouche d'image qui nécessite de réharmoniser l'éclairage, d'ajuster la pose en fonction de la perspective, de combler précisément les régions occluses, et d'assurer une synchronisation cohérente des ombres et des réflexions tout en préservant l'identité de l'objet. Dans cet article, nous présentons ObjectMover, un modèle génératif capable de réaliser des déplacements d'objets dans des scènes hautement complexes. Notre idée clé est de modéliser cette tâche comme un problème de séquence à séquence et d'affiner un modèle de génération vidéo pour exploiter sa connaissance de la génération cohérente d'objets à travers les images vidéo. Nous montrons qu'avec cette approche, notre modèle est capable de s'adapter à des scénarios réels complexes, en gérant l'harmonisation d'éclairages extrêmes et le mouvement des effets liés aux objets. Comme les données à grande échelle pour le déplacement d'objets ne sont pas disponibles, nous construisons un pipeline de génération de données utilisant un moteur de jeu moderne pour synthétiser des paires de données de haute qualité. Nous proposons en outre une stratégie d'apprentissage multi-tâches qui permet d'entraîner le modèle sur des données vidéo réelles pour améliorer sa généralisation. À travers des expériences approfondies, nous démontrons qu'ObjectMover obtient des résultats exceptionnels et s'adapte bien aux scénarios réels.
Le Mixture of Experts (MoE) est une architecture efficace pour mettre à l'échelle les grands modèles de langage en exploitant l'activation parcimonieuse des experts, optimisant ainsi le compromis entre performance et efficacité. Cependant, dans un contexte de parallélisme des experts, le MoE souffre d'inefficacités lors de l'inférence en raison d'une répartition déséquilibrée des tokens entre les experts, où certains experts sont surchargés tandis que d'autres restent sous-utilisés. Ce déséquilibre entraîne une mauvaise utilisation des ressources et une latence accrue, car l'expert le plus sollicité dicte le délai global, un phénomène que nous définissons comme l'\textit{effet Straggler}. Pour atténuer ce problème, nous proposons l'inférence basée sur la capacité, incluant deux techniques clés : (1) le \textit{Capacity-Aware Token Drop}, qui supprime les tokens en surcharge pour réguler la latence maximale du MoE, et (2) le \textit{Capacity-Aware Token Reroute}, qui réalloue les tokens en excès vers des experts sous-utilisés, équilibrant ainsi la distribution des tokens. Ces techniques optimisent conjointement l'utilisation des experts à charge élevée et faible, conduisant à un pipeline d'inférence MoE plus efficace. Des expériences approfondies démontrent l'efficacité de nos méthodes, montrant des améliorations significatives en termes d'efficacité d'inférence, par exemple une augmentation moyenne des performances de 0,2\% et une accélération de l'inférence de 1,94 fois sur Mixtral-8x7B-Instruct.
Les modèles de recherche dense sont couramment utilisés dans les applications de Recherche d'Information (RI), telles que la Génération Augmentée par Récupération (RAG). Comme ils constituent souvent la première étape de ces systèmes, leur robustesse est cruciale pour éviter les échecs. Dans ce travail, en réutilisant un jeu de données d'extraction de relations (par exemple Re-DocRED), nous concevons des expériences contrôlées pour quantifier l'impact des biais heuristiques, comme la préférence pour des documents plus courts, dans les récupérateurs tels que Dragon+ et Contriever. Nos résultats révèlent des vulnérabilités significatives : les récupérateurs s'appuient souvent sur des motifs superficiels, comme la surpriorisation des débuts de documents, des documents plus courts, des entités répétées et des correspondances littérales. De plus, ils ont tendance à négliger si le document contient la réponse à la requête, manquant ainsi d'une compréhension sémantique profonde. Notamment, lorsque plusieurs biais se combinent, les modèles subissent une dégradation catastrophique de leurs performances, sélectionnant le document contenant la réponse dans moins de 3 % des cas par rapport à un document biaisé sans réponse. Par ailleurs, nous montrons que ces biais ont des conséquences directes pour les applications en aval comme la RAG, où les documents privilégiés par la récupération peuvent induire en erreur les LLM, entraînant une baisse de performance de 34 % par rapport à ne fournir aucun document.
L'intelligence est une caractéristique cruciale permettant aux espèces de trouver des solutions en un nombre limité d'essais et d'erreurs. En nous appuyant sur cette idée, nous introduisons le Jeu de Survie comme un cadre pour évaluer l'intelligence en fonction du nombre d'échecs dans un processus d'essais et d'erreurs. Moins il y a d'échecs, plus l'intelligence est élevée. Lorsque l'espérance et la variance du nombre d'échecs sont toutes deux finies, cela indique la capacité à trouver systématiquement des solutions à de nouveaux défis, ce que nous définissons comme le Niveau Autonome d'intelligence. En utilisant le Jeu de Survie, nous évaluons de manière exhaustive les systèmes d'IA existants. Nos résultats montrent que si les systèmes d'IA atteignent le Niveau Autonome dans des tâches simples, ils en sont encore loin dans des tâches plus complexes, telles que la vision, la recherche, la recommandation et le langage. Bien que la mise à l'échelle des technologies actuelles d'IA puisse aider, cela se ferait à un coût astronomique. Les projections suggèrent que l'atteinte du Niveau Autonome pour des tâches générales nécessiterait 10^{26} paramètres. Pour mettre cela en perspective, le chargement d'un modèle aussi massif nécessite tant de GPU H100 que leur valeur totale est 10^{7} fois celle de la capitalisation boursière d'Apple Inc. Même avec la loi de Moore, soutenir une telle échelle de paramètres prendrait 70 ans. Ce coût vertigineux met en lumière la complexité des tâches humaines et les insuffisances des technologies actuelles d'IA. Pour approfondir cette question, nous menons une analyse théorique du Jeu de Survie et de ses résultats expérimentaux. Nos conclusions suggèrent que les tâches humaines possèdent une propriété de criticité. Par conséquent, le Niveau Autonome nécessite une compréhension approfondie des mécanismes sous-jacents de la tâche. Cependant, les systèmes d'IA actuels ne saisissent pas pleinement ces mécanismes et s'appuient plutôt sur une imitation superficielle, ce qui rend difficile l'atteinte d'un niveau autonome. Nous croyons que le Jeu de Survie peut non seulement guider le développement futur de l'IA, mais aussi offrir des perspectives profondes sur l'intelligence humaine.
Les sorties hallucinées des modèles de langage présentent des risques dans le domaine médical, en particulier pour les publics non experts prenant des décisions liées à la santé. Les méthodes existantes d'évaluation de la factualité, telles que celles basées sur l'implication et les questions-réponses (QA), peinent à évaluer la génération de résumés en langage simple (PLS) en raison du phénomène d'explication élaborative, qui introduit du contenu externe (par exemple, des définitions, des contextes, des exemples) absent du document source pour améliorer la compréhension. Pour résoudre ce problème, nous présentons PlainQAFact, un cadre entraîné sur un ensemble de données annoté manuellement et granulaire, PlainFact, afin d'évaluer la factualité des phrases simplifiées à partir de la source et des phrases expliquées de manière élaborative. PlainQAFact classe d'abord le type de factualité, puis évalue la factualité à l'aide d'une méthode de notation basée sur les questions-réponses et augmentée par la recherche d'informations. Notre approche est légère et efficace sur le plan computationnel. Les résultats empiriques montrent que les métriques de factualité existantes échouent à évaluer efficacement la factualité dans les PLS, en particulier pour les explications élaboratives, tandis que PlainQAFact atteint des performances de pointe. Nous analysons en outre son efficacité à travers les sources de connaissances externes, les stratégies d'extraction de réponses, les mesures de chevauchement et les niveaux de granularité des documents, affinant ainsi son évaluation globale de la factualité.
Les préoccupations concernant la confidentialité face au nombre croissant de caméras augmentent dans l'ère numérique actuelle. Bien que les méthodes d'anonymisation existantes parviennent à masquer les informations d'identité, elles peinent souvent à préserver l'utilité des images. Dans ce travail, nous présentons une méthode sans apprentissage pour l'anonymisation des visages qui conserve les attributs clés non liés à l'identité. Notre approche utilise un modèle de diffusion texte-image pré-entraîné sans nécessiter d'optimisation ou d'apprentissage. Elle commence par inverser l'image d'entrée pour retrouver son bruit initial. Le bruit est ensuite débruité via un processus de diffusion conditionné par l'identité, où des embeddings d'identité modifiés garantissent que le visage anonymisé est distinct de l'identité originale. Notre approche prend également en charge l'anonymisation localisée, offrant aux utilisateurs le contrôle des régions faciales à anonymiser ou à conserver intactes. Des évaluations approfondies par rapport aux méthodes de pointe montrent que notre approche excelle en anonymisation, préservation des attributs et qualité d'image. Sa flexibilité, robustesse et praticabilité la rendent bien adaptée aux applications réelles. Le code et les données sont disponibles à l'adresse https://github.com/hanweikung/nullface.
Ces dernières années ont vu des avancées significatives dans les modèles de base grâce à l'apprentissage préalable génératif, mais l'innovation algorithmique dans ce domaine s'est largement enlisée autour des modèles autorégressifs pour les signaux discrets et des modèles de diffusion pour les signaux continus. Cette stagnation crée un goulot d'étranglement qui nous empêche d'exploiter pleinement le potentiel des données multimodales riches, ce qui limite à son tour les progrès en matière d'intelligence multimodale. Nous soutenons qu'une perspective axée sur l'inférence, qui privilégie l'efficacité de mise à l'échelle pendant le temps d'inférence à travers la longueur des séquences et les étapes de raffinement, peut inspirer de nouveaux algorithmes d'apprentissage préalable génératif. En utilisant l'Appariement des Moments Inductifs (IMM) comme exemple concret, nous démontrons comment la résolution des limitations dans le processus d'inférence des modèles de diffusion grâce à des modifications ciblées aboutit à un algorithme stable en une seule étape, offrant une qualité d'échantillon supérieure avec une efficacité d'inférence plus d'un ordre de grandeur supérieure.
Les modèles Vision-Langage-Action (VLA) visent à prédire les actions robotiques en fonction des observations visuelles et des instructions langagières. Les approches existantes nécessitent un ajustement fin des modèles vision-langage pré-entraînés (VLMs), car les caractéristiques visuelles et langagières sont indépendamment injectées dans les politiques en aval, ce qui dégrade les alignements sémantiques pré-entraînés. Nous proposons OTTER, une nouvelle architecture VLA qui exploite ces alignements existants grâce à une extraction explicite de caractéristiques visuelles consciente du texte. Au lieu de traiter toutes les caractéristiques visuelles, OTTER sélectionne et transmet uniquement les caractéristiques visuelles pertinentes pour la tâche, alignées sémantiquement avec l'instruction langagière, au transformateur de politique. Cela permet à OTTER de maintenir les encodeurs vision-langage pré-entraînés figés. Ainsi, OTTER préserve et utilise la riche compréhension sémantique apprise lors de l'entraînement à grande échelle, permettant de solides capacités de généralisation en zero-shot. Dans des expériences en simulation et dans le monde réel, OTTER surpasse significativement les modèles VLA existants, démontrant une forte généralisation en zero-shot pour de nouveaux objets et environnements. Vidéo, code, points de contrôle et jeu de données : https://ottervla.github.io/.