Articles de recherche en IA sélectionnés quotidiennement avec traductions
La réparation d’image est un domaine de recherche fondamental situé à l’intersection de l’édition et de la génération d’images. Les méthodes récentes de pointe (state-of-the-art, SOTA) ont exploré de nouveaux mécanismes d’attention, des architectures légères et une modélisation contextuelle, démontrant des performances impressionnantes. Cependant, elles rencontrent souvent des difficultés avec des structures complexes (par exemple, texture, forme, relations spatiales) et des aspects sémantiques (par exemple, cohérence des couleurs, restauration d’objets et correction logique), ce qui entraîne des artefacts et des générations inappropriées. Pour relever ce défi, nous concevons un paradigme de réparation d’image simple mais efficace appelé guidage par catégories latentes, et proposons en outre un modèle basé sur la diffusion nommé PixelHacker. Plus précisément, nous construisons d’abord un vaste ensemble de données contenant 14 millions de paires image-masque en annotant les plans avant et arrière (avec respectivement 116 et 21 catégories potentielles). Ensuite, nous encodons séparément les représentations potentielles des plans avant et arrière à travers deux plongements de taille fixe, et injectons ces caractéristiques de manière intermittente dans le processus de débruitage via une attention linéaire. Enfin, en pré-entraînant notre modèle sur notre ensemble de données et en l’affinant sur des benchmarks open-source, nous obtenons PixelHacker. Des expériences approfondies montrent que PixelHacker surpasse de manière exhaustive les méthodes SOTA sur une large gamme de jeux de données (Places2, CelebA-HQ et FFHQ) et présente une remarquable cohérence tant au niveau de la structure que de la sémantique. Page du projet : https://hustvl.github.io/PixelHacker.
Nous présentons la série de modèles Llama-Nemotron, une famille ouverte de modèles de raisonnement hétérogènes offrant des capacités de raisonnement exceptionnelles, une efficacité d'inférence et une licence ouverte pour un usage en entreprise. Cette famille se décline en trois tailles — Nano (8B), Super (49B) et Ultra (253B) — et rivalise avec les modèles de raisonnement les plus avancés, tels que DeepSeek-R1, tout en offrant un débit d'inférence et une efficacité mémoire supérieurs. Dans ce rapport, nous décrivons la procédure d'entraînement de ces modèles, qui inclut une recherche d'architecture neuronale à partir des modèles Llama 3 pour accélérer l'inférence, une distillation de connaissances et un pré-entraînement continu, suivi d'une étape de post-entraînement axée sur le raisonnement, composée de deux parties principales : un réglage fin supervisé et un apprentissage par renforcement à grande échelle. Les modèles Llama-Nemotron sont les premiers modèles open-source à prendre en charge une bascule dynamique de raisonnement, permettant aux utilisateurs de passer entre un mode de discussion standard et un mode de raisonnement pendant l'inférence. Pour soutenir davantage la recherche ouverte et faciliter le développement de modèles, nous mettons à disposition les ressources suivantes : 1. Nous publions les modèles de raisonnement Llama-Nemotron — LN-Nano, LN-Super et LN-Ultra — sous la licence commerciale permissive NVIDIA Open Model License Agreement. 2. Nous publions l'ensemble complet du jeu de données de post-entraînement : Llama-Nemotron-Post-Training-Dataset. 3. Nous publions également nos bases de code d'entraînement : NeMo, NeMo-Aligner et Megatron-LM.
La plupart des tâches de retouche d'images dans le monde réel nécessitent des modifications séquentielles multiples pour obtenir les résultats souhaités. Les approches actuelles de retouche, principalement conçues pour des modifications sur un seul objet, peinent à gérer les éditions séquentielles : notamment en maintenant les modifications précédentes tout en intégrant naturellement de nouveaux objets dans le contenu existant. Ces limitations entravent considérablement les scénarios de retouche complexes où plusieurs objets doivent être modifiés tout en préservant leurs relations contextuelles. Nous abordons ce défi fondamental à travers deux propositions clés : permettre des masques approximatifs qui préservent le contenu existant tout en intégrant naturellement de nouveaux éléments, et soutenir une retouche cohérente à travers plusieurs modifications. Notre cadre réalise cela grâce à une mémoire par couches, qui stocke les représentations latentes et les embeddings de prompts des modifications précédentes. Nous proposons un Guidage de Cohérence de l'Arrière-plan qui exploite les latents mémorisés pour maintenir la cohérence de la scène, ainsi qu'une Désentrelacement Multi-Requête dans l'attention croisée qui assure une adaptation naturelle au contenu existant. Pour évaluer notre méthode, nous présentons un nouveau jeu de données de référence intégrant des métriques d'alignement sémantique et des scénarios de retouche interactive. À travers des expériences approfondies, nous démontrons une performance supérieure dans les tâches de retouche itérative d'images avec un effort utilisateur minimal, nécessitant uniquement des masques approximatifs tout en maintenant des résultats de haute qualité à travers plusieurs étapes de retouche.
L'évaluation des systèmes de génération de langage naturel (NLG) est complexe en raison de la diversité des sorties valides. Bien que l'évaluation humaine soit considérée comme la référence, elle souffre d'incohérences, d'un manque de standardisation et de biais démographiques, limitant ainsi la reproductibilité. L'évaluation basée sur les modèles de langage (LLM) offre une alternative évolutive, mais elle est très sensible à la conception des prompts, où de petites variations peuvent entraîner des divergences significatives. Dans ce travail, nous proposons une méthode d'apprentissage par inversion qui apprend des correspondances inverses efficaces entre les sorties du modèle et leurs instructions d'entrée, permettant la génération automatique de prompts d'évaluation hautement efficaces et spécifiques au modèle. Notre méthode ne nécessite qu'un seul échantillon d'évaluation et élimine le besoin d'un laborieux ajustement manuel des prompts, améliorant ainsi à la fois l'efficacité et la robustesse. Notre contribution ouvre une nouvelle voie pour une évaluation basée sur les LLM plus robuste et efficace.
En nous appuyant sur 1 178 articles traitant de la sécurité et de la fiabilité, extraits de 9 439 articles sur l’IA générative (janvier 2020 - mars 2025), nous comparons les productions de recherche des principales entreprises en IA (Anthropic, Google DeepMind, Meta, Microsoft et OpenAI) et des universités spécialisées en IA (CMU, MIT, NYU, Stanford, UC Berkeley et University of Washington). Nous constatons que la recherche en IA menée par les entreprises se concentre de plus en plus sur des domaines pré-déploiement, tels que l’alignement des modèles et les tests & évaluations, tandis que l’attention portée aux problèmes liés au déploiement, comme les biais des modèles, s’est affaiblie. D’importantes lacunes de recherche subsistent dans des domaines de déploiement à haut risque, notamment la santé, la finance, la désinformation, les fonctionnalités persuasives et addictives, les hallucinations et les questions de droits d’auteur. Sans une meilleure observabilité des systèmes d’IA déployés, la concentration croissante des entreprises pourrait accentuer les déficits de connaissances. Nous recommandons d’élargir l’accès des chercheurs externes aux données de déploiement et de mettre en place une observabilité systématique des comportements des IA en situation réelle.
Dans un corpus réel, les connaissances réapparaissent fréquemment à travers les documents, mais contiennent souvent des incohérences dues à des désignations ambiguës, des informations obsolètes ou des erreurs, ce qui entraîne des interrelations complexes entre les contextes. Les recherches précédentes ont montré que les modèles de langage peinent à gérer ces complexités, se concentrant généralement sur des facteurs isolés. Nous classons ces relations en quatre types : distrayantes, ambiguës, contrefactuelles et dupliquées. Notre analyse révèle qu’aucune approche unique ne parvient à traiter efficacement toutes ces interrelations simultanément. Par conséquent, nous introduisons Context Organizer (CORG), un cadre qui organise plusieurs contextes en groupes traités de manière indépendante. Cette conception permet au modèle de trouver efficacement toutes les réponses pertinentes tout en assurant une désambiguïsation. CORG se compose de trois éléments clés : un constructeur de graphe, un rerankeur et un agrégateur. Nos résultats démontrent que CORG équilibre efficacement performance et efficacité, surpassant les méthodes de regroupement existantes et obtenant des résultats comparables à des approches plus intensives en calcul, basées sur un contexte unique.
Apprendre à résoudre des tâches complexes avec des spécifications de logique temporelle des signaux (STL) est crucial pour de nombreuses applications réelles. Cependant, la plupart des travaux précédents ne considèrent que des spécifications STL fixes ou paramétrées en raison de l'absence d'un ensemble de données STL diversifié et d'encodeurs capables d'extraire efficacement les informations de logique temporelle pour les tâches en aval. Dans cet article, nous proposons TeLoGraF, Temporal Logic Graph-encoded Flow, qui utilise un encodeur basé sur les réseaux de neurones graphiques (GNN) et la correspondance de flux pour apprendre des solutions pour des spécifications STL générales. Nous identifions quatre modèles STL couramment utilisés et collectons un total de 200K spécifications accompagnées de démonstrations. Nous menons des expériences approfondies dans cinq environnements de simulation, allant de modèles dynamiques simples dans l'espace 2D à des systèmes de haute dimension comme le bras robotique Franka Panda à 7 degrés de liberté et la navigation du quadrupède Ant. Les résultats montrent que notre méthode surpasse les autres approches de référence en termes de taux de satisfaction des spécifications STL. Par rapport aux algorithmes classiques de planification STL, notre approche est 10 à 100 fois plus rapide en inférence et peut fonctionner avec n'importe quelle dynamique de système. De plus, nous démontrons la capacité de notre méthode d'encodage graphique à résoudre des STL complexes et sa robustesse face à des spécifications STL hors distribution. Le code est disponible à l'adresse suivante : https://github.com/mengyuest/TeLoGraF.
Avec l'émergence quotidienne de nouveaux produits, les systèmes de recommandation doivent s'adapter rapidement à de nouveaux domaines potentiels sans nécessiter un réentraînement approfondi. Ce travail présente « X-Cross » — un nouveau modèle de recommandation séquentielle interdomaine qui recommande des produits dans de nouveaux domaines en intégrant plusieurs modèles de langage spécifiques à un domaine ; chaque modèle est affiné à l'aide d'adaptateurs à faible rang (LoRA). Étant donné une incitation de recommandation, en opérant couche par couche, X-Cross affine dynamiquement la représentation de chaque modèle de langage source en intégrant les connaissances de tous les autres modèles. Ces représentations raffinées sont propagées d'une couche à l'autre, en exploitant les activations de chaque adaptateur de domaine pour préserver les nuances spécifiques à chaque domaine tout en permettant une adaptabilité interdomaine. En utilisant des ensembles de données Amazon pour la recommandation séquentielle, X-Cross atteint des performances comparables à un modèle affiné avec LoRA, tout en utilisant seulement 25 % des paramètres supplémentaires. Dans les tâches interdomaines, comme l'adaptation du domaine des Jouets à celui des Outils, de l'Électronique ou des Sports, X-Cross démontre une performance robuste, tout en nécessitant environ 50 % à 75 % moins de données d'affinage que LoRA pour rendre l'affinage efficace. De plus, X-Cross obtient une amélioration significative de la précision par rapport aux alternatives interdomaines de référence. Globalement, X-Cross permet des recommandations interdomaines évolutives et adaptatives, réduisant la surcharge computationnelle et offrant une solution efficace pour les environnements contraints en données.