papers.title

papers.description

PixelHacker : Réparation d’images avec cohérence structurelle et sémantique
PixelHacker: Image Inpainting with Structural and Semantic Consistency

Apr 29

ByZiyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang

La réparation d’image est un domaine de recherche fondamental situé à l’intersection de l’édition et de la génération d’images. Les méthodes récentes de pointe (state-of-the-art, SOTA) ont exploré de nouveaux mécanismes d’attention, des architectures légères et une modélisation contextuelle, démontrant des performances impressionnantes. Cependant, elles rencontrent souvent des difficultés avec des structures complexes (par exemple, texture, forme, relations spatiales) et des aspects sémantiques (par exemple, cohérence des couleurs, restauration d’objets et correction logique), ce qui entraîne des artefacts et des générations inappropriées. Pour relever ce défi, nous concevons un paradigme de réparation d’image simple mais efficace appelé guidage par catégories latentes, et proposons en outre un modèle basé sur la diffusion nommé PixelHacker. Plus précisément, nous construisons d’abord un vaste ensemble de données contenant 14 millions de paires image-masque en annotant les plans avant et arrière (avec respectivement 116 et 21 catégories potentielles). Ensuite, nous encodons séparément les représentations potentielles des plans avant et arrière à travers deux plongements de taille fixe, et injectons ces caractéristiques de manière intermittente dans le processus de débruitage via une attention linéaire. Enfin, en pré-entraînant notre modèle sur notre ensemble de données et en l’affinant sur des benchmarks open-source, nous obtenons PixelHacker. Des expériences approfondies montrent que PixelHacker surpasse de manière exhaustive les méthodes SOTA sur une large gamme de jeux de données (Places2, CelebA-HQ et FFHQ) et présente une remarquable cohérence tant au niveau de la structure que de la sémantique. Page du projet : https://hustvl.github.io/PixelHacker.

Llama-Nemotron : Modèles de raisonnement efficaces
Llama-Nemotron: Efficient Reasoning Models

May 2

ByAkhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, Zach Moshe, Tomer Ronen, Najeeb Nabwani, Ido Shahaf, Oren Tropp, Ehud Karpas, Ran Zilberstein, Jiaqi Zeng, Soumye Singhal, Alexander Bukharin, Yian Zhang, Tugrul Konuk, Gerald Shen, Ameya Sunil Mahabaleshwarkar, Bilal Kartal, Yoshi Suhara, Olivier Delalleau, Zijia Chen, Zhilin Wang, David Mosallanezhad, Adi Renduchintala, Haifeng Qian, Dima Rekesh, Fei Jia, Somshubra Majumdar, Vahid Noroozi, Wasi Uddin Ahmad, Sean Narenthiran, Aleksander Ficek, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Igor Gitman, Ivan Moshkov, Wei Du, Shubham Toshniwal, George Armstrong, Branislav Kisacanin, Matvei Novikov, Daria Gitman, Evelina Bakhturina, Jane Polak Scowcroft, John Kamalu, Dan Su, Kezhi Kong, Markus Kliegl, Rabeeh Karimi, Ying Lin, Sanjeev Satheesh, Jupinder Parmar, Pritam Gundecha, Brandon Norick, Joseph Jennings, Shrimai Prabhumoye, Syeda Nahida Akter, Mostofa Patwary, Abhinav Khattar, Deepak Narayanan, Roger Waleffe, Jimmy Zhang, Bor-Yiing Su, Guyue Huang, Terry Kong, Parth Chadha, Sahil Jain, Christine Harvey, Elad Segal, Jining Huang, Sergey Kashirsky, Robert McQueen, Izzy Putterman, George Lam, Arun Venkatesan, Sherry Wu, Vinh Nguyen, Manoj Kilaru, Andrew Wang, Anna Warno, Abhilash Somasamudramath, Sandip Bhaskar, Maka Dong, Nave Assaf, Shahar Mor, Omer Ullman Argov, Scot Junkin, Oleksandr Romanenko, Pedro Larroy, Monika Katariya, Marco Rovinelli, Viji Balas, Nicholas Edelman, Anahita Bhiwandiwalla, Muthu Subramaniam, Smita Ithape, Karthik Ramamoorthy, Yuting Wu, Suguna Varshini Velury, Omri Almog, Joyjit Daw, Denys Fridman, Erick Galinkin, Michael Evans, Katherine Luna, Leon Derczynski, Nikki Pope, Eileen Long, Seth Schneider, Guillermo Siman, Tomasz Grzegorzek, Pablo Ribalta, Monika Katariya, Joey Conway, Trisha Saar, Ann Guan, Krzysztof Pawelec, Shyamala Prayaga, Oleksii Kuchaiev, Boris Ginsburg, Oluwatobi Olabiyi, Kari Briski, Jonathan Cohen, Bryan Catanzaro, Jonah Alben, Yonatan Geifman, Eric Chung

Nous présentons la série de modèles Llama-Nemotron, une famille ouverte de modèles de raisonnement hétérogènes offrant des capacités de raisonnement exceptionnelles, une efficacité d'inférence et une licence ouverte pour un usage en entreprise. Cette famille se décline en trois tailles — Nano (8B), Super (49B) et Ultra (253B) — et rivalise avec les modèles de raisonnement les plus avancés, tels que DeepSeek-R1, tout en offrant un débit d'inférence et une efficacité mémoire supérieurs. Dans ce rapport, nous décrivons la procédure d'entraînement de ces modèles, qui inclut une recherche d'architecture neuronale à partir des modèles Llama 3 pour accélérer l'inférence, une distillation de connaissances et un pré-entraînement continu, suivi d'une étape de post-entraînement axée sur le raisonnement, composée de deux parties principales : un réglage fin supervisé et un apprentissage par renforcement à grande échelle. Les modèles Llama-Nemotron sont les premiers modèles open-source à prendre en charge une bascule dynamique de raisonnement, permettant aux utilisateurs de passer entre un mode de discussion standard et un mode de raisonnement pendant l'inférence. Pour soutenir davantage la recherche ouverte et faciliter le développement de modèles, nous mettons à disposition les ressources suivantes : 1. Nous publions les modèles de raisonnement Llama-Nemotron — LN-Nano, LN-Super et LN-Ultra — sous la licence commerciale permissive NVIDIA Open Model License Agreement. 2. Nous publions l'ensemble complet du jeu de données de post-entraînement : Llama-Nemotron-Post-Training-Dataset. 3. Nous publions également nos bases de code d'entraînement : NeMo, NeMo-Aligner et Megatron-LM.

Amélioration de l'éditabilité dans la génération d'images avec une mémoire par couches
Improving Editability in Image Generation with Layer-wise Memory

May 2

ByDaneul Kim, Jaeah Lee, Jaesik Park

La plupart des tâches de retouche d'images dans le monde réel nécessitent des modifications séquentielles multiples pour obtenir les résultats souhaités. Les approches actuelles de retouche, principalement conçues pour des modifications sur un seul objet, peinent à gérer les éditions séquentielles : notamment en maintenant les modifications précédentes tout en intégrant naturellement de nouveaux objets dans le contenu existant. Ces limitations entravent considérablement les scénarios de retouche complexes où plusieurs objets doivent être modifiés tout en préservant leurs relations contextuelles. Nous abordons ce défi fondamental à travers deux propositions clés : permettre des masques approximatifs qui préservent le contenu existant tout en intégrant naturellement de nouveaux éléments, et soutenir une retouche cohérente à travers plusieurs modifications. Notre cadre réalise cela grâce à une mémoire par couches, qui stocke les représentations latentes et les embeddings de prompts des modifications précédentes. Nous proposons un Guidage de Cohérence de l'Arrière-plan qui exploite les latents mémorisés pour maintenir la cohérence de la scène, ainsi qu'une Désentrelacement Multi-Requête dans l'attention croisée qui assure une adaptation naturelle au contenu existant. Pour évaluer notre méthode, nous présentons un nouveau jeu de données de référence intégrant des métriques d'alignement sémantique et des scénarios de retouche interactive. À travers des expériences approfondies, nous démontrons une performance supérieure dans les tâches de retouche itérative d'images avec un effort utilisateur minimal, nécessitant uniquement des masques approximatifs tout en maintenant des résultats de haute qualité à travers plusieurs étapes de retouche.

Au-delà de l'approche universelle : L'apprentissage par inversion pour des prompts d'évaluation de la génération de langage naturel hautement efficaces
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

Apr 29

ByHanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin

L'évaluation des systèmes de génération de langage naturel (NLG) est complexe en raison de la diversité des sorties valides. Bien que l'évaluation humaine soit considérée comme la référence, elle souffre d'incohérences, d'un manque de standardisation et de biais démographiques, limitant ainsi la reproductibilité. L'évaluation basée sur les modèles de langage (LLM) offre une alternative évolutive, mais elle est très sensible à la conception des prompts, où de petites variations peuvent entraîner des divergences significatives. Dans ce travail, nous proposons une méthode d'apprentissage par inversion qui apprend des correspondances inverses efficaces entre les sorties du modèle et leurs instructions d'entrée, permettant la génération automatique de prompts d'évaluation hautement efficaces et spécifiques au modèle. Notre méthode ne nécessite qu'un seul échantillon d'évaluation et élimine le besoin d'un laborieux ajustement manuel des prompts, améliorant ainsi à la fois l'efficacité et la robustesse. Notre contribution ouvre une nouvelle voie pour une évaluation basée sur les LLM plus robuste et efficace.

Lacunes réelles dans la recherche sur la gouvernance de l'intelligence artificielle
Real-World Gaps in AI Governance Research

Apr 30

ByIlan Strauss, Isobel Moure, Tim O'Reilly, Sruly Rosenblat

En nous appuyant sur 1 178 articles traitant de la sécurité et de la fiabilité, extraits de 9 439 articles sur l’IA générative (janvier 2020 - mars 2025), nous comparons les productions de recherche des principales entreprises en IA (Anthropic, Google DeepMind, Meta, Microsoft et OpenAI) et des universités spécialisées en IA (CMU, MIT, NYU, Stanford, UC Berkeley et University of Washington). Nous constatons que la recherche en IA menée par les entreprises se concentre de plus en plus sur des domaines pré-déploiement, tels que l’alignement des modèles et les tests & évaluations, tandis que l’attention portée aux problèmes liés au déploiement, comme les biais des modèles, s’est affaiblie. D’importantes lacunes de recherche subsistent dans des domaines de déploiement à haut risque, notamment la santé, la finance, la désinformation, les fonctionnalités persuasives et addictives, les hallucinations et les questions de droits d’auteur. Sans une meilleure observabilité des systèmes d’IA déployés, la concentration croissante des entreprises pourrait accentuer les déficits de connaissances. Nous recommandons d’élargir l’accès des chercheurs externes aux données de déploiement et de mettre en place une observabilité systématique des comportements des IA en situation réelle.

CORG : Génération de réponses à partir de contextes complexes et interdépendants
CORG: Generating Answers from Complex, Interrelated Contexts

Apr 25

ByHyunji Lee, Franck Dernoncourt, Trung Bui, Seunghyun Yoon

Dans un corpus réel, les connaissances réapparaissent fréquemment à travers les documents, mais contiennent souvent des incohérences dues à des désignations ambiguës, des informations obsolètes ou des erreurs, ce qui entraîne des interrelations complexes entre les contextes. Les recherches précédentes ont montré que les modèles de langage peinent à gérer ces complexités, se concentrant généralement sur des facteurs isolés. Nous classons ces relations en quatre types : distrayantes, ambiguës, contrefactuelles et dupliquées. Notre analyse révèle qu’aucune approche unique ne parvient à traiter efficacement toutes ces interrelations simultanément. Par conséquent, nous introduisons Context Organizer (CORG), un cadre qui organise plusieurs contextes en groupes traités de manière indépendante. Cette conception permet au modèle de trouver efficacement toutes les réponses pertinentes tout en assurant une désambiguïsation. CORG se compose de trois éléments clés : un constructeur de graphe, un rerankeur et un agrégateur. Nos résultats démontrent que CORG équilibre efficacement performance et efficacité, surpassant les méthodes de regroupement existantes et obtenant des résultats comparables à des approches plus intensives en calcul, basées sur un contexte unique.

X-Cross : Intégration dynamique de modèles de langage pour la recommandation séquentielle interdomaine
X-Cross: Dynamic Integration of Language Models for Cross-Domain Sequential Recommendation

Apr 29

ByGuy Hadad, Haggai Roitman, Yotam Eshel, Bracha Shapira, Lior Rokach

Avec l'émergence quotidienne de nouveaux produits, les systèmes de recommandation doivent s'adapter rapidement à de nouveaux domaines potentiels sans nécessiter un réentraînement approfondi. Ce travail présente « X-Cross » — un nouveau modèle de recommandation séquentielle interdomaine qui recommande des produits dans de nouveaux domaines en intégrant plusieurs modèles de langage spécifiques à un domaine ; chaque modèle est affiné à l'aide d'adaptateurs à faible rang (LoRA). Étant donné une incitation de recommandation, en opérant couche par couche, X-Cross affine dynamiquement la représentation de chaque modèle de langage source en intégrant les connaissances de tous les autres modèles. Ces représentations raffinées sont propagées d'une couche à l'autre, en exploitant les activations de chaque adaptateur de domaine pour préserver les nuances spécifiques à chaque domaine tout en permettant une adaptabilité interdomaine. En utilisant des ensembles de données Amazon pour la recommandation séquentielle, X-Cross atteint des performances comparables à un modèle affiné avec LoRA, tout en utilisant seulement 25 % des paramètres supplémentaires. Dans les tâches interdomaines, comme l'adaptation du domaine des Jouets à celui des Outils, de l'Électronique ou des Sports, X-Cross démontre une performance robuste, tout en nécessitant environ 50 % à 75 % moins de données d'affinage que LoRA pour rendre l'affinage efficace. De plus, X-Cross obtient une amélioration significative de la précision par rapport aux alternatives interdomaines de référence. Globalement, X-Cross permet des recommandations interdomaines évolutives et adaptatives, réduisant la surcharge computationnelle et offrant une solution efficace pour les environnements contraints en données.

TeLoGraF : Planification logique temporelle via appariement de flux encodé par graphe
TeLoGraF: Temporal Logic Planning via Graph-encoded Flow Matching

May 1

ByYue Meng, Chuchu Fan

Apprendre à résoudre des tâches complexes avec des spécifications de logique temporelle des signaux (STL) est crucial pour de nombreuses applications réelles. Cependant, la plupart des travaux précédents ne considèrent que des spécifications STL fixes ou paramétrées en raison de l'absence d'un ensemble de données STL diversifié et d'encodeurs capables d'extraire efficacement les informations de logique temporelle pour les tâches en aval. Dans cet article, nous proposons TeLoGraF, Temporal Logic Graph-encoded Flow, qui utilise un encodeur basé sur les réseaux de neurones graphiques (GNN) et la correspondance de flux pour apprendre des solutions pour des spécifications STL générales. Nous identifions quatre modèles STL couramment utilisés et collectons un total de 200K spécifications accompagnées de démonstrations. Nous menons des expériences approfondies dans cinq environnements de simulation, allant de modèles dynamiques simples dans l'espace 2D à des systèmes de haute dimension comme le bras robotique Franka Panda à 7 degrés de liberté et la navigation du quadrupède Ant. Les résultats montrent que notre méthode surpasse les autres approches de référence en termes de taux de satisfaction des spécifications STL. Par rapport aux algorithmes classiques de planification STL, notre approche est 10 à 100 fois plus rapide en inférence et peut fonctionner avec n'importe quelle dynamique de système. De plus, nous démontrons la capacité de notre méthode d'encodage graphique à résoudre des STL complexes et sa robustesse face à des spécifications STL hors distribution. Le code est disponible à l'adresse suivante : https://github.com/mengyuest/TeLoGraF.