Articles de Recherche IA Quotidiens

Articles de recherche IA sélectionnés quotidiennement avec traductions

Agent de Modèle de Langage à Grande Échelle : Une Étude sur la Méthodologie, les Applications et les Défis
Large Language Model Agent: A Survey on Methodology, Applications and Challenges

Mar 27

ByJunyu Luo, Weizhi Zhang, Ye Yuan, Yusheng Zhao, Junwei Yang, Yiyang Gu, Bohan Wu, Binqi Chen, Ziyue Qiao, Qingqing Long, Rongcheng Tu, Xiao Luo, Wei Ju, Zhiping Xiao, Yifan Wang, Meng Xiao, Chenwu Liu, Jingyang Yuan, Shichang Zhang, Yiqiao Jin, Fan Zhang, Xian Wu, Hanqing Zhao, Dacheng Tao, Philip S. Yu, Ming Zhang

L'ère des agents intelligents est à nos portes, propulsée par des avancées révolutionnaires dans les modèles de langage de grande envergure. Les agents basés sur les grands modèles de langage (LLM), dotés de comportements orientés vers des objectifs et de capacités d'adaptation dynamique, représentent potentiellement une voie cruciale vers l'intelligence artificielle générale. Cette étude déconstruit systématiquement les systèmes d'agents LLM à travers une taxonomie centrée sur la méthodologie, reliant les fondements architecturaux, les mécanismes de collaboration et les trajectoires évolutives. Nous unifions les fils de recherche fragmentés en révélant les connexions fondamentales entre les principes de conception des agents et leurs comportements émergents dans des environnements complexes. Notre travail offre une perspective architecturale unifiée, examinant comment les agents sont construits, comment ils collaborent et comment ils évoluent au fil du temps, tout en abordant les méthodologies d'évaluation, les applications d'outils, les défis pratiques et les divers domaines d'application. En passant en revue les derniers développements dans ce domaine en évolution rapide, nous proposons aux chercheurs une taxonomie structurée pour comprendre les agents LLM et identifions des directions prometteuses pour les recherches futures. La collection est disponible à l'adresse suivante : https://github.com/luo-junyu/Awesome-Agent-Papers.

Video-R1 : Renforcement du raisonnement vidéo dans les MLLMs
Video-R1: Reinforcing Video Reasoning in MLLMs

Mar 27

ByKaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue

Inspirés par le succès de DeepSeek-R1 dans l'élicitation des capacités de raisonnement grâce à l'apprentissage par renforcement (RL) basé sur des règles, nous introduisons Video-R1 comme première tentative d'exploration systématique du paradigme R1 pour l'élicitation du raisonnement vidéo au sein des modèles de langage multimodaux de grande taille (MLLMs). Cependant, l'application directe de l'entraînement RL avec l'algorithme GRPO au raisonnement vidéo présente deux défis majeurs : (i) un manque de modélisation temporelle pour le raisonnement vidéo, et (ii) la rareté de données de haute qualité pour le raisonnement vidéo. Pour résoudre ces problèmes, nous proposons d'abord l'algorithme T-GRPO, qui encourage les modèles à utiliser les informations temporelles des vidéos pour le raisonnement. De plus, au lieu de s'appuyer uniquement sur des données vidéo, nous intégrons des données de raisonnement sur images de haute qualité dans le processus d'entraînement. Nous avons construit deux ensembles de données : Video-R1-COT-165k pour le démarrage à froid SFT et Video-R1-260k pour l'entraînement RL, tous deux comprenant des données d'images et de vidéos. Les résultats expérimentaux montrent que Video-R1 obtient des améliorations significatives sur les benchmarks de raisonnement vidéo tels que VideoMMMU et VSI-Bench, ainsi que sur des benchmarks vidéo généraux incluant MVBench et TempCompass, etc. Notamment, Video-R1-7B atteint une précision de 35,8 % sur le benchmark de raisonnement spatial vidéo VSI-bench, surpassant le modèle propriétaire commercial GPT-4o. Tous les codes, modèles et données sont publiés.

UI-R1 : Amélioration de la prédiction d'actions des agents d'interface graphique par apprentissage par renforcement
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

Mar 27

ByZhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li

Le récent modèle DeepSeek-R1 a démontré l'émergence de capacités de raisonnement dans les grands modèles de langage (LLMs) grâce à l'apprentissage par renforcement (RL) avec des récompenses basées sur des règles. En nous appuyant sur cette idée, nous sommes les premiers à explorer comment le RL basé sur des règles peut améliorer les capacités de raisonnement des grands modèles de langage multimodaux (MLLMs) pour les tâches de prédiction d'actions sur les interfaces graphiques utilisateur (GUI). À cette fin, nous avons constitué un petit ensemble de données de haute qualité comprenant 136 tâches complexes, couvrant cinq types d'actions courantes sur les appareils mobiles. Nous introduisons également une récompense d'action unifiée basée sur des règles, permettant l'optimisation du modèle via des algorithmes basés sur des politiques tels que l'Optimisation Relative de Politique par Groupe (GRPO). Les résultats expérimentaux montrent que notre modèle économe en données, UI-R1-3B, réalise des améliorations substantielles sur les tâches intra-domaines (ID) et hors-domaines (OOD). Plus précisément, sur le benchmark ID AndroidControl, la précision du type d'action s'améliore de 15 %, tandis que la précision de localisation augmente de 10,3 %, par rapport au modèle de base (c'est-à-dire Qwen2.5-VL-3B). Sur le benchmark OOD de localisation GUI ScreenSpot-Pro, notre modèle dépasse le modèle de base de 6,0 % et atteint des performances compétitives avec des modèles plus grands (par exemple, OS-Atlas-7B), qui sont entraînés via un ajustement fin supervisé (SFT) sur 76K données. Ces résultats soulignent le potentiel de l'apprentissage par renforcement basé sur des règles pour faire progresser la compréhension et le contrôle des GUI, ouvrant la voie à de futures recherches dans ce domaine.

Repousser les limites du raisonnement : un benchmark de niveau olympiade en mathématiques pour les grands modèles de langage
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models

Mar 27

ByHaoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen

Ces dernières années, le développement rapide des grands modèles de raisonnement a entraîné la saturation des benchmarks existants pour l'évaluation du raisonnement mathématique, mettant en lumière le besoin urgent de cadres d'évaluation plus exigeants et rigoureux. Pour combler cette lacune, nous présentons OlymMATH, un nouveau benchmark mathématique de niveau Olympiade, conçu pour tester rigoureusement les capacités de raisonnement complexe des LLM. OlymMATH propose 200 problèmes soigneusement sélectionnés, chacun vérifié manuellement et disponible en versions parallèles en anglais et en chinois. Les problèmes sont systématiquement organisés en deux niveaux de difficulté distincts : (1) des problèmes de niveau AIME (faciles) qui établissent une base pour l'évaluation du raisonnement mathématique, et (2) des problèmes nettement plus difficiles conçus pour repousser les limites des modèles actuels les plus avancés. Dans notre benchmark, ces problèmes couvrent quatre domaines mathématiques fondamentaux, chacun incluant une solution numérique vérifiable pour permettre une évaluation objective et basée sur des règles. Les résultats empiriques soulignent le défi significatif posé par OlymMATH, avec des modèles de pointe tels que DeepSeek-R1 et o3-mini d'OpenAI montrant une précision notablement limitée sur le sous-ensemble difficile. De plus, le benchmark facilite une évaluation bilingue complète des capacités de raisonnement mathématique - une dimension critique qui reste largement négligée dans les benchmarks de raisonnement mathématique grand public. Nous publions le benchmark OlymMATH dans le cadre du projet STILL : https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

VBench-2.0 : Progression de la suite de benchmarks pour la génération vidéo en matière de fidélité intrinsèque
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness

Mar 27

ByDian Zheng, Ziqi Huang, Hongbo Liu, Kai Zou, Yinan He, Fan Zhang, Yuanhan Zhang, Jingwen He, Wei-Shi Zheng, Yu Qiao, Ziwei Liu

La génération vidéo a considérablement progressé, évoluant de la production de résultats irréalistes à la création de vidéos visuellement convaincantes et temporellement cohérentes. Pour évaluer ces modèles génératifs vidéo, des benchmarks tels que VBench ont été développés pour mesurer leur fidélité, en prenant en compte des facteurs comme l'esthétique par image, la cohérence temporelle et l'adhésion basique aux prompts. Cependant, ces aspects représentent principalement une fidélité superficielle, qui se concentre sur l'apparence visuellement convaincante de la vidéo plutôt que sur son adhésion aux principes du monde réel. Bien que les modèles récents performent de mieux en mieux sur ces métriques, ils peinent encore à générer des vidéos qui ne sont pas seulement visuellement plausibles, mais fondamentalement réalistes. Pour atteindre de véritables "modèles du monde" via la génération vidéo, la prochaine frontière réside dans la fidélité intrinsèque, afin de garantir que les vidéos générées respectent les lois physiques, le raisonnement de bon sens, la justesse anatomique et l'intégrité compositionnelle. Atteindre ce niveau de réalisme est essentiel pour des applications telles que la réalisation de films assistée par l'IA et la modélisation de mondes simulés. Pour combler cette lacune, nous présentons VBench-2.0, un benchmark de nouvelle génération conçu pour évaluer automatiquement les modèles génératifs vidéo en termes de fidélité intrinsèque. VBench-2.0 évalue cinq dimensions clés : Fidélité Humaine, Contrôlabilité, Créativité, Physique et Bon Sens, chacune étant ensuite décomposée en capacités plus fines. Adapté à chaque dimension, notre cadre d'évaluation intègre des généralistes tels que les VLMs et LLMs de pointe, ainsi que des spécialistes, incluant des méthodes de détection d'anomalies proposées pour la génération vidéo. Nous réalisons des annotations approfondies pour garantir l'alignement avec le jugement humain. En allant au-delà de la fidélité superficielle vers la fidélité intrinsèque, VBench-2.0 vise à établir une nouvelle norme pour la prochaine génération de modèles génératifs vidéo dans la quête de la fidélité intrinsèque.

ReaRAG : Le raisonnement guidé par la connaissance améliore la factualité des grands modèles de raisonnement grâce à une génération augmentée par itération et récupération
ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation

Mar 27

ByZhicheng Lee, Shulin Cao, Jinxin Liu, Jiajie Zhang, Weichuan Liu, Xiaoyin Che, Lei Hou, Juanzi Li

Les modèles de raisonnement à grande échelle (LRMs) démontrent des capacités de raisonnement remarquables, mais reposent principalement sur des connaissances paramétriques, ce qui limite leur précision factuelle. Bien que des travaux récents aient doté les LRMs basés sur l'apprentissage par renforcement (RL) de capacités de recherche, ils souffrent de surréflexion et manquent de robustesse dans leur raisonnement, réduisant ainsi leur efficacité dans les tâches de question-réponse (QA). Pour remédier à cela, nous proposons ReaRAG, un modèle de raisonnement amélioré en termes de factualité, qui explore des requêtes variées sans itérations excessives. Notre solution inclut un nouveau cadre de construction de données avec une limite supérieure sur la longueur de la chaîne de raisonnement. Plus précisément, nous utilisons d'abord un LRM pour générer une réflexion délibérée, puis sélectionnons une action dans un espace d'actions prédéfini (Rechercher et Terminer). Pour l'action Rechercher, une requête est exécutée via le moteur RAG, où le résultat est renvoyé comme observation pour guider les étapes de raisonnement ultérieures. Ce processus itère jusqu'à ce qu'une action Terminer soit choisie. Grâce aux solides capacités de raisonnement de ReaRAG, notre approche surpasse les modèles de référence existants dans les tâches de QA multi-sauts. Une analyse approfondie met en évidence sa forte capacité réflexive à reconnaître les erreurs et à affiner sa trajectoire de raisonnement. Notre étude améliore la factualité des LRMs tout en intégrant efficacement un raisonnement robuste pour la Génération Augmentée par Recherche (RAG).

ChatAnyone : Génération stylisée en temps réel de vidéos de portraits avec un modèle hiérarchique de diffusion de mouvement
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model

Mar 27

ByJinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo

Les portraits vidéo interactifs en temps réel sont de plus en plus reconnus comme la tendance future, notamment grâce aux progrès remarquables réalisés dans les technologies de chat textuel et vocal. Cependant, les méthodes existantes se concentrent principalement sur la génération en temps réel des mouvements de la tête, mais peinent à produire des mouvements corporels synchronisés avec ces actions de la tête. De plus, obtenir un contrôle précis du style de parole et des nuances des expressions faciales reste un défi. Pour répondre à ces limitations, nous introduisons un nouveau cadre pour la génération stylisée de portraits vidéo en temps réel, permettant un chat vidéo expressif et flexible, allant de la tête parlante à l'interaction du haut du corps. Notre approche se compose des deux étapes suivantes. La première étape implique des modèles de diffusion de mouvement hiérarchiques efficaces, qui prennent en compte à la fois des représentations explicites et implicites du mouvement basées sur des entrées audio, pouvant générer une variété d'expressions faciales avec un contrôle stylistique et une synchronisation entre les mouvements de la tête et du corps. La seconde étape vise à générer des vidéos de portrait incluant des mouvements du haut du corps, y compris des gestes des mains. Nous injectons des signaux de contrôle explicites des mains dans le générateur pour produire des mouvements de main plus détaillés, et effectuons en outre un raffinement du visage pour améliorer le réalisme et l'expressivité globale de la vidéo de portrait. De plus, notre approche supporte une génération efficace et continue de vidéos de portrait du haut du corps en résolution maximale de 512 * 768 à jusqu'à 30 images par seconde sur une GPU 4090, permettant un chat vidéo interactif en temps réel. Les résultats expérimentaux démontrent la capacité de notre approche à produire des vidéos de portrait avec une expressivité riche et des mouvements naturels du haut du corps.

LeX-Art : Repenser la génération de texte via une synthèse de données haute qualité et évolutive
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

Mar 27

ByShitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li

Nous présentons LeX-Art, une suite complète pour la synthèse texte-image de haute qualité qui comble systématiquement l'écart entre l'expressivité des prompts et la fidélité du rendu textuel. Notre approche suit un paradigme centré sur les données, en construisant un pipeline de synthèse de données de haute qualité basé sur Deepseek-R1 pour constituer LeX-10K, un ensemble de 10 000 images haute résolution (1024×1024) esthétiquement raffinées. Au-delà de la construction du jeu de données, nous développons LeX-Enhancer, un modèle robuste d'enrichissement de prompts, et entraînons deux modèles de génération texte-image, LeX-FLUX et LeX-Lumina, atteignant des performances de pointe en matière de rendu textuel. Pour évaluer systématiquement la génération de texte visuel, nous introduisons LeX-Bench, un benchmark qui évalue la fidélité, l'esthétique et l'alignement, complété par la Distance d'Édition Normalisée par Paire (PNED), une nouvelle métrique pour une évaluation robuste de la précision textuelle. Les expériences démontrent des améliorations significatives, avec LeX-Lumina obtenant un gain de 79,81 % en PNED sur CreateBench, et LeX-FLUX surpassant les modèles de référence en précision des couleurs (+3,18 %), de positionnement (+4,45 %) et de police (+3,81 %). Nos codes, modèles, jeux de données et démonstration sont disponibles publiquement.

Embodied-Reasoner : Synergie entre recherche visuelle, raisonnement et action pour les tâches interactives incarnées
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

Mar 27

ByWenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang

Les récents progrès des modèles de pensée profonde ont démontré des capacités de raisonnement remarquables sur des tâches mathématiques et de codage. Cependant, leur efficacité dans des domaines incarnés, qui nécessitent une interaction continue avec des environnements à travers des trajectoires entrelacées d'images et d'actions, reste largement inexplorée. Nous présentons Embodied Reasoner, un modèle qui étend le raisonnement de style o1 à des tâches de recherche interactives et incarnées. Contrairement au raisonnement mathématique qui repose principalement sur la déduction logique, les scénarios incarnés exigent une compréhension spatiale, un raisonnement temporel et une auto-réflexion continue basée sur l'historique des interactions. Pour relever ces défis, nous synthétisons 9,3k trajectoires cohérentes Observation-Pensée-Action contenant 64k images interactives et 90k processus de pensée divers (analyse, raisonnement spatial, réflexion, planification et vérification). Nous développons un pipeline d'entraînement en trois étapes qui améliore progressivement les capacités du modèle à travers l'apprentissage par imitation, l'auto-exploration via l'échantillonnage par rejet et l'auto-correction par réglage réflexif. L'évaluation montre que notre modèle surpasse significativement les modèles avancés de raisonnement visuel, par exemple, il dépasse OpenAI o1, o3-mini et Claude-3.7 de +9\%, 24\% et +13\%. L'analyse révèle que notre modèle présente moins de recherches répétées et d'incohérences logiques, avec des avantages particuliers dans les tâches complexes à long terme. Les environnements réels montrent également notre supériorité tout en présentant moins de cas de recherches répétées et d'incohérences logiques.

Lumina-Image 2.0 : Un Cadre Unifié et Efficace pour la Génération d'Images
Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

Mar 27

ByQi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Jiakang Yuan, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Manyuan Zhang, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Conghui He, Bo Zhang, Xiaohong Liu, Hongsheng Li, Yu Qiao, Chang Xu, Peng Gao

Nous présentons Lumina-Image 2.0, un cadre avancé de génération d'images à partir de texte qui marque une avancée significative par rapport au travail précédent, Lumina-Next. Lumina-Image 2.0 repose sur deux principes clés : (1) Unification - il adopte une architecture unifiée (Unified Next-DiT) qui traite les tokens de texte et d'image comme une séquence conjointe, permettant des interactions intermodales naturelles et une expansion fluide des tâches. Par ailleurs, puisque des systèmes de légendage de haute qualité peuvent fournir des paires texte-image sémantiquement bien alignées, nous introduisons un système de légendage unifié, Unified Captioner (UniCap), spécialement conçu pour les tâches de génération T2I. UniCap excelle dans la génération de légendes complètes et précises, accélérant la convergence et améliorant l'adhésion aux prompts. (2) Efficacité - pour améliorer l'efficacité de notre modèle proposé, nous développons des stratégies d'entraînement progressif multi-étapes et introduisons des techniques d'accélération de l'inférence sans compromettre la qualité des images. Des évaluations approfondies sur des benchmarks académiques et des arènes publiques de génération texte-image montrent que Lumina-Image 2.0 offre des performances solides avec seulement 2,6 milliards de paramètres, mettant en avant son évolutivité et son efficacité de conception. Nous avons publié nos détails d'entraînement, notre code et nos modèles sur https://github.com/Alpha-VLLM/Lumina-Image-2.0.

ResearchBench : Évaluation des LLM dans la découverte scientifique via la décomposition de tâches basée sur l'inspiration
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

Mar 27

ByYujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou

Les grands modèles de langage (LLMs) ont démontré un potentiel pour assister la recherche scientifique, mais leur capacité à découvrir des hypothèses de recherche de haute qualité reste inexplorée en raison de l'absence de benchmark dédié. Pour combler cette lacune, nous introduisons le premier benchmark à grande échelle pour évaluer les LLMs avec un ensemble quasi-complet de sous-tâches de découverte scientifique : la récupération d'inspiration, la composition d'hypothèses et le classement d'hypothèses. Nous développons un cadre automatisé qui extrait les composants critiques - questions de recherche, revues de littérature, inspirations et hypothèses - à partir d'articles scientifiques couvrant 12 disciplines, avec une validation experte confirmant sa précision. Pour éviter la contamination des données, nous nous concentrons exclusivement sur les articles publiés en 2024, garantissant un chevauchement minimal avec les données de pré-entraînement des LLMs. Notre évaluation révèle que les LLMs performent bien dans la récupération d'inspirations, une tâche hors distribution, suggérant leur capacité à faire émerger des associations de connaissances novatrices. Cela positionne les LLMs comme des "mines d'hypothèses de recherche", capables de faciliter la découverte scientifique automatisée en générant des hypothèses innovantes à grande échelle avec un minimum d'intervention humaine.

FinAudio : Un benchmark pour les modèles de langage audio de grande envergure dans les applications financières
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications

Mar 26

ByYupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie

Les modèles de langage audio de grande envergure (AudioLLMs) ont suscité une attention considérable et ont considérablement amélioré les performances sur des tâches audio telles que la conversation, la compréhension audio et la reconnaissance automatique de la parole (ASR). Malgré ces avancées, il manque un benchmark pour évaluer les AudioLLMs dans des scénarios financiers, où les données audio, telles que les conférences téléphoniques sur les résultats et les discours des PDG, constituent des ressources cruciales pour l'analyse financière et les décisions d'investissement. Dans cet article, nous présentons FinAudio, le premier benchmark conçu pour évaluer les capacités des AudioLLMs dans le domaine financier. Nous définissons d'abord trois tâches basées sur les caractéristiques uniques du domaine financier : 1) ASR pour les audios financiers courts, 2) ASR pour les audios financiers longs, et 3) la synthèse des audios financiers longs. Ensuite, nous constituons respectivement deux ensembles de données audio courts et deux ensembles de données audio longs, et développons un nouvel ensemble de données pour la synthèse des audios financiers, formant ainsi le benchmark FinAudio. Nous évaluons ensuite sept AudioLLMs répandus sur FinAudio. Notre évaluation révèle les limites des AudioLLMs existants dans le domaine financier et propose des pistes pour les améliorer. Tous les ensembles de données et les codes seront rendus publics.

La vidéo synthétique améliore la fidélité physique dans la synthèse vidéo.
Synthetic Video Enhances Physical Fidelity in Video Synthesis

Mar 26

ByQi Zhao, Xingyu Ni, Ziyu Wang, Feng Cheng, Ziyan Yang, Lu Jiang, Bohan Wang

Nous étudions comment améliorer la fidélité physique des modèles de génération de vidéos en exploitant des vidéos synthétiques issues de pipelines de synthèse d'images par ordinateur. Ces vidéos rendues respectent les lois physiques du monde réel, comme la cohérence 3D, et constituent une ressource précieuse pouvant potentiellement améliorer les modèles de génération de vidéos. Pour exploiter ce potentiel, nous proposons une solution qui organise et intègre des données synthétiques tout en introduisant une méthode pour transférer leur réalisme physique au modèle, réduisant ainsi significativement les artefacts indésirables. À travers des expériences sur trois tâches représentatives mettant l'accent sur la cohérence physique, nous démontrons son efficacité à améliorer la fidélité physique. Bien que notre modèle manque encore d'une compréhension approfondie de la physique, notre travail offre l'une des premières démonstrations empiriques que les vidéos synthétiques améliorent la fidélité physique dans la synthèse vidéo. Site web : https://kevinz8866.github.io/simulation/

Pas optimal pour l'échantillonnage par diffusion
Optimal Stepsize for Diffusion Sampling

Mar 27

ByJianning Pei, Han Hu, Shuyang Gu

Les modèles de diffusion atteignent une qualité de génération remarquable mais souffrent d'un échantillonnage intensif en calcul en raison d'une discrétisation des étapes sous-optimale. Alors que les travaux existants se concentrent sur l'optimisation des directions de débruitage, nous abordons la conception rigoureuse des plans de pas. Cet article propose l'Optimal Stepsize Distillation, un cadre de programmation dynamique qui extrait des plans théoriquement optimaux en distillant des connaissances à partir de trajectoires de référence. En reformulant l'optimisation des pas comme une minimisation récursive de l'erreur, notre méthode garantit des bornes globales de discrétisation grâce à l'exploitation de sous-structures optimales. De manière cruciale, les plans distillés démontrent une robustesse forte à travers les architectures, les solveurs d'équations différentielles ordinaires (ODE) et les plans de bruit. Les expériences montrent une accélération par 10 de la génération texte-image tout en préservant 99,4 % des performances sur GenEval. Notre code est disponible à l'adresse https://github.com/bebebe666/OptimalSteps.

Exploration de l'évolution de la cognition physique dans la génération de vidéos : une étude
Exploring the Evolution of Physics Cognition in Video Generation: A Survey

Mar 27

ByMinghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin Wang

Les récents progrès dans la génération vidéo ont connu des avancées significatives, notamment avec le développement rapide des modèles de diffusion. Malgré cela, leurs lacunes en matière de cognition physique ont progressivement attiré une attention croissante - le contenu généré viole souvent les lois fondamentales de la physique, tombant dans le piège du "réalisme visuel mais de l'absurdité physique". Les chercheurs ont commencé à reconnaître de plus en plus l'importance de la fidélité physique dans la génération vidéo et ont tenté d'intégrer des heuristiques de cognition physique, telles que les représentations du mouvement et les connaissances physiques, dans les systèmes génératifs pour simuler des scénarios dynamiques réalistes. Considérant le manque d'une vue d'ensemble systématique dans ce domaine, cette étude vise à fournir un résumé complet des architectures de conception et de leurs applications pour combler cette lacune. Plus précisément, nous discutons et organisons le processus évolutif de la cognition physique dans la génération vidéo d'un point de vue des sciences cognitives, tout en proposant une taxonomie à trois niveaux : 1) perception de schéma de base pour la génération, 2) cognition passive des connaissances physiques pour la génération, et 3) cognition active pour la simulation du monde, englobant les méthodes de pointe, les paradigmes classiques et les benchmarks. Par la suite, nous mettons en évidence les défis clés inhérents à ce domaine et décrivons les voies potentielles pour les recherches futures, contribuant à faire progresser les frontières de la discussion tant dans le milieu académique que dans l'industrie. Grâce à une revue structurée et à une analyse interdisciplinaire, cette étude vise à fournir des orientations pour le développement de paradigmes de génération vidéo interprétables, contrôlables et physiquement cohérents, propulsant ainsi les modèles génératifs du stade de "l'imitation visuelle" vers une nouvelle phase de "compréhension physique humaine".

Feature4X : Relier n'importe quelle vidéo monoculaire à une IA agentique 4D grâce à des champs de caractéristiques gaussiens polyvalents
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

Mar 26

ByShijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta Kadambi

Les récentes avancées dans les modèles 2D et multimodaux ont obtenu des succès remarquables en exploitant un entraînement à grande échelle sur des ensembles de données étendus. Cependant, étendre ces réalisations pour permettre des interactions libres et des opérations sémantiques de haut niveau avec des scènes 3D/4D complexes reste un défi. Cette difficulté découle de la disponibilité limitée de grands ensembles de données 3D/4D ou multi-vues annotés, qui sont cruciaux pour des tâches généralisables de vision et de langage telles que la segmentation à vocabulaire ouvert et basée sur des prompts, l'édition guidée par le langage, et la réponse à des questions visuelles (VQA). Dans cet article, nous présentons Feature4X, un cadre universel conçu pour étendre toute fonctionnalité d'un modèle de fondation de vision 2D au domaine 4D, en utilisant uniquement une entrée vidéo monoculaire, largement disponible dans le contenu généré par les utilisateurs. Le "X" dans Feature4X représente sa polyvalence, permettant toute tâche grâce à une distillation adaptable de champs de caractéristiques 4D conditionnés par le modèle. Au cœur de notre cadre se trouve une stratégie d'optimisation dynamique qui unifie plusieurs capacités de modèles en une seule représentation. De plus, à notre connaissance, Feature4X est la première méthode à distiller et à élever les caractéristiques des modèles de fondation vidéo (par exemple, SAM2, InternVideo2) dans un champ de caractéristiques 4D explicite en utilisant le Gaussian Splatting. Nos expériences mettent en avant la segmentation de nouvelles vues, l'édition géométrique et d'apparence de scènes, et la VQA libre à travers toutes les étapes temporelles, renforcées par des LLM dans des boucles de rétroaction. Ces avancées élargissent le champ des applications de l'IA agentique en fournissant une base pour des systèmes évolutifs, conscients du contexte et spatio-temporellement, capables d'interactions immersives avec des scènes dynamiques 4D.

Adaptation de bibliothèque sémantique : Récupération et fusion LoRA pour la segmentation sémantique à vocabulaire ouvert
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation

Mar 27

ByReza Qorbani, Gianluca Villani, Theodoros Panagiotakopoulos, Marc Botet Colomer, Linus Härenstam-Nielsen, Mattia Segu, Pier Luigi Dovesi, Jussi Karlgren, Daniel Cremers, Federico Tombari, Matteo Poggi

Les modèles de segmentation sémantique à vocabulaire ouvert associent vision et texte pour étiqueter les pixels à partir d'un ensemble indéfini de classes en utilisant des requêtes textuelles, offrant ainsi une performance polyvalente sur de nouveaux ensembles de données. Cependant, de grands écarts entre les domaines d'entraînement et de test dégradent leurs performances, nécessitant un ajustement fin pour des applications efficaces dans le monde réel. Nous introduisons Semantic Library Adaptation (SemLA), un nouveau cadre pour l'adaptation de domaine au moment du test sans entraînement supplémentaire. SemLA exploite une bibliothèque d'adaptateurs basés sur LoRA indexés avec des embeddings CLIP, fusionnant dynamiquement les adaptateurs les plus pertinents en fonction de leur proximité avec le domaine cible dans l'espace d'embedding. Cette approche construit un modèle ad hoc adapté à chaque entrée spécifique sans entraînement supplémentaire. Notre méthode est efficacement scalable, améliore l'explicabilité en suivant les contributions des adaptateurs, et protège intrinsèquement la confidentialité des données, la rendant idéale pour les applications sensibles. Des expériences approfondies sur un benchmark de 20 domaines construit à partir de 10 ensembles de données standard démontrent la supériorité de SemLA en termes d'adaptabilité et de performance dans divers contextes, établissant une nouvelle norme dans l'adaptation de domaine pour la segmentation sémantique à vocabulaire ouvert.

Diffusion Discrète Multimodale Unifiée
Unified Multimodal Discrete Diffusion

Mar 26

ByAlexander Swerdlow, Mihir Prabhudesai, Siddharth Gandhi, Deepak Pathak, Katerina Fragkiadaki

Les modèles génératifs multimodaux capables de comprendre et de générer des contenus à travers plusieurs modalités sont principalement dominés par les approches autorégressives (AR), qui traitent les tokens de manière séquentielle, de gauche à droite ou de haut en bas. Ces modèles gèrent conjointement des images, du texte, des vidéos et de l'audio pour diverses tâches telles que la génération de légendes d'images, la réponse à des questions et la génération d'images. Dans ce travail, nous explorons les modèles de diffusion discrets comme une formulation générative unifiée dans le domaine conjoint du texte et de l'image, en nous appuyant sur leur récent succès dans la génération de texte. Les modèles de diffusion discrets offrent plusieurs avantages par rapport aux modèles AR, notamment un meilleur contrôle sur la qualité par rapport à la diversité des échantillons générés, la capacité à effectuer un inpainting multimodal conjoint (à la fois dans les domaines du texte et de l'image), et une plus grande contrôlabilité dans la génération grâce à des mécanismes de guidage. En tirant parti de ces avantages, nous présentons le premier modèle de Diffusion Discrète Multimodale Unifiée (UniDisc) capable de comprendre et de générer conjointement du texte et des images pour une variété de tâches en aval. Nous comparons UniDisc aux modèles AR multimodaux, en effectuant une analyse d'échelle et en démontrant qu'UniDisc les surpasse en termes de performance, de calcul au moment de l'inférence, de contrôlabilité accrue, d'éditabilité, d'inpainting et de compromis flexible entre le temps d'inférence et la qualité de génération. Le code et des visualisations supplémentaires sont disponibles à l'adresse https://unidisc.github.io.

ZJUKLAB à SemEval-2025 Tâche 4 : Désapprentissage via fusion de modèles
ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging

Mar 27

ByHaoming Xu, Shuxun Wang, Yanqiu Zhao, Yi Zhong, Ziyan Jiang, Ningyuan Zhao, Shumin Deng, Huajun Chen, Ningyu Zhang

Cet article présente la soumission de l'équipe ZJUKLAB pour la tâche 4 de SemEval-2025 : L'effacement de contenu sensible dans les grands modèles de langage. Cette tâche vise à supprimer de manière sélective les connaissances sensibles des grands modèles de langage, en évitant à la fois les problèmes de sur-effacement et de sous-effacement. Nous proposons un système d'effacement qui exploite la fusion de modèles (notamment TIES-Merging), combinant deux modèles spécialisés en un modèle effacé plus équilibré. Notre système obtient des résultats compétitifs, se classant deuxième parmi 26 équipes, avec un score en ligne de 0,944 pour l'agrégat de la tâche et de 0,487 pour l'agrégat global. Dans cet article, nous menons également des expériences locales et effectuons une analyse approfondie du processus d'effacement, en examinant les trajectoires de performance, la dynamique des pertes et les perspectives des poids, ainsi que plusieurs expériences complémentaires, afin de comprendre l'efficacité de notre méthode. De plus, nous analysons les lacunes de notre méthode et des métriques d'évaluation, en soulignant que les scores MIA et les métriques basées sur ROUGE ne suffisent pas à eux seuls à évaluer pleinement la réussite de l'effacement. Enfin, nous insistons sur la nécessité de méthodologies d'évaluation plus complètes et d'une révision des objectifs d'effacement dans les recherches futures. Le code est disponible à l'adresse suivante : https://github.com/zjunlp/unlearn/tree/main/semeval25.

LLPut : Exploration des modèles de langage de grande taille pour la génération d'entrées basées sur des rapports de bogues
LLPut: Investigating Large Language Models for Bug Report-Based Input Generation

Mar 26

ByAlif Al Hasan, Subarna Saha, Mia Mohammad Imran, Tarannum Shaila Zaman

Les entrées provoquant des défaillances jouent un rôle crucial dans le diagnostic et l'analyse des bogues logiciels. Les rapports de bogues contiennent généralement ces entrées, que les développeurs extraient pour faciliter le débogage. Étant donné que les rapports de bogues sont rédigés en langage naturel, les recherches antérieures ont exploité diverses techniques de traitement du langage naturel (NLP) pour l'extraction automatisée des entrées. Avec l'avènement des modèles de langage de grande taille (LLMs), une question de recherche importante se pose : dans quelle mesure les LLMs génératifs peuvent-ils extraire efficacement les entrées provoquant des défaillances à partir des rapports de bogues ? Dans cet article, nous proposons LLPut, une technique pour évaluer empiriquement les performances de trois LLMs génératifs open-source — LLaMA, Qwen et Qwen-Coder — dans l'extraction des entrées pertinentes à partir des rapports de bogues. Nous menons une évaluation expérimentale sur un ensemble de données de 206 rapports de bogues pour évaluer la précision et l'efficacité de ces modèles. Nos résultats apportent des éclairages sur les capacités et les limites des LLMs génératifs dans le diagnostic automatisé des bogues.

Tracktention : Exploiter le suivi de points pour analyser les vidéos plus rapidement et plus efficacement
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better

Mar 25

ByZihang Lai, Andrea Vedaldi

La cohérence temporelle est cruciale dans la prédiction vidéo pour garantir que les sorties soient cohérentes et exemptes d'artefacts. Les méthodes traditionnelles, telles que l'attention temporelle et la convolution 3D, peuvent rencontrer des difficultés face à des mouvements d'objets significatifs et ne parviennent pas toujours à capturer les dépendances temporelles à long terme dans des scènes dynamiques. Pour combler cette lacune, nous proposons la couche Tracktention, un nouveau composant architectural qui intègre explicitement les informations de mouvement en utilisant des pistes de points, c'est-à-dire des séquences de points correspondants à travers les images. En incorporant ces indices de mouvement, la couche Tracktention améliore l'alignement temporel et gère efficacement les mouvements complexes d'objets, maintenant des représentations de caractéristiques cohérentes dans le temps. Notre approche est efficace sur le plan computationnel et peut être intégrée de manière transparente dans des modèles existants, tels que les Vision Transformers, avec des modifications minimales. Elle permet de transformer des modèles conçus uniquement pour les images en modèles vidéo de pointe, surpassant parfois même les modèles conçus spécifiquement pour la prédiction vidéo. Nous démontrons cela sur des tâches de prédiction de profondeur vidéo et de colorisation vidéo, où les modèles enrichis par la couche Tracktention montrent une cohérence temporelle nettement améliorée par rapport aux modèles de référence.

LOCATEdit : Attention Croisée Optimisée par Laplacien de Graphe pour l'Édition Localisée d'Images Guidée par Texte
LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing

Mar 27

ByAchint Soni, Meet Soni, Sirisha Rambhatla

L'édition d'images guidée par texte vise à modifier des régions spécifiques d'une image selon des instructions en langage naturel tout en préservant la structure générale et la fidélité de l'arrière-plan. Les méthodes existantes utilisent des masques dérivés de cartes d'attention croisée générées par des modèles de diffusion pour identifier les régions cibles à modifier. Cependant, comme les mécanismes d'attention croisée se concentrent sur la pertinence sémantique, ils peinent à maintenir l'intégrité de l'image. Par conséquent, ces méthodes manquent souvent de cohérence spatiale, entraînant des artefacts et des distorsions lors de l'édition. Dans ce travail, nous abordons ces limitations et introduisons LOCATEdit, qui améliore les cartes d'attention croisée grâce à une approche basée sur des graphes exploitant les relations entre patches dérivées de l'auto-attention. Cela permet de maintenir une attention fluide et cohérente à travers les régions de l'image, garantissant que les modifications se limitent aux éléments désignés tout en conservant la structure environnante. \method surpasse systématiquement et significativement les méthodes de référence sur PIE-Bench, démontrant ses performances de pointe et son efficacité sur diverses tâches d'édition. Le code est disponible sur https://github.com/LOCATEdit/LOCATEdit/.

Articles de Recherche IA Quotidiens

Articles de recherche IA sélectionnés quotidiennement avec traductions

Agent de Modèle de Langage à Grande Échelle : Une Étude sur la Méthodologie, les Applications et les Défis
Large Language Model Agent: A Survey on Methodology, Applications and Challenges

Mar 27

Video-R1 : Renforcement du raisonnement vidéo dans les MLLMs
Video-R1: Reinforcing Video Reasoning in MLLMs

Mar 27

ByKaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue

UI-R1 : Amélioration de la prédiction d'actions des agents d'interface graphique par apprentissage par renforcement
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

Mar 27

ByZhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li

Repousser les limites du raisonnement : un benchmark de niveau olympiade en mathématiques pour les grands modèles de langage
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models

Mar 27

ByHaoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen

VBench-2.0 : Progression de la suite de benchmarks pour la génération vidéo en matière de fidélité intrinsèque
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness

Mar 27

ByDian Zheng, Ziqi Huang, Hongbo Liu, Kai Zou, Yinan He, Fan Zhang, Yuanhan Zhang, Jingwen He, Wei-Shi Zheng, Yu Qiao, Ziwei Liu

ReaRAG : Le raisonnement guidé par la connaissance améliore la factualité des grands modèles de raisonnement grâce à une génération augmentée par itération et récupération
ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation

Mar 27

ByZhicheng Lee, Shulin Cao, Jinxin Liu, Jiajie Zhang, Weichuan Liu, Xiaoyin Che, Lei Hou, Juanzi Li

ChatAnyone : Génération stylisée en temps réel de vidéos de portraits avec un modèle hiérarchique de diffusion de mouvement
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model

Mar 27

ByJinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo

LeX-Art : Repenser la génération de texte via une synthèse de données haute qualité et évolutive
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

Mar 27

ByShitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li

Embodied-Reasoner : Synergie entre recherche visuelle, raisonnement et action pour les tâches interactives incarnées
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

Mar 27

ByWenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang

Lumina-Image 2.0 : Un Cadre Unifié et Efficace pour la Génération d'Images
Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

Mar 27

ResearchBench : Évaluation des LLM dans la découverte scientifique via la décomposition de tâches basée sur l'inspiration
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

Mar 27

ByYujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou

FinAudio : Un benchmark pour les modèles de langage audio de grande envergure dans les applications financières
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications

Mar 26

ByYupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie