Articles de recherche en IA sélectionnés quotidiennement avec traductions
Inspirés par le succès de DeepSeek-R1 dans l'élicitation des capacités de raisonnement grâce à l'apprentissage par renforcement (RL) basé sur des règles, nous introduisons Video-R1 comme première tentative d'exploration systématique du paradigme R1 pour l'élicitation du raisonnement vidéo au sein des modèles de langage multimodaux de grande taille (MLLMs). Cependant, l'application directe de l'entraînement RL avec l'algorithme GRPO au raisonnement vidéo présente deux défis majeurs : (i) un manque de modélisation temporelle pour le raisonnement vidéo, et (ii) la rareté de données de haute qualité pour le raisonnement vidéo. Pour résoudre ces problèmes, nous proposons d'abord l'algorithme T-GRPO, qui encourage les modèles à utiliser les informations temporelles des vidéos pour le raisonnement. De plus, au lieu de s'appuyer uniquement sur des données vidéo, nous intégrons des données de raisonnement sur images de haute qualité dans le processus d'entraînement. Nous avons construit deux ensembles de données : Video-R1-COT-165k pour le démarrage à froid SFT et Video-R1-260k pour l'entraînement RL, tous deux comprenant des données d'images et de vidéos. Les résultats expérimentaux montrent que Video-R1 obtient des améliorations significatives sur les benchmarks de raisonnement vidéo tels que VideoMMMU et VSI-Bench, ainsi que sur des benchmarks vidéo généraux incluant MVBench et TempCompass, etc. Notamment, Video-R1-7B atteint une précision de 35,8 % sur le benchmark de raisonnement spatial vidéo VSI-bench, surpassant le modèle propriétaire commercial GPT-4o. Tous les codes, modèles et données sont publiés.
L'ère des agents intelligents est à nos portes, propulsée par des avancées révolutionnaires dans les modèles de langage de grande envergure. Les agents basés sur les grands modèles de langage (LLM), dotés de comportements orientés vers des objectifs et de capacités d'adaptation dynamique, représentent potentiellement une voie cruciale vers l'intelligence artificielle générale. Cette étude déconstruit systématiquement les systèmes d'agents LLM à travers une taxonomie centrée sur la méthodologie, reliant les fondements architecturaux, les mécanismes de collaboration et les trajectoires évolutives. Nous unifions les fils de recherche fragmentés en révélant les connexions fondamentales entre les principes de conception des agents et leurs comportements émergents dans des environnements complexes. Notre travail offre une perspective architecturale unifiée, examinant comment les agents sont construits, comment ils collaborent et comment ils évoluent au fil du temps, tout en abordant les méthodologies d'évaluation, les applications d'outils, les défis pratiques et les divers domaines d'application. En passant en revue les derniers développements dans ce domaine en évolution rapide, nous proposons aux chercheurs une taxonomie structurée pour comprendre les agents LLM et identifions des directions prometteuses pour les recherches futures. La collection est disponible à l'adresse suivante : https://github.com/luo-junyu/Awesome-Agent-Papers.
Le récent modèle DeepSeek-R1 a démontré l'émergence de capacités de raisonnement dans les grands modèles de langage (LLMs) grâce à l'apprentissage par renforcement (RL) avec des récompenses basées sur des règles. En nous appuyant sur cette idée, nous sommes les premiers à explorer comment le RL basé sur des règles peut améliorer les capacités de raisonnement des grands modèles de langage multimodaux (MLLMs) pour les tâches de prédiction d'actions sur les interfaces graphiques utilisateur (GUI). À cette fin, nous avons constitué un petit ensemble de données de haute qualité comprenant 136 tâches complexes, couvrant cinq types d'actions courantes sur les appareils mobiles. Nous introduisons également une récompense d'action unifiée basée sur des règles, permettant l'optimisation du modèle via des algorithmes basés sur des politiques tels que l'Optimisation Relative de Politique par Groupe (GRPO). Les résultats expérimentaux montrent que notre modèle économe en données, UI-R1-3B, réalise des améliorations substantielles sur les tâches intra-domaines (ID) et hors-domaines (OOD). Plus précisément, sur le benchmark ID AndroidControl, la précision du type d'action s'améliore de 15 %, tandis que la précision de localisation augmente de 10,3 %, par rapport au modèle de base (c'est-à-dire Qwen2.5-VL-3B). Sur le benchmark OOD de localisation GUI ScreenSpot-Pro, notre modèle dépasse le modèle de base de 6,0 % et atteint des performances compétitives avec des modèles plus grands (par exemple, OS-Atlas-7B), qui sont entraînés via un ajustement fin supervisé (SFT) sur 76K données. Ces résultats soulignent le potentiel de l'apprentissage par renforcement basé sur des règles pour faire progresser la compréhension et le contrôle des GUI, ouvrant la voie à de futures recherches dans ce domaine.
Ces dernières années, le développement rapide des grands modèles de raisonnement a entraîné la saturation des benchmarks existants pour l'évaluation du raisonnement mathématique, mettant en lumière le besoin urgent de cadres d'évaluation plus exigeants et rigoureux. Pour combler cette lacune, nous présentons OlymMATH, un nouveau benchmark mathématique de niveau Olympiade, conçu pour tester rigoureusement les capacités de raisonnement complexe des LLM. OlymMATH propose 200 problèmes soigneusement sélectionnés, chacun vérifié manuellement et disponible en versions parallèles en anglais et en chinois. Les problèmes sont systématiquement organisés en deux niveaux de difficulté distincts : (1) des problèmes de niveau AIME (faciles) qui établissent une base pour l'évaluation du raisonnement mathématique, et (2) des problèmes nettement plus difficiles conçus pour repousser les limites des modèles actuels les plus avancés. Dans notre benchmark, ces problèmes couvrent quatre domaines mathématiques fondamentaux, chacun incluant une solution numérique vérifiable pour permettre une évaluation objective et basée sur des règles. Les résultats empiriques soulignent le défi significatif posé par OlymMATH, avec des modèles de pointe tels que DeepSeek-R1 et o3-mini d'OpenAI montrant une précision notablement limitée sur le sous-ensemble difficile. De plus, le benchmark facilite une évaluation bilingue complète des capacités de raisonnement mathématique - une dimension critique qui reste largement négligée dans les benchmarks de raisonnement mathématique grand public. Nous publions le benchmark OlymMATH dans le cadre du projet STILL : https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
La génération vidéo a considérablement progressé, évoluant de la production de résultats irréalistes à la création de vidéos visuellement convaincantes et temporellement cohérentes. Pour évaluer ces modèles génératifs vidéo, des benchmarks tels que VBench ont été développés pour mesurer leur fidélité, en prenant en compte des facteurs comme l'esthétique par image, la cohérence temporelle et l'adhésion basique aux prompts. Cependant, ces aspects représentent principalement une fidélité superficielle, qui se concentre sur l'apparence visuellement convaincante de la vidéo plutôt que sur son adhésion aux principes du monde réel. Bien que les modèles récents performent de mieux en mieux sur ces métriques, ils peinent encore à générer des vidéos qui ne sont pas seulement visuellement plausibles, mais fondamentalement réalistes. Pour atteindre de véritables "modèles du monde" via la génération vidéo, la prochaine frontière réside dans la fidélité intrinsèque, afin de garantir que les vidéos générées respectent les lois physiques, le raisonnement de bon sens, la justesse anatomique et l'intégrité compositionnelle. Atteindre ce niveau de réalisme est essentiel pour des applications telles que la réalisation de films assistée par l'IA et la modélisation de mondes simulés. Pour combler cette lacune, nous présentons VBench-2.0, un benchmark de nouvelle génération conçu pour évaluer automatiquement les modèles génératifs vidéo en termes de fidélité intrinsèque. VBench-2.0 évalue cinq dimensions clés : Fidélité Humaine, Contrôlabilité, Créativité, Physique et Bon Sens, chacune étant ensuite décomposée en capacités plus fines. Adapté à chaque dimension, notre cadre d'évaluation intègre des généralistes tels que les VLMs et LLMs de pointe, ainsi que des spécialistes, incluant des méthodes de détection d'anomalies proposées pour la génération vidéo. Nous réalisons des annotations approfondies pour garantir l'alignement avec le jugement humain. En allant au-delà de la fidélité superficielle vers la fidélité intrinsèque, VBench-2.0 vise à établir une nouvelle norme pour la prochaine génération de modèles génératifs vidéo dans la quête de la fidélité intrinsèque.
Les modèles de raisonnement à grande échelle (LRMs) démontrent des capacités de raisonnement remarquables, mais reposent principalement sur des connaissances paramétriques, ce qui limite leur précision factuelle. Bien que des travaux récents aient doté les LRMs basés sur l'apprentissage par renforcement (RL) de capacités de recherche, ils souffrent de surréflexion et manquent de robustesse dans leur raisonnement, réduisant ainsi leur efficacité dans les tâches de question-réponse (QA). Pour remédier à cela, nous proposons ReaRAG, un modèle de raisonnement amélioré en termes de factualité, qui explore des requêtes variées sans itérations excessives. Notre solution inclut un nouveau cadre de construction de données avec une limite supérieure sur la longueur de la chaîne de raisonnement. Plus précisément, nous utilisons d'abord un LRM pour générer une réflexion délibérée, puis sélectionnons une action dans un espace d'actions prédéfini (Rechercher et Terminer). Pour l'action Rechercher, une requête est exécutée via le moteur RAG, où le résultat est renvoyé comme observation pour guider les étapes de raisonnement ultérieures. Ce processus itère jusqu'à ce qu'une action Terminer soit choisie. Grâce aux solides capacités de raisonnement de ReaRAG, notre approche surpasse les modèles de référence existants dans les tâches de QA multi-sauts. Une analyse approfondie met en évidence sa forte capacité réflexive à reconnaître les erreurs et à affiner sa trajectoire de raisonnement. Notre étude améliore la factualité des LRMs tout en intégrant efficacement un raisonnement robuste pour la Génération Augmentée par Recherche (RAG).
Nous présentons LeX-Art, une suite complète pour la synthèse texte-image de haute qualité qui comble systématiquement l'écart entre l'expressivité des prompts et la fidélité du rendu textuel. Notre approche suit un paradigme centré sur les données, en construisant un pipeline de synthèse de données de haute qualité basé sur Deepseek-R1 pour constituer LeX-10K, un ensemble de 10 000 images haute résolution (1024×1024) esthétiquement raffinées. Au-delà de la construction du jeu de données, nous développons LeX-Enhancer, un modèle robuste d'enrichissement de prompts, et entraînons deux modèles de génération texte-image, LeX-FLUX et LeX-Lumina, atteignant des performances de pointe en matière de rendu textuel. Pour évaluer systématiquement la génération de texte visuel, nous introduisons LeX-Bench, un benchmark qui évalue la fidélité, l'esthétique et l'alignement, complété par la Distance d'Édition Normalisée par Paire (PNED), une nouvelle métrique pour une évaluation robuste de la précision textuelle. Les expériences démontrent des améliorations significatives, avec LeX-Lumina obtenant un gain de 79,81 % en PNED sur CreateBench, et LeX-FLUX surpassant les modèles de référence en précision des couleurs (+3,18 %), de positionnement (+4,45 %) et de police (+3,81 %). Nos codes, modèles, jeux de données et démonstration sont disponibles publiquement.
Les portraits vidéo interactifs en temps réel sont de plus en plus reconnus comme la tendance future, notamment grâce aux progrès remarquables réalisés dans les technologies de chat textuel et vocal. Cependant, les méthodes existantes se concentrent principalement sur la génération en temps réel des mouvements de la tête, mais peinent à produire des mouvements corporels synchronisés avec ces actions de la tête. De plus, obtenir un contrôle précis du style de parole et des nuances des expressions faciales reste un défi. Pour répondre à ces limitations, nous introduisons un nouveau cadre pour la génération stylisée de portraits vidéo en temps réel, permettant un chat vidéo expressif et flexible, allant de la tête parlante à l'interaction du haut du corps. Notre approche se compose des deux étapes suivantes. La première étape implique des modèles de diffusion de mouvement hiérarchiques efficaces, qui prennent en compte à la fois des représentations explicites et implicites du mouvement basées sur des entrées audio, pouvant générer une variété d'expressions faciales avec un contrôle stylistique et une synchronisation entre les mouvements de la tête et du corps. La seconde étape vise à générer des vidéos de portrait incluant des mouvements du haut du corps, y compris des gestes des mains. Nous injectons des signaux de contrôle explicites des mains dans le générateur pour produire des mouvements de main plus détaillés, et effectuons en outre un raffinement du visage pour améliorer le réalisme et l'expressivité globale de la vidéo de portrait. De plus, notre approche supporte une génération efficace et continue de vidéos de portrait du haut du corps en résolution maximale de 512 * 768 à jusqu'à 30 images par seconde sur une GPU 4090, permettant un chat vidéo interactif en temps réel. Les résultats expérimentaux démontrent la capacité de notre approche à produire des vidéos de portrait avec une expressivité riche et des mouvements naturels du haut du corps.
Nous présentons Lumina-Image 2.0, un cadre avancé de génération d'images à partir de texte qui marque une avancée significative par rapport au travail précédent, Lumina-Next. Lumina-Image 2.0 repose sur deux principes clés : (1) Unification - il adopte une architecture unifiée (Unified Next-DiT) qui traite les tokens de texte et d'image comme une séquence conjointe, permettant des interactions intermodales naturelles et une expansion fluide des tâches. Par ailleurs, puisque des systèmes de légendage de haute qualité peuvent fournir des paires texte-image sémantiquement bien alignées, nous introduisons un système de légendage unifié, Unified Captioner (UniCap), spécialement conçu pour les tâches de génération T2I. UniCap excelle dans la génération de légendes complètes et précises, accélérant la convergence et améliorant l'adhésion aux prompts. (2) Efficacité - pour améliorer l'efficacité de notre modèle proposé, nous développons des stratégies d'entraînement progressif multi-étapes et introduisons des techniques d'accélération de l'inférence sans compromettre la qualité des images. Des évaluations approfondies sur des benchmarks académiques et des arènes publiques de génération texte-image montrent que Lumina-Image 2.0 offre des performances solides avec seulement 2,6 milliards de paramètres, mettant en avant son évolutivité et son efficacité de conception. Nous avons publié nos détails d'entraînement, notre code et nos modèles sur https://github.com/Alpha-VLLM/Lumina-Image-2.0.
Les récents progrès des modèles de pensée profonde ont démontré des capacités de raisonnement remarquables sur des tâches mathématiques et de codage. Cependant, leur efficacité dans des domaines incarnés, qui nécessitent une interaction continue avec des environnements à travers des trajectoires entrelacées d'images et d'actions, reste largement inexplorée. Nous présentons Embodied Reasoner, un modèle qui étend le raisonnement de style o1 à des tâches de recherche interactives et incarnées. Contrairement au raisonnement mathématique qui repose principalement sur la déduction logique, les scénarios incarnés exigent une compréhension spatiale, un raisonnement temporel et une auto-réflexion continue basée sur l'historique des interactions. Pour relever ces défis, nous synthétisons 9,3k trajectoires cohérentes Observation-Pensée-Action contenant 64k images interactives et 90k processus de pensée divers (analyse, raisonnement spatial, réflexion, planification et vérification). Nous développons un pipeline d'entraînement en trois étapes qui améliore progressivement les capacités du modèle à travers l'apprentissage par imitation, l'auto-exploration via l'échantillonnage par rejet et l'auto-correction par réglage réflexif. L'évaluation montre que notre modèle surpasse significativement les modèles avancés de raisonnement visuel, par exemple, il dépasse OpenAI o1, o3-mini et Claude-3.7 de +9\%, 24\% et +13\%. L'analyse révèle que notre modèle présente moins de recherches répétées et d'incohérences logiques, avec des avantages particuliers dans les tâches complexes à long terme. Les environnements réels montrent également notre supériorité tout en présentant moins de cas de recherches répétées et d'incohérences logiques.
Les grands modèles de langage (LLMs) ont démontré un potentiel pour assister la recherche scientifique, mais leur capacité à découvrir des hypothèses de recherche de haute qualité reste inexplorée en raison de l'absence de benchmark dédié. Pour combler cette lacune, nous introduisons le premier benchmark à grande échelle pour évaluer les LLMs avec un ensemble quasi-complet de sous-tâches de découverte scientifique : la récupération d'inspiration, la composition d'hypothèses et le classement d'hypothèses. Nous développons un cadre automatisé qui extrait les composants critiques - questions de recherche, revues de littérature, inspirations et hypothèses - à partir d'articles scientifiques couvrant 12 disciplines, avec une validation experte confirmant sa précision. Pour éviter la contamination des données, nous nous concentrons exclusivement sur les articles publiés en 2024, garantissant un chevauchement minimal avec les données de pré-entraînement des LLMs. Notre évaluation révèle que les LLMs performent bien dans la récupération d'inspirations, une tâche hors distribution, suggérant leur capacité à faire émerger des associations de connaissances novatrices. Cela positionne les LLMs comme des "mines d'hypothèses de recherche", capables de faciliter la découverte scientifique automatisée en générant des hypothèses innovantes à grande échelle avec un minimum d'intervention humaine.
Les modèles de langage audio de grande envergure (AudioLLMs) ont suscité une attention considérable et ont considérablement amélioré les performances sur des tâches audio telles que la conversation, la compréhension audio et la reconnaissance automatique de la parole (ASR). Malgré ces avancées, il manque un benchmark pour évaluer les AudioLLMs dans des scénarios financiers, où les données audio, telles que les conférences téléphoniques sur les résultats et les discours des PDG, constituent des ressources cruciales pour l'analyse financière et les décisions d'investissement. Dans cet article, nous présentons FinAudio, le premier benchmark conçu pour évaluer les capacités des AudioLLMs dans le domaine financier. Nous définissons d'abord trois tâches basées sur les caractéristiques uniques du domaine financier : 1) ASR pour les audios financiers courts, 2) ASR pour les audios financiers longs, et 3) la synthèse des audios financiers longs. Ensuite, nous constituons respectivement deux ensembles de données audio courts et deux ensembles de données audio longs, et développons un nouvel ensemble de données pour la synthèse des audios financiers, formant ainsi le benchmark FinAudio. Nous évaluons ensuite sept AudioLLMs répandus sur FinAudio. Notre évaluation révèle les limites des AudioLLMs existants dans le domaine financier et propose des pistes pour les améliorer. Tous les ensembles de données et les codes seront rendus publics.
Nous étudions comment améliorer la fidélité physique des modèles de génération de vidéos en exploitant des vidéos synthétiques issues de pipelines de synthèse d'images par ordinateur. Ces vidéos rendues respectent les lois physiques du monde réel, comme la cohérence 3D, et constituent une ressource précieuse pouvant potentiellement améliorer les modèles de génération de vidéos. Pour exploiter ce potentiel, nous proposons une solution qui organise et intègre des données synthétiques tout en introduisant une méthode pour transférer leur réalisme physique au modèle, réduisant ainsi significativement les artefacts indésirables. À travers des expériences sur trois tâches représentatives mettant l'accent sur la cohérence physique, nous démontrons son efficacité à améliorer la fidélité physique. Bien que notre modèle manque encore d'une compréhension approfondie de la physique, notre travail offre l'une des premières démonstrations empiriques que les vidéos synthétiques améliorent la fidélité physique dans la synthèse vidéo. Site web : https://kevinz8866.github.io/simulation/
Les modèles de diffusion atteignent une qualité de génération remarquable mais souffrent d'un échantillonnage intensif en calcul en raison d'une discrétisation des étapes sous-optimale. Alors que les travaux existants se concentrent sur l'optimisation des directions de débruitage, nous abordons la conception rigoureuse des plans de pas. Cet article propose l'Optimal Stepsize Distillation, un cadre de programmation dynamique qui extrait des plans théoriquement optimaux en distillant des connaissances à partir de trajectoires de référence. En reformulant l'optimisation des pas comme une minimisation récursive de l'erreur, notre méthode garantit des bornes globales de discrétisation grâce à l'exploitation de sous-structures optimales. De manière cruciale, les plans distillés démontrent une robustesse forte à travers les architectures, les solveurs d'équations différentielles ordinaires (ODE) et les plans de bruit. Les expériences montrent une accélération par 10 de la génération texte-image tout en préservant 99,4 % des performances sur GenEval. Notre code est disponible à l'adresse https://github.com/bebebe666/OptimalSteps.
Les récents progrès dans la génération vidéo ont connu des avancées significatives, notamment avec le développement rapide des modèles de diffusion. Malgré cela, leurs lacunes en matière de cognition physique ont progressivement attiré une attention croissante - le contenu généré viole souvent les lois fondamentales de la physique, tombant dans le piège du "réalisme visuel mais de l'absurdité physique". Les chercheurs ont commencé à reconnaître de plus en plus l'importance de la fidélité physique dans la génération vidéo et ont tenté d'intégrer des heuristiques de cognition physique, telles que les représentations du mouvement et les connaissances physiques, dans les systèmes génératifs pour simuler des scénarios dynamiques réalistes. Considérant le manque d'une vue d'ensemble systématique dans ce domaine, cette étude vise à fournir un résumé complet des architectures de conception et de leurs applications pour combler cette lacune. Plus précisément, nous discutons et organisons le processus évolutif de la cognition physique dans la génération vidéo d'un point de vue des sciences cognitives, tout en proposant une taxonomie à trois niveaux : 1) perception de schéma de base pour la génération, 2) cognition passive des connaissances physiques pour la génération, et 3) cognition active pour la simulation du monde, englobant les méthodes de pointe, les paradigmes classiques et les benchmarks. Par la suite, nous mettons en évidence les défis clés inhérents à ce domaine et décrivons les voies potentielles pour les recherches futures, contribuant à faire progresser les frontières de la discussion tant dans le milieu académique que dans l'industrie. Grâce à une revue structurée et à une analyse interdisciplinaire, cette étude vise à fournir des orientations pour le développement de paradigmes de génération vidéo interprétables, contrôlables et physiquement cohérents, propulsant ainsi les modèles génératifs du stade de "l'imitation visuelle" vers une nouvelle phase de "compréhension physique humaine".
Les modèles de segmentation sémantique à vocabulaire ouvert associent vision et texte pour étiqueter les pixels à partir d'un ensemble indéfini de classes en utilisant des requêtes textuelles, offrant ainsi une performance polyvalente sur de nouveaux ensembles de données. Cependant, de grands écarts entre les domaines d'entraînement et de test dégradent leurs performances, nécessitant un ajustement fin pour des applications efficaces dans le monde réel. Nous introduisons Semantic Library Adaptation (SemLA), un nouveau cadre pour l'adaptation de domaine au moment du test sans entraînement supplémentaire. SemLA exploite une bibliothèque d'adaptateurs basés sur LoRA indexés avec des embeddings CLIP, fusionnant dynamiquement les adaptateurs les plus pertinents en fonction de leur proximité avec le domaine cible dans l'espace d'embedding. Cette approche construit un modèle ad hoc adapté à chaque entrée spécifique sans entraînement supplémentaire. Notre méthode est efficacement scalable, améliore l'explicabilité en suivant les contributions des adaptateurs, et protège intrinsèquement la confidentialité des données, la rendant idéale pour les applications sensibles. Des expériences approfondies sur un benchmark de 20 domaines construit à partir de 10 ensembles de données standard démontrent la supériorité de SemLA en termes d'adaptabilité et de performance dans divers contextes, établissant une nouvelle norme dans l'adaptation de domaine pour la segmentation sémantique à vocabulaire ouvert.
Les modèles génératifs multimodaux capables de comprendre et de générer des contenus à travers plusieurs modalités sont principalement dominés par les approches autorégressives (AR), qui traitent les tokens de manière séquentielle, de gauche à droite ou de haut en bas. Ces modèles gèrent conjointement des images, du texte, des vidéos et de l'audio pour diverses tâches telles que la génération de légendes d'images, la réponse à des questions et la génération d'images. Dans ce travail, nous explorons les modèles de diffusion discrets comme une formulation générative unifiée dans le domaine conjoint du texte et de l'image, en nous appuyant sur leur récent succès dans la génération de texte. Les modèles de diffusion discrets offrent plusieurs avantages par rapport aux modèles AR, notamment un meilleur contrôle sur la qualité par rapport à la diversité des échantillons générés, la capacité à effectuer un inpainting multimodal conjoint (à la fois dans les domaines du texte et de l'image), et une plus grande contrôlabilité dans la génération grâce à des mécanismes de guidage. En tirant parti de ces avantages, nous présentons le premier modèle de Diffusion Discrète Multimodale Unifiée (UniDisc) capable de comprendre et de générer conjointement du texte et des images pour une variété de tâches en aval. Nous comparons UniDisc aux modèles AR multimodaux, en effectuant une analyse d'échelle et en démontrant qu'UniDisc les surpasse en termes de performance, de calcul au moment de l'inférence, de contrôlabilité accrue, d'éditabilité, d'inpainting et de compromis flexible entre le temps d'inférence et la qualité de génération. Le code et des visualisations supplémentaires sont disponibles à l'adresse https://unidisc.github.io.
Cet article présente la soumission de l'équipe ZJUKLAB pour la tâche 4 de SemEval-2025 : L'effacement de contenu sensible dans les grands modèles de langage. Cette tâche vise à supprimer de manière sélective les connaissances sensibles des grands modèles de langage, en évitant à la fois les problèmes de sur-effacement et de sous-effacement. Nous proposons un système d'effacement qui exploite la fusion de modèles (notamment TIES-Merging), combinant deux modèles spécialisés en un modèle effacé plus équilibré. Notre système obtient des résultats compétitifs, se classant deuxième parmi 26 équipes, avec un score en ligne de 0,944 pour l'agrégat de la tâche et de 0,487 pour l'agrégat global. Dans cet article, nous menons également des expériences locales et effectuons une analyse approfondie du processus d'effacement, en examinant les trajectoires de performance, la dynamique des pertes et les perspectives des poids, ainsi que plusieurs expériences complémentaires, afin de comprendre l'efficacité de notre méthode. De plus, nous analysons les lacunes de notre méthode et des métriques d'évaluation, en soulignant que les scores MIA et les métriques basées sur ROUGE ne suffisent pas à eux seuls à évaluer pleinement la réussite de l'effacement. Enfin, nous insistons sur la nécessité de méthodologies d'évaluation plus complètes et d'une révision des objectifs d'effacement dans les recherches futures. Le code est disponible à l'adresse suivante : https://github.com/zjunlp/unlearn/tree/main/semeval25.
Les récentes avancées dans les modèles 2D et multimodaux ont obtenu des succès remarquables en exploitant un entraînement à grande échelle sur des ensembles de données étendus. Cependant, étendre ces réalisations pour permettre des interactions libres et des opérations sémantiques de haut niveau avec des scènes 3D/4D complexes reste un défi. Cette difficulté découle de la disponibilité limitée de grands ensembles de données 3D/4D ou multi-vues annotés, qui sont cruciaux pour des tâches généralisables de vision et de langage telles que la segmentation à vocabulaire ouvert et basée sur des prompts, l'édition guidée par le langage, et la réponse à des questions visuelles (VQA). Dans cet article, nous présentons Feature4X, un cadre universel conçu pour étendre toute fonctionnalité d'un modèle de fondation de vision 2D au domaine 4D, en utilisant uniquement une entrée vidéo monoculaire, largement disponible dans le contenu généré par les utilisateurs. Le "X" dans Feature4X représente sa polyvalence, permettant toute tâche grâce à une distillation adaptable de champs de caractéristiques 4D conditionnés par le modèle. Au cœur de notre cadre se trouve une stratégie d'optimisation dynamique qui unifie plusieurs capacités de modèles en une seule représentation. De plus, à notre connaissance, Feature4X est la première méthode à distiller et à élever les caractéristiques des modèles de fondation vidéo (par exemple, SAM2, InternVideo2) dans un champ de caractéristiques 4D explicite en utilisant le Gaussian Splatting. Nos expériences mettent en avant la segmentation de nouvelles vues, l'édition géométrique et d'apparence de scènes, et la VQA libre à travers toutes les étapes temporelles, renforcées par des LLM dans des boucles de rétroaction. Ces avancées élargissent le champ des applications de l'IA agentique en fournissant une base pour des systèmes évolutifs, conscients du contexte et spatio-temporellement, capables d'interactions immersives avec des scènes dynamiques 4D.
Les entrées provoquant des défaillances jouent un rôle crucial dans le diagnostic et l'analyse des bogues logiciels. Les rapports de bogues contiennent généralement ces entrées, que les développeurs extraient pour faciliter le débogage. Étant donné que les rapports de bogues sont rédigés en langage naturel, les recherches antérieures ont exploité diverses techniques de traitement du langage naturel (NLP) pour l'extraction automatisée des entrées. Avec l'avènement des modèles de langage de grande taille (LLMs), une question de recherche importante se pose : dans quelle mesure les LLMs génératifs peuvent-ils extraire efficacement les entrées provoquant des défaillances à partir des rapports de bogues ? Dans cet article, nous proposons LLPut, une technique pour évaluer empiriquement les performances de trois LLMs génératifs open-source — LLaMA, Qwen et Qwen-Coder — dans l'extraction des entrées pertinentes à partir des rapports de bogues. Nous menons une évaluation expérimentale sur un ensemble de données de 206 rapports de bogues pour évaluer la précision et l'efficacité de ces modèles. Nos résultats apportent des éclairages sur les capacités et les limites des LLMs génératifs dans le diagnostic automatisé des bogues.
La cohérence temporelle est cruciale dans la prédiction vidéo pour garantir que les sorties soient cohérentes et exemptes d'artefacts. Les méthodes traditionnelles, telles que l'attention temporelle et la convolution 3D, peuvent rencontrer des difficultés face à des mouvements d'objets significatifs et ne parviennent pas toujours à capturer les dépendances temporelles à long terme dans des scènes dynamiques. Pour combler cette lacune, nous proposons la couche Tracktention, un nouveau composant architectural qui intègre explicitement les informations de mouvement en utilisant des pistes de points, c'est-à-dire des séquences de points correspondants à travers les images. En incorporant ces indices de mouvement, la couche Tracktention améliore l'alignement temporel et gère efficacement les mouvements complexes d'objets, maintenant des représentations de caractéristiques cohérentes dans le temps. Notre approche est efficace sur le plan computationnel et peut être intégrée de manière transparente dans des modèles existants, tels que les Vision Transformers, avec des modifications minimales. Elle permet de transformer des modèles conçus uniquement pour les images en modèles vidéo de pointe, surpassant parfois même les modèles conçus spécifiquement pour la prédiction vidéo. Nous démontrons cela sur des tâches de prédiction de profondeur vidéo et de colorisation vidéo, où les modèles enrichis par la couche Tracktention montrent une cohérence temporelle nettement améliorée par rapport aux modèles de référence.
L'édition d'images guidée par texte vise à modifier des régions spécifiques d'une image selon des instructions en langage naturel tout en préservant la structure générale et la fidélité de l'arrière-plan. Les méthodes existantes utilisent des masques dérivés de cartes d'attention croisée générées par des modèles de diffusion pour identifier les régions cibles à modifier. Cependant, comme les mécanismes d'attention croisée se concentrent sur la pertinence sémantique, ils peinent à maintenir l'intégrité de l'image. Par conséquent, ces méthodes manquent souvent de cohérence spatiale, entraînant des artefacts et des distorsions lors de l'édition. Dans ce travail, nous abordons ces limitations et introduisons LOCATEdit, qui améliore les cartes d'attention croisée grâce à une approche basée sur des graphes exploitant les relations entre patches dérivées de l'auto-attention. Cela permet de maintenir une attention fluide et cohérente à travers les régions de l'image, garantissant que les modifications se limitent aux éléments désignés tout en conservant la structure environnante. \method surpasse systématiquement et significativement les méthodes de référence sur PIE-Bench, démontrant ses performances de pointe et son efficacité sur diverses tâches d'édition. Le code est disponible sur https://github.com/LOCATEdit/LOCATEdit/.