Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les couches de normalisation sont omniprésentes dans les réseaux de neurones modernes et ont longtemps été considérées comme essentielles. Ce travail démontre que les Transformers sans normalisation peuvent atteindre des performances équivalentes ou supérieures grâce à une technique remarquablement simple. Nous introduisons le Dynamic Tanh (DyT), une opération élémentaire DyT(x) = tanh(alpha x), comme substitut direct des couches de normalisation dans les Transformers. DyT s'inspire de l'observation que la normalisation de couche dans les Transformers produit souvent des mappages entrée-sortie en forme de S, similaires à la fonction tanh. En intégrant DyT, les Transformers sans normalisation peuvent égaler ou surpasser les performances de leurs homologues normalisés, généralement sans réglage d'hyperparamètres. Nous validons l'efficacité des Transformers avec DyT dans divers contextes, allant de la reconnaissance à la génération, de l'apprentissage supervisé à l'auto-supervisé, et des modèles de vision par ordinateur aux modèles de langage. Ces résultats remettent en question la compréhension conventionnelle selon laquelle les couches de normalisation sont indispensables dans les réseaux de neurones modernes, et offrent de nouvelles perspectives sur leur rôle dans les réseaux profonds.
Avec des millions de réseaux de neurones désormais disponibles publiquement, la recherche et l'analyse de vastes dépôts de modèles deviennent de plus en plus cruciales. Naviguer parmi autant de modèles nécessite un atlas, mais comme la plupart des modèles sont mal documentés, cartographier un tel atlas représente un défi. Pour explorer le potentiel caché des dépôts de modèles, nous avons dressé un atlas préliminaire représentant la fraction documentée de Hugging Face. Celui-ci offre des visualisations saisissantes du paysage et de l'évolution des modèles. Nous démontrons plusieurs applications de cet atlas, notamment la prédiction d'attributs de modèles (par exemple, la précision) et l'analyse des tendances dans les modèles de vision par ordinateur. Cependant, comme l'atlas actuel reste incomplet, nous proposons une méthode pour cartographier les régions non documentées. Plus précisément, nous identifions des préjugés structurels à haute confiance basés sur les pratiques dominantes d'entraînement de modèles dans le monde réel. En exploitant ces préjugés, notre approche permet une cartographie précise des zones précédemment non documentées de l'atlas. Nous rendons publics nos jeux de données, notre code et notre atlas interactif.
Les modèles de génération d'images à partir de texte, tels que Stable Diffusion et DALLE-3, rencontrent encore des difficultés avec l'édition d'images en plusieurs étapes. Nous décomposons cette tâche en un flux de travail agentique (chemin) d'utilisation d'outils qui aborde une séquence de sous-tâches via des outils d'IA de coûts variés. Les algorithmes de recherche conventionnels nécessitent une exploration coûteuse pour trouver des chemins d'outils. Bien que les grands modèles de langage (LLMs) possèdent une connaissance a priori de la planification des sous-tâches, ils peuvent manquer d'estimations précises des capacités et des coûts des outils pour déterminer lesquels appliquer à chaque sous-tâche. Pouvons-nous combiner les forces des LLMs et de la recherche dans un graphe pour trouver des chemins d'outils économiques ? Nous proposons une approche en trois étapes, "CoSTA*", qui exploite les LLMs pour créer un arbre de sous-tâches, ce qui permet d'élaguer un graphe d'outils d'IA pour la tâche donnée, puis effectue une recherche A* sur le sous-graphe réduit pour trouver un chemin d'outils. Pour mieux équilibrer le coût total et la qualité, CoSTA* combine les deux métriques de chaque outil sur chaque sous-tâche pour guider la recherche A*. La sortie de chaque sous-tâche est ensuite évaluée par un modèle vision-langage (VLM), où un échec déclenche une mise à jour du coût et de la qualité de l'outil sur la sous-tâche. Ainsi, la recherche A* peut rapidement se remettre des échecs pour explorer d'autres chemins. De plus, CoSTA* peut automatiquement basculer entre les modalités d'une sous-tâche à l'autre pour un meilleur compromis coût-qualité. Nous avons construit un nouveau benchmark d'édition d'images en plusieurs étapes, sur lequel CoSTA* surpasse les modèles ou agents d'édition d'images de pointe en termes de coût et de qualité, et offre des compromis polyvalents selon les préférences de l'utilisateur.
Les récents progrès des grands modèles vision-langage (LVLMs) ont montré des perspectives prometteuses pour la planification de tâches incarnées, mais ils peinent à surmonter des défis fondamentaux tels que les contraintes de dépendance et l'efficacité. Les approches existantes se concentrent soit uniquement sur l'optimisation de la sélection d'actions, soit sur l'utilisation de modèles du monde lors de l'inférence, négligeant les avantages de l'apprentissage pour modéliser le monde afin d'améliorer les capacités de planification. Nous proposons l'Optimisation Duale des Préférences (D^2PO), un nouveau cadre d'apprentissage qui optimise conjointement la prédiction d'état et la sélection d'actions grâce à l'apprentissage par préférences, permettant aux LVLMs de comprendre la dynamique de l'environnement pour une meilleure planification. Pour collecter automatiquement des trajectoires et des données de préférences étape par étape sans annotation humaine, nous introduisons un mécanisme de recherche arborescente pour une exploration approfondie par essais et erreurs. Des expériences approfondies sur VoTa-Bench démontrent que notre méthode basée sur D^2PO surpasse significativement les méthodes existantes et GPT-4o lorsqu'elle est appliquée à Qwen2-VL (7B), LLaVA-1.6 (7B) et LLaMA-3.2 (11B), atteignant des taux de réussite de tâches supérieurs avec des chemins d'exécution plus efficaces.
Les méthodes actuelles de génération et d'édition d'images traitent principalement les invites textuelles comme des entrées directes sans raisonnement sur la composition visuelle et les opérations explicites. Nous présentons Generation Chain-of-Thought (GoT), un nouveau paradigme qui permet la génération et l'édition à travers un processus de raisonnement linguistique explicite avant la production d'images. Cette approche transforme la génération et l'édition conventionnelles de texte-à-image en un cadre guidé par le raisonnement qui analyse les relations sémantiques et les arrangements spatiaux. Nous définissons la formulation de GoT et construisons des ensembles de données GoT à grande échelle contenant plus de 9 millions d'échantillons avec des chaînes de raisonnement détaillées capturant les relations sémantico-spatiales. Pour tirer parti des avantages de GoT, nous mettons en œuvre un cadre unifié qui intègre Qwen2.5-VL pour la génération de chaînes de raisonnement avec un modèle de diffusion end-to-end amélioré par notre nouveau module de guidage sémantico-spatial. Les expériences montrent que notre cadre GoT obtient d'excellentes performances sur les tâches de génération et d'édition, avec des améliorations significatives par rapport aux bases de référence. De plus, notre approche permet une génération visuelle interactive, permettant aux utilisateurs de modifier explicitement les étapes de raisonnement pour des ajustements précis de l'image. GoT ouvre une nouvelle direction pour la génération et l'édition visuelles guidées par le raisonnement, produisant des images qui s'alignent mieux sur l'intention humaine. Pour faciliter les recherches futures, nous mettons à disposition nos ensembles de données, code et modèles pré-entraînés à l'adresse https://github.com/rongyaofang/GoT.
Cet article présente SANA-Sprint, un modèle de diffusion efficace pour la génération ultra-rapide d'images à partir de texte (T2I). SANA-Sprint est construit sur un modèle de base pré-entraîné et enrichi par une distillation hybride, réduisant considérablement le nombre d'étapes d'inférence de 20 à 1-4. Nous introduisons trois innovations clés : (1) Nous proposons une approche sans entraînement qui transforme un modèle de correspondance de flux pré-entraîné pour la distillation de cohérence en temps continu (sCM), éliminant ainsi le coûteux entraînement à partir de zéro et atteignant une grande efficacité d'entraînement. Notre stratégie de distillation hybride combine sCM avec la distillation adversariale latente (LADD) : sCM assure l'alignement avec le modèle enseignant, tandis que LADD améliore la fidélité de la génération en une seule étape. (2) SANA-Sprint est un modèle unifié adaptatif par étapes qui réalise une génération de haute qualité en 1-4 étapes, éliminant l'entraînement spécifique à chaque étape et améliorant l'efficacité. (3) Nous intégrons ControlNet à SANA-Sprint pour la génération d'images interactive en temps réel, permettant un retour visuel instantané pour l'interaction utilisateur. SANA-Sprint établit une nouvelle frontière de Pareto dans les compromis vitesse-qualité, atteignant des performances de pointe avec 7,59 FID et 0,74 GenEval en seulement 1 étape - surpassant FLUX-schnell (7,94 FID / 0,71 GenEval) tout en étant 10 fois plus rapide (0,1s contre 1,1s sur H100). Il atteint également une latence de 0,1s (T2I) et 0,25s (ControlNet) pour des images de 1024 x 1024 sur H100, et 0,31s (T2I) sur une RTX 4090, démontrant son efficacité exceptionnelle et son potentiel pour les applications grand public alimentées par l'IA (AIPC). Le code et les modèles pré-entraînés seront rendus open-source.
Nous présentons VisualPRM, un modèle avancé multimodal de récompense de processus (Process Reward Model, PRM) doté de 8 milliards de paramètres, qui améliore les capacités de raisonnement des modèles de langage multimodaux de grande taille (Multimodal Large Language Models, MLLMs) existants, quelle que soit leur échelle ou leur famille, grâce à des stratégies d'évaluation Best-of-N (BoN). Plus précisément, notre modèle améliore les performances de raisonnement de trois types de MLLMs et de quatre échelles de modèles différentes. Même lorsqu'il est appliqué à l'InternVL2.5-78B, un modèle très performant, il permet une amélioration de 5,9 points sur sept benchmarks de raisonnement multimodal. Les résultats expérimentaux montrent que notre modèle présente des performances supérieures à celles des modèles de récompense basés sur les résultats (Outcome Reward Models) et à la méthode de cohérence interne (Self-Consistency) lors de l'évaluation BoN. Pour faciliter l'entraînement des PRMs multimodaux, nous avons construit un jeu de données de supervision de processus multimodal, VisualPRM400K, en utilisant un pipeline de données automatisé. Pour l'évaluation des PRMs multimodaux, nous proposons VisualProcessBench, un benchmark doté d'annotations humaines étape par étape sur la justesse, afin de mesurer la capacité des PRMs à détecter les erreurs dans les tâches de raisonnement multimodal. Nous espérons que notre travail inspirera davantage de recherches futures et contribuera au développement des MLLMs. Notre modèle, les données et le benchmark sont disponibles sur https://internvl.github.io/blog/2025-03-13-VisualPRM/.
Les modèles de diffusion texte-image ont obtenu un succès remarquable dans la génération de contenus de haute qualité à partir de prompts textuels. Cependant, leur dépendance à des données publiquement disponibles et la tendance croissante au partage de données pour le fine-tuning rendent ces modèles particulièrement vulnérables aux attaques par empoisonnement de données. Dans ce travail, nous introduisons l'attaque de marquage silencieux, une nouvelle méthode d'empoisonnement de données qui manipule les modèles de diffusion texte-image pour générer des images contenant des logos ou symboles de marque spécifiques sans aucun déclencheur textuel. Nous constatons que lorsque certains motifs visuels sont répétés dans les données d'entraînement, le modèle apprend à les reproduire naturellement dans ses sorties, même sans mention explicite dans le prompt. En exploitant cela, nous développons un algorithme automatisé d'empoisonnement de données qui injecte discrètement des logos dans des images originales, en veillant à ce qu'ils s'intègrent naturellement et restent indétectables. Les modèles entraînés sur cet ensemble de données empoisonné génèrent des images contenant des logos sans dégrader la qualité de l'image ou l'alignement avec le texte. Nous validons expérimentalement notre attaque de marquage silencieux dans deux scénarios réalistes sur des ensembles de données d'images de grande qualité à grande échelle et des ensembles de données de personnalisation de style, obtenant des taux de réussite élevés même sans déclencheur textuel spécifique. L'évaluation humaine et les métriques quantitatives, y compris la détection de logos, montrent que notre méthode peut intégrer des logos de manière furtive.
Rendre les modèles génératifs texte-image (T2I) à la fois rapides et performants représente une direction de recherche prometteuse. Les études précédentes se sont généralement concentrées soit sur l'amélioration de la qualité visuelle des images synthétisées au détriment de l'efficacité d'échantillonnage, soit sur l'accélération spectaculaire de l'échantillonnage sans améliorer la capacité générative du modèle de base. De plus, presque toutes les méthodes d'inférence n'ont pas été en mesure d'assurer des performances stables à la fois sur les modèles de diffusion (DMs) et les modèles autoregressifs visuels (ARMs). Dans cet article, nous introduisons un nouveau paradigme d'inférence plug-and-play, CoRe^2, qui comprend trois sous-processus : Collecte, Réflexion et Raffinement. CoRe^2 commence par collecter les trajectoires de guidage sans classifieur (CFG), puis utilise les données collectées pour entraîner un modèle faible qui reflète les contenus faciles à apprendre tout en réduisant de moitié le nombre d'évaluations de fonctions lors de l'inférence. Ensuite, CoRe^2 emploie un guidage faible-vers-fort pour raffiner la sortie conditionnelle, améliorant ainsi la capacité du modèle à générer des contenus haute fréquence et réalistes, difficiles à capturer pour le modèle de base. À notre connaissance, CoRe^2 est le premier à démontrer à la fois efficacité et efficience sur une large gamme de DMs, incluant SDXL, SD3.5 et FLUX, ainsi que sur des ARMs comme LlamaGen. Il a montré des améliorations significatives de performance sur HPD v2, Pick-of-Pic, Drawbench, GenEval et T2I-Compbench. De plus, CoRe^2 peut être intégré de manière transparente avec l'état de l'art Z-Sampling, le surpassant de 0.3 et 0.16 sur PickScore et AES, tout en réalisant une économie de temps de 5.64s avec SD3.5. Le code est disponible à l'adresse https://github.com/xie-lab-ml/CoRe/tree/main.
L'apprentissage de champs de langage 4D pour permettre des requêtes linguistiques ouvertes et sensibles au temps dans des scènes dynamiques est essentiel pour de nombreuses applications du monde réel. Bien que LangSplat parvienne à ancrer les caractéristiques CLIP dans des représentations gaussiennes 3D, atteignant ainsi précision et efficacité dans des scènes statiques 3D, il ne peut pas gérer des champs dynamiques 4D, car CLIP, conçu pour des tâches image-texte statiques, ne peut pas capturer les dynamiques temporelles dans les vidéos. Les environnements réels sont intrinsèquement dynamiques, avec une sémantique des objets qui évolue dans le temps. La construction d'un champ de langage 4D précis nécessite d'obtenir des caractéristiques vidéo alignées au pixel et spécifiques aux objets, ce que les modèles de vision actuels peinent à réaliser. Pour relever ces défis, nous proposons 4D LangSplat, qui apprend des champs de langage 4D pour gérer efficacement des requêtes ouvertes agnostiques au temps ou sensibles au temps dans des scènes dynamiques. 4D LangSplat contourne l'apprentissage du champ de langage à partir des caractéristiques visuelles et apprend directement à partir de textes générés à partir de légendes vidéo spécifiques aux objets via des Modèles de Langage Multimodaux de Grande Taille (MLLMs). Plus précisément, nous proposons une méthode de prompt vidéo multimodale spécifique aux objets, composée de prompts visuels et textuels qui guident les MLLMs pour générer des légendes détaillées, temporellement cohérentes et de haute qualité pour les objets tout au long d'une vidéo. Ces légendes sont encodées à l'aide d'un Modèle de Langage de Grande Taille en embeddings de phrases de haute qualité, qui servent ensuite de supervision de caractéristiques spécifiques aux objets et alignées au pixel, facilitant les requêtes textuelles ouvertes à travers des espaces d'embedding partagés. Reconnaissant que les objets dans des scènes 4D présentent des transitions fluides entre les états, nous proposons en outre un réseau déformable d'état pour modéliser efficacement ces changements continus dans le temps. Nos résultats sur plusieurs benchmarks démontrent que 4D LangSplat atteint des résultats précis et efficaces pour les requêtes ouvertes à la fois sensibles au temps et agnostiques au temps.
Cet article présente notre travail sur la série Light-R1, avec les modèles, les données et le code tous rendus publics. Nous nous concentrons d'abord sur l'entraînement de modèles à long raisonnement en chaîne (long COT) à partir de zéro, en partant spécifiquement de modèles initialement dépourvus de capacités de long COT. En utilisant une recette d'entraînement par curriculum composée de deux étapes de fine-tuning supervisé (SFT) et d'optimisation des préférences déterministes semi-on-policy (DPO), nous entraînons notre modèle Light-R1-32B à partir de Qwen2.5-32B-Instruct, obtenant ainsi des performances mathématiques supérieures à celles de DeepSeek-R1-Distill-Qwen-32B. Bien qu'entraîné exclusivement sur des données mathématiques, Light-R1-32B montre une forte généralisation dans d'autres domaines. Dans la phase suivante de ce travail, nous mettons en avant le bénéfice significatif du jeu de données de 3k construit pour la deuxième étape de SFT, qui améliore d'autres modèles. En fine-tunant les modèles DeepSeek-R1-Distilled avec ce jeu de données, nous obtenons de nouveaux modèles SOTA en 7B et 14B, tandis que le modèle 32B, Light-R1-32B-DS, performe de manière comparable à QwQ-32B et DeepSeek-R1. Par ailleurs, nous étendons notre travail en appliquant l'apprentissage par renforcement, spécifiquement GRPO, sur des modèles à long COT pour améliorer davantage les performances de raisonnement. Nous entraînons avec succès notre modèle final Light-R1-14B-DS avec RL, atteignant des performances SOTA parmi les modèles de 14B paramètres en mathématiques. Avec des scores AIME24 & 25 de 74,0 et 60,2 respectivement, Light-R1-14B-DS surpasse même de nombreux modèles 32B et DeepSeek-R1-Distill-Llama-70B. Son entraînement par RL montre également un comportement attendu, avec une augmentation simultanée de la longueur des réponses et du score de récompense. La série Light-R1 valide l'entraînement de modèles à long COT à partir de zéro, met en lumière l'art dans les données de SFT et publie des modèles SOTA issus du RL.
Les modèles génératifs basés sur la diffusion ont révolutionné l'édition d'images orientée objet, mais leur déploiement pour la suppression et l'insertion réalistes d'objets reste entravé par des défis tels que l'interaction complexe des effets physiques et le manque de données d'entraînement appariées. Dans ce travail, nous présentons OmniPaint, un cadre unifié qui reconceptualise la suppression et l'insertion d'objets comme des processus interdépendants plutôt que des tâches isolées. En exploitant un modèle de diffusion pré-entraîné ainsi qu'un pipeline d'entraînement progressif comprenant une optimisation initiale sur des échantillons appariés suivie d'un raffinement à grande échelle sur des données non appariées via CycleFlow, OmniPaint réalise une élimination précise des éléments de premier plan et une insertion fluide d'objets tout en préservant fidèlement la géométrie de la scène et les propriétés intrinsèques. De plus, notre nouvelle métrique CFD offre une évaluation robuste et sans référence de la cohérence contextuelle et de l'hallucination d'objets, établissant un nouveau standard pour l'édition d'images haute fidélité. Page du projet : https://yeates.github.io/OmniPaint-Page/
Les modèles vision-langage ont réalisé des progrès significatifs sur de nombreuses tâches axées sur la perception, mais leurs avancées sur les tâches centrées sur le raisonnement semblent limitées en raison du manque de données d'entraînement de haute qualité et diversifiées. Dans ce travail, nous visons à résoudre le problème de la rareté des ensembles de données multimodales axés sur le raisonnement. Nous proposons VisualWebInstruct - une approche novatrice qui exploite les moteurs de recherche pour créer un ensemble de données diversifié et de haute qualité couvrant plusieurs disciplines comme les mathématiques, la physique, la finance, la chimie, etc. En partant de 30 000 images soigneusement sélectionnées, nous utilisons la recherche d'images Google pour identifier des sites web contenant des images similaires. Nous collectons et traitons les HTMLs provenant de plus de 700 000 sources URL uniques. Grâce à un pipeline d'extraction de contenu, de filtrage et de synthèse, nous construisons un ensemble de données d'environ 900 000 paires question-réponse, dont 40 % sont des paires visuelles question-réponse et le reste des paires textuelles question-réponse. Les modèles affinés sur VisualWebInstruct démontrent des gains de performance significatifs : (1) l'entraînement à partir de Llava-OV-mid montre des gains absolus de 10 à 20 points sur les benchmarks, (2) l'entraînement à partir de MAmmoTH-VL montre un gain absolu de 5 %. Notre meilleur modèle, MAmmoTH-VL2, affiche des performances de pointe dans la classe des 10 milliards de paramètres sur MMMU-Pro-std (40,7 %), MathVerse (42,6 %) et DynaMath (55,7 %). Ces résultats remarquables mettent en évidence l'efficacité de notre ensemble de données pour améliorer les capacités de raisonnement des modèles vision-langage sur des tâches multimodales complexes.
Les récents progrès des modèles de raisonnement à grande échelle (Large Reasoning Models, LRMs), en particulier ceux qui exploitent le raisonnement en chaîne de pensée (Chain-of-Thought, CoT), ont ouvert de toutes nouvelles possibilités pour la traduction automatique (Machine Translation, MT). Ce document de position soutient que les LRMs ont profondément transformé les paradigmes traditionnels de la traduction neuronale ainsi que ceux basés sur les modèles de langage de grande taille (LLMs), en reformulant la traduction comme une tâche de raisonnement dynamique nécessitant une compréhension et un raisonnement contextuels, culturels et linguistiques. Nous identifions trois changements fondamentaux : 1) la cohérence contextuelle, où les LRMs résolvent les ambiguïtés et préservent la structure du discours grâce à un raisonnement explicite sur des contextes complexes ou même l'absence de contexte ; 2) l'intentionnalité culturelle, permettant aux modèles d'adapter leurs sorties en inférant l'intention du locuteur, les attentes du public et les normes socio-linguistiques ; 3) l'auto-réflexion, où les LRMs peuvent effectuer une auto-réflexion pendant l'inférence pour corriger les erreurs potentielles dans la traduction, en particulier dans des cas extrêmement bruités, montrant ainsi une meilleure robustesse par rapport à une simple traduction de type X->Y. Nous explorons divers scénarios de traduction, notamment la traduction stylisée, la traduction au niveau du document et la traduction multimodale, en présentant des exemples empiriques qui démontrent la supériorité des LRMs en traduction. Nous identifions également plusieurs phénomènes intéressants pour les LRMs dans le domaine de la traduction, comme la traduction auto-pivot, ainsi que des défis critiques tels que la sur-localisation dans la traduction et l'efficacité de l'inférence. En conclusion, nous pensons que les LRMs redéfinissent les systèmes de traduction non plus comme de simples convertisseurs de texte, mais comme des agents cognitifs multilingues capables de raisonner sur le sens au-delà du texte. Ce changement de paradigme nous incite à repenser les problèmes de traduction au-delà des scénarios traditionnels, dans un contexte beaucoup plus large avec les LRMs - et ce que nous pouvons accomplir grâce à eux.
Les récentes avancées dans les modèles de langage à grand contexte (LLMs) se sont principalement concentrées sur le traitement de contextes d'entrée étendus, ce qui a permis des progrès significatifs dans la compréhension de contextes longs. Cependant, l'aspect tout aussi crucial de la génération de sorties longues a reçu relativement moins d'attention. Cet article plaide pour un changement de paradigme dans la recherche en NLP afin de relever les défis de la génération de sorties longues. Des tâches telles que l'écriture de romans, la planification à long terme et le raisonnement complexe exigent que les modèles comprennent des contextes étendus et produisent des textes cohérents, riches en contexte et logiquement consistants. Ces exigences mettent en lumière une lacune critique dans les capacités actuelles des LLMs. Nous soulignons l'importance de ce domaine encore peu exploré et appelons à des efforts ciblés pour développer des LLMs fondamentaux spécialement conçus pour générer des sorties longues de haute qualité, qui présentent un immense potentiel pour des applications réelles.
L'ancrage au niveau des pixels, englobant des tâches telles que la segmentation par expressions référentielles (RES), a suscité un intérêt considérable en raison de son immense potentiel pour combler le fossé entre les modalités visuelles et linguistiques. Cependant, les avancées dans ce domaine sont actuellement limitées par les contraintes inhérentes aux jeux de données existants, notamment un nombre restreint de catégories d'objets, une diversité textuelle insuffisante et une pénurie d'annotations de haute qualité. Pour pallier ces limitations, nous présentons GroundingSuite, qui comprend : (1) un cadre d'annotation de données automatisé exploitant plusieurs agents de modèles vision-langage (VLM) ; (2) un jeu de données d'entraînement à grande échelle comprenant 9,56 millions d'expressions référentielles diverses et leurs segmentations correspondantes ; et (3) un benchmark d'évaluation soigneusement constitué de 3 800 images. Le jeu de données d'entraînement de GroundingSuite facilite des améliorations substantielles des performances, permettant aux modèles qui y sont entraînés d'atteindre des résultats de pointe. Plus précisément, un cIoU de 68,9 sur gRefCOCO et un gIoU de 55,3 sur RefCOCOm. De plus, le cadre d'annotation de GroundingSuite démontre une efficacité supérieure par rapport à la méthode d'annotation de données actuellement dominante, c'est-à-dire 4,5 fois plus rapide que le GLaMM.
Les modèles de génération vidéo ont réalisé des progrès remarquables au cours de la dernière année. La qualité des vidéos générées par IA continue de s'améliorer, mais au prix d'une augmentation de la taille des modèles, de la quantité de données nécessaires et des ressources de calcul pour l'entraînement. Dans ce rapport, nous présentons Open-Sora 2.0, un modèle de génération vidéo de niveau commercial entraîné pour seulement 200 000 dollars. Avec ce modèle, nous démontrons que le coût d'entraînement d'un modèle de génération vidéo de premier plan est hautement contrôlable. Nous détaillons toutes les techniques qui ont contribué à cette avancée en termes d'efficacité, incluant la curation des données, l'architecture du modèle, la stratégie d'entraînement et l'optimisation du système. Selon les résultats d'évaluation humaine et les scores VBench, Open-Sora 2.0 est comparable aux meilleurs modèles de génération vidéo mondiaux, incluant le modèle open-source HunyuanVideo et le modèle propriétaire Runway Gen-3 Alpha. En rendant Open-Sora 2.0 entièrement open-source, nous visons à démocratiser l'accès à la technologie avancée de génération vidéo, favorisant ainsi une innovation et une créativité plus larges dans la création de contenu. Toutes les ressources sont disponibles publiquement à l'adresse suivante : https://github.com/hpcaitech/Open-Sora.
Dans ce travail, nous étudions empiriquement les Transformers de Diffusion (DiTs) pour la génération d'images à partir de texte, en nous concentrant sur les choix architecturaux, les stratégies de conditionnement textuel et les protocoles d'entraînement. Nous évaluons une gamme d'architectures basées sur les DiTs—incluant les variantes de type PixArt et MMDiT—et les comparons à une variante standard de DiT qui traite directement les entrées concaténées de texte et de bruit. Étonnamment, nos résultats révèlent que la performance de la DiT standard est comparable à celle des modèles spécialisés, tout en démontrant une efficacité paramétrique supérieure, notamment lors d'une mise à l'échelle. En exploitant la stratégie de partage de paramètres couche par couche, nous parvenons à réduire de 66 % la taille du modèle par rapport à une architecture MMDiT, avec un impact minimal sur les performances. S'appuyant sur une analyse approfondie des composants critiques tels que les encodeurs de texte et les Auto-Encodeurs Variationnels (VAEs), nous introduisons DiT-Air et DiT-Air-Lite. Avec un affinage supervisé et par récompense, DiT-Air atteint des performances de pointe sur GenEval et T2I CompBench, tandis que DiT-Air-Lite reste très compétitive, surpassant la plupart des modèles existants malgré sa taille compacte.
Les grands modèles de langage ont démontré une capacité de raisonnement remarquable dans des tâches textuelles complexes. Cependant, le raisonnement multimodal, qui nécessite l'intégration d'informations visuelles et textuelles, reste un défi majeur. Les modèles visio-linguistiques existants peinent souvent à analyser et à raisonner efficacement sur le contenu visuel, ce qui entraîne des performances sous-optimales dans les tâches de raisonnement complexes. De plus, l'absence de benchmarks complets entrave l'évaluation précise des capacités de raisonnement multimodal. Dans cet article, nous présentons R1-Onevision, un modèle de raisonnement multimodal conçu pour combler le fossé entre la perception visuelle et le raisonnement approfondi. Pour y parvenir, nous proposons un pipeline de raisonnement intermodal qui transforme les images en représentations textuelles formelles, permettant un raisonnement précis basé sur le langage. En exploitant ce pipeline, nous construisons le jeu de données R1-Onevision, qui fournit des annotations détaillées et étape par étape pour le raisonnement multimodal dans divers domaines. Nous développons ensuite le modèle R1-Onevision par un réglage fin supervisé et un apprentissage par renforcement pour cultiver des capacités de raisonnement avancées et une robuste généralisation. Pour évaluer de manière exhaustive les performances de raisonnement multimodal à différents niveaux, nous introduisons R1-Onevision-Bench, un benchmark aligné sur les étapes éducatives humaines, couvrant des examens allant du collège à l'université et au-delà. Les résultats expérimentaux montrent que R1-Onevision atteint des performances de pointe, surpassant des modèles tels que GPT-4o et Qwen2.5-VL sur plusieurs benchmarks de raisonnement multimodal exigeants.
Les modèles de diffusion distillés souffrent d'une limitation critique : une diversité d'échantillons réduite par rapport à leurs homologues de base. Dans ce travail, nous découvrons que malgré cette perte de diversité, les modèles distillés conservent les représentations conceptuelles fondamentales des modèles de base. Nous démontrons la distillation de contrôle - où des mécanismes de contrôle comme les Concept Sliders et les LoRAs entraînés sur des modèles de base peuvent être transférés de manière transparente vers des modèles distillés et vice-versa, distillant ainsi le contrôle sans aucun réentraînement. Cette préservation de la structure représentationnelle a motivé notre investigation sur les mécanismes de l'effondrement de la diversité lors de la distillation. Pour comprendre comment la distillation affecte la diversité, nous introduisons la Visualisation des Cibles de Diffusion (DT-Visualization), un outil d'analyse et de débogage qui révèle comment les modèles prédisent les sorties finales à des étapes intermédiaires. Grâce à la DT-Visualization, nous identifions des artefacts de génération, des incohérences, et démontrons que les premières étapes de diffusion déterminent de manière disproportionnée la diversité des sorties, tandis que les étapes ultérieures affinent principalement les détails. Sur la base de ces insights, nous introduisons la distillation de diversité - une approche d'inférence hybride qui utilise stratégiquement le modèle de base uniquement pour la première étape critique avant de passer au modèle distillé efficace. Nos expériences montrent que cette simple modification non seulement restaure les capacités de diversité des modèles de base aux modèles distillés, mais les dépasse de manière surprenante, tout en maintenant presque l'efficacité computationnelle de l'inférence distillée, le tout sans nécessiter d'entraînement supplémentaire ou de modifications du modèle. Notre code et nos données sont disponibles à l'adresse https://distillation.baulab.info.
Les récents progrès dans la génération de vidéos permettent de produire des séquences réalistes d'une minute en un seul plan grâce à des transformeurs de diffusion évolutifs. Cependant, les vidéos narratives du monde réel nécessitent des scènes multi-plans avec une cohérence visuelle et dynamique entre les plans. Dans ce travail, nous introduisons le Long Context Tuning (LCT), un paradigme d'entraînement qui étend la fenêtre contextuelle des modèles de diffusion vidéo pré-entraînés pour un seul plan afin d'apprendre directement la cohérence au niveau de la scène à partir des données. Notre méthode étend les mécanismes d'attention complète des plans individuels pour englober tous les plans d'une scène, en incorporant un encodage de position 3D entrelacé et une stratégie de bruit asynchrone, permettant à la fois une génération conjointe et auto-régressive des plans sans paramètres supplémentaires. Les modèles avec attention bidirectionnelle après LCT peuvent ensuite être affinés avec une attention contextuelle-causale, facilitant la génération auto-régressive avec un cache KV efficace. Les expériences montrent que les modèles mono-plan après LCT peuvent produire des scènes multi-plans cohérentes et présentent des capacités émergentes, notamment la génération compositionnelle et l'extension interactive des plans, ouvrant la voie à une création de contenu visuel plus pratique. Consultez https://guoyww.github.io/projects/long-context-video/ pour plus de détails.
Alors que nous passons à des modèles d'apprentissage automatique de plus en plus massifs, les exigences fréquentes de synchronisation inhérentes aux approches parallèles sur les données créent des ralentissements significatifs, posant un défi critique pour une mise à l'échelle ultérieure. Des travaux récents ont développé une approche (DiLoCo) qui relâche les exigences de synchronisation sans compromettre la qualité du modèle. Cependant, ces travaux n'analysent pas attentivement comment le comportement de DiLoCo évolue avec la taille du modèle. Dans cette étude, nous examinons le comportement des lois d'échelle de DiLoCo lors de l'entraînement de LLM (modèles de langage de grande taille) sous un budget de calcul fixe. Nous nous concentrons sur la manière dont les facteurs algorithmiques, y compris le nombre de répliques de modèle, les hyperparamètres et le budget de tokens, affectent l'entraînement de manière prévisible via les lois d'échelle. Nous constatons que DiLoCo s'adapte de manière prévisible et robuste à la taille du modèle. Lorsqu'il est bien réglé, DiLoCo s'adapte mieux que l'entraînement parallèle sur les données avec l'augmentation de la taille du modèle, et peut surpasser l'entraînement parallèle sur les données même pour des modèles de petite taille. Nos résultats mettent en évidence un ensemble plus large d'avantages de DiLoCo que ceux précédemment documentés, y compris des tailles de lots optimales accrues, une meilleure généralisation en aval avec l'échelle, et une amélioration de la perte d'évaluation pour un budget de tokens fixe.
La génération de vidéos a connu des progrès remarquables avec l'avènement des modèles génératifs profonds, en particulier les modèles de diffusion. Bien que les méthodes existantes excellent dans la génération de vidéos de haute qualité à partir de prompts textuels ou d'images uniques, la génération de vidéos personnalisées impliquant plusieurs sujets reste un défi largement inexploré. Cette tâche consiste à synthétiser des vidéos incorporant plusieurs sujets distincts, chacun défini par des images de référence séparées, tout en assurant une cohérence temporelle et spatiale. Les approches actuelles reposent principalement sur la correspondance entre les images des sujets et les mots-clés dans les prompts textuels, ce qui introduit une ambiguïté et limite leur capacité à modéliser efficacement les relations entre les sujets. Dans cet article, nous proposons CINEMA, un nouveau cadre pour la génération cohérente de vidéos multi-sujets en exploitant un Modèle de Langage Multimodal à Grande Échelle (MLLM). Notre approche élimine le besoin de correspondances explicites entre les images des sujets et les entités textuelles, atténuant ainsi l'ambiguïté et réduisant l'effort d'annotation. En utilisant le MLLM pour interpréter les relations entre les sujets, notre méthode facilite la scalabilité, permettant l'utilisation de grands ensembles de données diversifiés pour l'entraînement. De plus, notre cadre peut être conditionné sur un nombre variable de sujets, offrant une plus grande flexibilité dans la création de contenu personnalisé. À travers des évaluations approfondies, nous démontrons que notre approche améliore significativement la cohérence des sujets et la cohérence globale des vidéos, ouvrant la voie à des applications avancées dans la narration, les médias interactifs et la génération de vidéos personnalisées.
Cet article explore la faisabilité d'utiliser des modèles texte-image dans un cadre zero-shot pour générer des images représentant des concepts taxonomiques. Alors que les méthodes basées sur le texte pour l'enrichissement des taxonomies sont bien établies, le potentiel de la dimension visuelle reste inexploré. Pour remédier à cela, nous proposons un benchmark complet pour la génération d'images taxonomiques, évaluant la capacité des modèles à comprendre les concepts taxonomiques et à générer des images pertinentes et de haute qualité. Le benchmark inclut des concepts de bon sens et des échantillons aléatoires issus de WordNet, ainsi que des prédictions générées par des modèles de langage (LLM). Les 12 modèles sont évalués à l'aide de 9 nouvelles métriques liées à la taxonomie pour les tâches texte-image, ainsi que par des retours humains. De plus, nous innovons en utilisant une évaluation par paires avec des retours de GPT-4 pour la génération d'images. Les résultats expérimentaux montrent que le classement des modèles diffère significativement de celui des tâches T2I standard. Playground-v2 et FLUX surpassent systématiquement les autres modèles sur l'ensemble des métriques et des sous-ensembles, tandis que l'approche basée sur la récupération obtient de faibles performances. Ces résultats mettent en lumière le potentiel d'automatisation de la curation des ressources de données structurées.
Les modèles de vision et langage (VLMs) ont démontré un potentiel significatif dans diverses tâches en aval, notamment la génération d'images/vidéos, la réponse à des questions visuelles, les chatbots multimodaux et la compréhension vidéo. Cependant, ces modèles rencontrent souvent des difficultés avec les transformations d'images de base. Cet article étudie la compréhension au niveau de l'image des VLMs, en particulier CLIP d'OpenAI et SigLIP de Google. Nos résultats révèlent que ces modèles manquent de compréhension face à de multiples augmentations au niveau de l'image. Pour faciliter cette étude, nous avons créé une version augmentée du jeu de données Flickr8k, associant chaque image à une description détaillée de la transformation appliquée. Nous explorons également comment cette lacune impacte les tâches en aval, notamment dans l'édition d'images, et évaluons la performance des modèles Image2Image de pointe sur des transformations simples.
Le transfert de style consiste à transférer le style d'une image de référence au contenu d'une image cible. Les avancées récentes des méthodes basées sur LoRA (Low-Rank Adaptation) ont montré leur potentiel pour capturer efficacement le style d'une seule image. Cependant, ces approches rencontrent encore des défis majeurs tels que l'incohérence du contenu, le désalignement du style et la fuite de contenu. Dans cet article, nous analysons de manière exhaustive les limites de la paramétrisation standard de la diffusion, qui apprend à prédire le bruit, dans le contexte du transfert de style. Pour résoudre ces problèmes, nous introduisons ConsisLoRA, une méthode basée sur LoRA qui améliore à la fois la cohérence du contenu et du style en optimisant les poids LoRA pour prédire l'image originale plutôt que le bruit. Nous proposons également une stratégie d'apprentissage en deux étapes qui découple l'apprentissage du contenu et du style à partir de l'image de référence. Pour capturer efficacement à la fois la structure globale et les détails locaux de l'image de contenu, nous introduisons une stratégie de transition progressive des pertes. De plus, nous présentons une méthode de guidage d'inférence qui permet un contrôle continu des forces du contenu et du style pendant l'inférence. Grâce à des évaluations qualitatives et quantitatives, notre méthode démontre des améliorations significatives en matière de cohérence du contenu et du style tout en réduisant efficacement la fuite de contenu.
Nous présentons ARPG, un nouveau modèle visuel autorégressif qui permet une génération parallèle randomisée, surmontant les limitations inhérentes des approches conventionnelles en ordre raster, qui entravent l'efficacité de l'inférence et la généralisation zero-shot en raison de leur ordre séquentiel et prédéfini de génération des tokens. Notre idée clé est que la modélisation efficace en ordre aléatoire nécessite un guidage explicite pour déterminer la position du prochain token prédit. À cette fin, nous proposons un nouveau cadre de décodage guidé qui découple le guidage positionnel de la représentation du contenu, en les encodant séparément sous forme de requêtes et de paires clé-valeur. En intégrant directement ce guidage dans le mécanisme d'attention causale, notre approche permet un entraînement et une génération en ordre totalement aléatoire, éliminant le besoin d'attention bidirectionnelle. Par conséquent, ARPG se généralise facilement à des tâches zero-shot telles que l'inpainting d'images, l'outpainting et l'expansion de résolution. De plus, il supporte l'inférence parallèle en traitant simultanément plusieurs requêtes à l'aide d'un cache KV partagé. Sur le benchmark ImageNet-1K 256, notre approche atteint un FID de 1,94 avec seulement 64 étapes d'échantillonnage, obtenant une augmentation de plus de 20 fois du débit tout en réduisant la consommation mémoire de plus de 75% par rapport aux modèles autorégressifs récents représentatifs d'une échelle similaire.
Les modèles génératifs avancés excellent dans la synthèse d'images, mais reposent souvent sur un conditionnement basé sur le texte. Les concepteurs visuels, cependant, travaillent fréquemment au-delà du langage, s'inspirant directement d'éléments visuels existants. Dans de nombreux cas, ces éléments ne représentent que des fragments d'un concept potentiel—comme une aile à la structure unique ou une coiffure spécifique—servant d'inspiration pour que l'artiste explore comment ils peuvent s'assembler de manière créative en un ensemble cohérent. Conscients de ce besoin, nous introduisons un cadre génératif qui intègre de manière fluide un ensemble partiel de composants visuels fournis par l'utilisateur dans une composition cohérente, tout en échantillonnant les parties manquantes nécessaires pour générer un concept plausible et complet. Notre approche s'appuie sur un espace de représentation robuste et peu exploré, extrait de l'IP-Adapter+, sur lequel nous entraînons IP-Prior, un modèle léger de correspondance de flux qui synthétise des compositions cohérentes basées sur des a priori spécifiques au domaine, permettant des générations diversifiées et contextuellement adaptées. De plus, nous présentons une stratégie de fine-tuning basée sur LoRA qui améliore significativement l'adhérence aux prompts dans l'IP-Adapter+ pour une tâche donnée, abordant ainsi le compromis courant entre la qualité de reconstruction et l'adhérence aux prompts.
Dans cet article, nous proposons un cadre général pour la navigation universelle orientée objectif en mode zéro-shot. Les méthodes zéro-shot existantes construisent un cadre d'inférence basé sur des modèles de langage à grande échelle (LLM) pour des tâches spécifiques, ce qui diffère considérablement dans le pipeline global et échoue à généraliser à travers différents types d'objectifs. En vue d'une navigation universelle zéro-shot, nous proposons une représentation graphique uniforme pour unifier différents objectifs, incluant la catégorie d'objet, l'image d'instance et la description textuelle. Nous convertissons également l'observation de l'agent en un graphe de scène maintenu en ligne. Avec cette représentation cohérente de la scène et de l'objectif, nous préservons la plupart des informations structurelles par rapport au texte pur et sommes capables d'exploiter les LLM pour un raisonnement explicite basé sur les graphes. Plus précisément, nous effectuons un appariement de graphes entre le graphe de scène et le graphe d'objectif à chaque instant et proposons différentes stratégies pour générer un objectif à long terme d'exploration selon différents états d'appariement. L'agent recherche d'abord itérativement un sous-graphe de l'objectif lorsqu'il n'y a aucun appariement. Avec un appariement partiel, l'agent utilise ensuite la projection de coordonnées et l'alignement de paires d'ancres pour inférer la localisation de l'objectif. Enfin, une correction du graphe de scène et une vérification de l'objectif sont appliquées pour un appariement parfait. Nous présentons également un mécanisme de liste noire pour permettre une transition robuste entre les étapes. Des expériences approfondies sur plusieurs benchmarks montrent que notre méthode UniGoal atteint des performances zéro-shot de pointe sur trois tâches de navigation étudiées avec un seul modèle, surpassant même les méthodes zéro-shot spécifiques à une tâche et les méthodes universelles supervisées.
Les modèles de reconnaissance automatique de la parole (ASR) ont gagné en importance pour des applications telles que le sous-titrage, la traduction vocale et la transcription en direct. Cet article étudie Whisper et deux variantes de modèles : une optimisée pour le streaming vocal en direct et une autre pour la transcription hors ligne. Il est à noter que ces modèles ont été observés générer du contenu halluciné, réduisant ainsi la fiabilité de la transcription. De plus, les variantes de modèles plus grandes présentent une latence accrue et posent des défis pour le déploiement sur des appareils à ressources limitées. Cette étude analyse les similitudes et les différences entre trois modèles Whisper, en examinant qualitativement leurs capacités distinctes. Ensuite, cette étude quantifie l'impact de la quantification des modèles sur la latence et évalue sa viabilité pour le déploiement en périphérie. En utilisant le jeu de données open source LibriSpeech, cet article évalue le taux d'erreur sur les mots (WER) ainsi que l'analyse de la latence de whispercpp en utilisant trois méthodes de quantification (INT4, INT5, INT8). Les résultats montrent que la quantification réduit la latence de 19 % et la taille du modèle de 45 %, tout en préservant la précision de la transcription. Ces résultats fournissent des insights sur les cas d'utilisation optimaux des différents modèles Whisper et les possibilités de déploiement sur des appareils en périphérie. Tous les codes, jeux de données et détails d'implémentation sont disponibles dans un dépôt GitHub public : https://github.com/allisonandreyev/WhisperQuantization.git.
Les modèles Vision Transformer démontrent une puissance immense tout en restant opaques à la compréhension humaine, posant des défis et des risques pour les applications pratiques. Bien que des recherches antérieures aient tenté de démystifier ces modèles par l'attribution des entrées et l'analyse des rôles des neurones, il existe un manque notable de considération pour les informations au niveau des couches et le chemin global du flux d'information à travers les couches. Dans cet article, nous étudions l'importance des chemins de neurones influents au sein des Vision Transformers, qui représentent un trajet de neurones de l'entrée à la sortie du modèle ayant un impact significatif sur l'inférence du modèle. Nous proposons d'abord une mesure d'influence conjointe pour évaluer la contribution d'un ensemble de neurones au résultat du modèle. Ensuite, nous fournissons une approche de localisation progressive des neurones par couche qui sélectionne efficacement le neurone le plus influent à chaque couche, dans le but de découvrir le chemin de neurones crucial de l'entrée à la sortie au sein du modèle cible. Nos expériences démontrent la supériorité de notre méthode pour trouver le chemin de neurones le plus influent le long duquel l'information circule, par rapport aux solutions de référence existantes. De plus, les chemins de neurones ont révélé que les Vision Transformers présentent un mécanisme interne spécifique pour traiter l'information visuelle au sein d'une même catégorie d'images. Nous analysons également les effets clés de ces neurones sur la tâche de classification d'images, montrant que les chemins de neurones identifiés préservent déjà la capacité du modèle sur les tâches en aval, ce qui pourrait également éclairer des applications pratiques comme l'élagage de modèles. Le site web du projet, incluant le code d'implémentation, est disponible à l'adresse suivante : https://foundation-model-research.github.io/NeuronPath/.
Les modèles de langage de grande taille (LLMs) s'intègrent rapidement dans la vie des enfants - par le biais de l'adoption parentale, des écoles et des réseaux de pairs - pourtant, les recherches actuelles en éthique et sécurité de l'IA ne traitent pas de manière adéquate les risques liés au contenu spécifiques aux mineurs. Dans cet article, nous mettons en lumière ces lacunes avec une étude de cas réelle d'un chatbot basé sur un LLM déployé dans un collège, révélant comment les élèves ont utilisé et parfois détourné le système. En nous appuyant sur ces résultats, nous proposons une nouvelle taxonomie des risques liés au contenu pour les mineurs et introduisons MinorBench, un benchmark open-source conçu pour évaluer les LLMs sur leur capacité à refuser les requêtes dangereuses ou inappropriées des enfants. Nous évaluons six LLMs majeurs sous différentes instructions système, démontrant une variabilité substantielle dans leur conformité à la sécurité des enfants. Nos résultats informent sur les étapes pratiques pour des mécanismes de sécurité plus robustes et centrés sur les enfants, et soulignent l'urgence d'adapter les systèmes d'IA pour protéger les jeunes utilisateurs.
L'hallucination d'objets (OH) est reconnue comme l'un des principaux défis de fiabilité dans les modèles de vision et langage à grande échelle (LVLMs). Les récents progrès dans les modèles de langage à grande échelle (LLMs) indiquent que les états internes, tels que les états cachés, encodent la "véracité globale" des réponses générées. Cependant, il reste peu exploré comment les états internes des LVLMs fonctionnent et s'ils pourraient servir d'indicateurs d'hallucination "par token", ce qui est essentiel pour atténuer l'OH. Dans cet article, nous menons d'abord une exploration approfondie des états internes des LVLMs en relation avec les problèmes d'OH et découvrons que (1) les états internes des LVLMs sont des indicateurs par token de haute spécificité des comportements d'hallucination. De plus, (2) différents LVLMs encodent des modèles universels d'hallucination dans des sous-espaces latents communs, indiquant qu'il existe des "directions génériques de véracité" partagées par divers LVLMs. Sur la base de ces découvertes, nous proposons l'Intervention Préalable Guidée par la Véracité (TruthPrInt) qui apprend d'abord la direction de véracité du décodage des LVLMs, puis applique une intervention guidée par la véracité au moment de l'inférence lors du décodage des LVLMs. Nous proposons également ComnHallu pour améliorer la transférabilité de la détection d'hallucination à la fois entre LVLMs et entre données, en construisant et en alignant des sous-espaces latents d'hallucination. Nous évaluons TruthPrInt dans des configurations expérimentales variées, incluant des scénarios intra-domaines et hors-domaines, sur des LVLMs populaires et des benchmarks d'OH. Les résultats expérimentaux montrent que TruthPrInt surpasse significativement les méthodes de pointe. Les codes seront disponibles à l'adresse https://github.com/jinhaoduan/TruthPrInt.
La toxicité dans les discussions sur les rapports de bogues pose des défis significatifs à la dynamique collaborative du développement de logiciels open source. Les rapports de bogues sont essentiels pour identifier et résoudre les défauts, mais leur nature intrinsèquement axée sur les problèmes et leur contexte émotionnellement chargé les rendent vulnérables aux interactions toxiques. Cette étude explore la toxicité dans les rapports de bogues sur GitHub à travers une analyse qualitative de 203 fils de discussion, dont 81 toxiques. Nos résultats révèlent que la toxicité découle fréquemment de perceptions mal alignées de la gravité et de la priorité des bogues, de frustrations non résolues avec les outils et de lacunes dans la communication professionnelle. Ces interactions toxiques non seulement détournent les discussions productives, mais réduisent également la probabilité de résultats exploitables, tels que la liaison des problèmes avec des demandes de fusion. Nos résultats préliminaires offrent des recommandations pratiques pour améliorer la résolution des bogues en atténuant la toxicité.
Le couplage par transport optimal sur minibatch redresse les trajectoires dans l'appariement de flux inconditionnel. Cela conduit à une inférence moins exigeante en calcul, car moins d'étapes d'intégration et des solveurs numériques moins complexes peuvent être utilisés lors de la résolution numérique d'une équation différentielle ordinaire au moment du test. Cependant, dans le cadre conditionnel, le transport optimal sur minibatch montre ses limites. En effet, la cartographie par transport optimal par défaut ignore les conditions, ce qui entraîne une distribution a priori biaisée conditionnellement pendant l'entraînement. En revanche, au moment du test, nous n'avons pas accès à cette distribution a priori biaisée et échantillonnons plutôt à partir de la distribution a priori complète et non biaisée. Cet écart entre l'entraînement et le test conduit à une performance médiocre. Pour combler cet écart, nous proposons le transport optimal conditionnel C^2OT qui ajoute un terme de pondération conditionnelle dans la matrice de coût lors du calcul de l'affectation par transport optimal. Les expériences démontrent que cette correction simple fonctionne à la fois avec des conditions discrètes et continues dans les tâches 8gaussians-to-moons, CIFAR-10, ImageNet-32x32 et ImageNet-256x256. Notre méthode surpasse globalement les approches de référence existantes pour différents budgets d'évaluation de fonctions. Le code est disponible à l'adresse https://hkchengrex.github.io/C2OT.
Malgré les performances prometteuses des grands modèles vision-langage (LVLMs) open-source, les attaques ciblées basées sur le transfert échouent souvent contre les LVLMs commerciaux en boîte noire. L'analyse des perturbations adverses infructueuses révèle que les perturbations apprises proviennent généralement d'une distribution uniforme et manquent de détails sémantiques clairs, entraînant des réponses non intentionnées. Cette absence critique d'information sémantique amène les LVLMs commerciaux à ignorer complètement la perturbation ou à mal interpréter sa sémantique intégrée, ce qui fait échouer l'attaque. Pour surmonter ces problèmes, nous remarquons que l'identification des objets sémantiques clés est un objectif principal pour les modèles entraînés avec divers ensembles de données et méthodologies. Cette observation motive notre approche qui affine la clarté sémantique en encodant des détails sémantiques explicites dans des régions locales, assurant ainsi l'interopérabilité et capturant des caractéristiques plus fines, et en concentrant les modifications sur des zones riches en sémantique plutôt que de les appliquer uniformément. Pour y parvenir, nous proposons une solution simple mais très efficace : à chaque étape d'optimisation, l'image adverse est recadrée aléatoirement selon un rapport d'aspect et une échelle contrôlés, redimensionnée, puis alignée avec l'image cible dans l'espace d'embedding. Les résultats expérimentaux confirment notre hypothèse. Nos exemples adverses élaborés avec des perturbations agrégées localement et concentrées sur des régions cruciales présentent une transférabilité étonnamment bonne vers les LVLMs commerciaux, y compris GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, et même des modèles de raisonnement comme o1, Claude-3.7-thinking et Gemini-2.0-flash-thinking. Notre approche atteint des taux de réussite dépassant 90 % sur GPT-4.5, 4o et o1, surpassant significativement toutes les méthodes d'attaque de pointe précédentes. Nos exemples adverses optimisés sous différentes configurations et le code d'entraînement sont disponibles à l'adresse https://github.com/VILA-Lab/M-Attack.
Nous présentons PerCoV2, un nouveau système ouvert de compression d'images perceptuelles à très faible débit, conçu pour des applications contraintes en bande passante et en stockage. S'appuyant sur les travaux antérieurs de Careil et al., PerCoV2 étend la formulation originale à l'écosystème Stable Diffusion 3 et améliore l'efficacité du codage entropique en modélisant explicitement la distribution discrète des hyper-latents d'image. À cette fin, nous menons une comparaison approfondie des méthodes autorégressives récentes (VAR et MaskGIT) pour la modélisation entropique et évaluons notre approche sur le benchmark à grande échelle MSCOCO-30k. Par rapport aux travaux précédents, PerCoV2 (i) atteint une fidélité d'image plus élevée à des débits encore plus faibles tout en maintenant une qualité perceptuelle compétitive, (ii) propose un mode de génération hybride pour des économies supplémentaires de débit, et (iii) est entièrement construit à partir de composants publics. Le code et les modèles entraînés seront disponibles à l'adresse https://github.com/Nikolai10/PerCoV2.
Cet article présente PoseLess, un nouveau cadre de contrôle des mains robotiques qui élimine le besoin d'estimation explicite de la pose en mappant directement des images 2D aux angles des articulations à l'aide de représentations projetées. Notre approche exploite des données d'entraînement synthétiques générées par des configurations articulaires randomisées, permettant une généralisation zero-shot à des scénarios réels et un transfert inter-morphologie des mains robotiques aux mains humaines. En projetant les entrées visuelles et en utilisant un décodeur basé sur des transformateurs, PoseLess réalise un contrôle robuste et à faible latence tout en abordant des défis tels que l'ambiguïté de profondeur et la rareté des données. Les résultats expérimentaux démontrent une performance compétitive en termes de précision de prédiction des angles articulaires sans recourir à aucun ensemble de données annoté manuellement.
La guidance sans classifieur est devenue un élément essentiel pour la génération conditionnelle avec les modèles de diffusion par débruitage. Cependant, une compréhension approfondie de la guidance sans classifieur fait encore défaut. Dans ce travail, nous menons une étude empirique pour offrir une perspective nouvelle sur la guidance sans classifieur. Concrètement, au lieu de se concentrer uniquement sur la guidance sans classifieur, nous remontons à la source, c'est-à-dire la guidance avec classifieur, identifions l'hypothèse clé pour la dérivation, et réalisons une étude systématique pour comprendre le rôle du classifieur. Nous constatons que la guidance avec classifieur et la guidance sans classifieur réalisent toutes deux la génération conditionnelle en éloignant les trajectoires de diffusion par débruitage des frontières de décision, c'est-à-dire des zones où l'information conditionnelle est généralement entrelacée et difficile à apprendre. Sur la base de cette compréhension centrée sur le classifieur, nous proposons une étape générique de post-traitement basée sur l'appariement de flux pour réduire l'écart entre la distribution apprise pour un modèle de diffusion par débruitage pré-entraîné et la distribution réelle des données, principalement autour des frontières de décision. Des expériences sur divers ensembles de données vérifient l'efficacité de l'approche proposée.