Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de transformer à encodeur seul tels que BERT offrent un excellent compromis performance-taille pour les tâches de recherche et de classification par rapport aux modèles de décodeur seul plus grands. Malgré le fait d'être le cheval de bataille de nombreux pipelines de production, il y a eu peu d'améliorations de Pareto apportées à BERT depuis sa sortie. Dans cet article, nous introduisons ModernBERT, apportant des optimisations de modèle modernes aux modèles à encodeur seul et représentant une amélioration de Pareto majeure par rapport aux anciens encodeurs. Entraînés sur 2 billions de jetons avec une longueur de séquence native de 8192, les modèles ModernBERT présentent des résultats de pointe sur un large éventail d'évaluations couvrant diverses tâches de classification et de recherche à la fois sur un seul vecteur et sur plusieurs vecteurs dans différents domaines (y compris le code). En plus de performances solides en aval, ModernBERT est également l'encodeur le plus rapide et le plus efficace en termes de mémoire, conçu pour l'inférence sur des GPU courants.
La production d'animations 2D suit un flux de travail standard de l'industrie, comprenant quatre étapes essentielles : la conception des personnages, l'animation par images clés, l'interpolation et la mise en couleur. Notre recherche se concentre sur la réduction des coûts de main-d'œuvre dans le processus susmentionné en exploitant le potentiel des technologies génératives de l'IA de plus en plus puissantes. En utilisant des modèles de diffusion vidéo comme base, AniDoc se présente comme un outil de colorisation de dessins animés en ligne vidéo, qui convertit automatiquement les séquences de croquis en animations colorées suivant les spécifications du personnage de référence. Notre modèle exploite la correspondance des motifs comme guide explicite, offrant une grande robustesse aux variations (par exemple, la posture) entre le personnage de référence et chaque image en ligne. De plus, notre modèle pourrait même automatiser le processus d'interpolation, permettant aux utilisateurs de créer facilement une animation temporellement cohérente en fournissant simplement une image de personnage ainsi que les croquis de début et de fin. Notre code est disponible sur : https://yihao-meng.github.io/AniDoc_demo.
Nous interagissons avec des ordinateurs quotidiennement, que ce soit dans la vie de tous les jours ou au travail, et de nombreux aspects du travail peuvent être entièrement réalisés avec un ordinateur et Internet. En parallèle, grâce aux améliorations des grands modèles de langage (GML), il y a également eu un développement rapide des agents d'IA qui interagissent et influencent leur environnement. Mais dans quelle mesure les agents d'IA sont-ils performants pour aider à accélérer ou même effectuer de manière autonome des tâches liées au travail ? La réponse à cette question a des implications importantes à la fois pour les entreprises cherchant à intégrer l'IA dans leurs flux de travail, et pour les politiques économiques afin de comprendre les effets que l'adoption de l'IA peut avoir sur le marché du travail. Pour mesurer les progrès de ces agents GML dans l'exécution de tâches professionnelles du monde réel, dans cet article, nous présentons TheAgentCompany, un banc d'essai extensible pour évaluer les agents d'IA qui interagissent avec le monde de manière similaire à celle d'un travailleur numérique : en naviguant sur le Web, en écrivant du code, en exécutant des programmes et en communiquant avec d'autres collègues. Nous créons un environnement autonome avec des sites Web internes et des données qui imitent un environnement de petite entreprise logicielle, et nous créons une variété de tâches pouvant être réalisées par des travailleurs dans une telle entreprise. Nous testons des agents de base alimentés à la fois par des modèles de langage (ML) basés sur des API fermées et des modèles de langage à poids ouverts, et constatons qu'avec l'agent le plus compétitif, 24 % des tâches peuvent être effectuées de manière autonome. Cela offre une image nuancée de l'automatisation des tâches avec les agents ML - dans un environnement simulant un lieu de travail réel, une bonne partie des tâches plus simples pourraient être résolues de manière autonome, mais les tâches plus difficiles à long terme restent encore hors de portée des systèmes actuels.
Dans ce travail, nous remettons en question la nécessité des méthodes de gradient adaptatif pour l'entraînement des réseaux de neurones profonds. SGD-SaI est une amélioration simple mais efficace de la descente de gradient stochastique avec momentum (SGDM). SGD-SaI effectue une Mise à l'échelle du taux d'apprentissage à l'initialisation (SaI) pour des groupes de paramètres distincts, guidée par leurs rapports signal sur bruit de gradient respectifs (g-SNR). En ajustant les taux d'apprentissage sans recourir à un moment d'ordre deux adaptatif, SGD-SaI aide à prévenir les déséquilibres d'entraînement dès la première itération et réduit de moitié l'utilisation de la mémoire de l'optimiseur par rapport à AdamW. Malgré sa simplicité et son efficacité, SGD-SaI égale ou surpasse de manière constante AdamW dans l'entraînement de diverses tâches basées sur des Transformers, surmontant efficacement un défi de longue date lié à l'utilisation de SGD pour l'entraînement de Transformers. SGD-SaI excelle dans la classification ImageNet-1K avec les Vision Transformers (ViT) et la pré-entraînement GPT-2 pour de grands modèles de langage (LLMs, uniquement des décodeurs de transformer), démontrant sa robustesse face aux variations d'hyperparamètres et sa praticité pour des applications diverses. Nous avons également testé sa robustesse sur des tâches telles que l'adaptation fine LoRA pour les LLMs et les modèles de diffusion, où il surpasse de manière constante les optimiseurs de pointe. Du point de vue de l'efficacité mémoire, SGD-SaI permet d'économiser de manière significative la mémoire des états de l'optimiseur, réduisant l'utilisation de la mémoire de 5,93 Go pour GPT-2 (1,5 milliard de paramètres) et de 25,15 Go pour Llama2-7B par rapport à AdamW dans des paramètres d'entraînement en pleine précision.
Les agents d'Interface Utilisateur Graphique (IUG), alimentés par de grands Modèles Fondation, ont émergé comme une approche transformative pour automatiser l'interaction homme-machine. Ces agents interagissent de manière autonome avec des systèmes numériques ou des applications logicielles via des IUG, imitant des actions humaines telles que cliquer, taper et naviguer à travers les éléments visuels sur différentes plateformes. Motivés par l'intérêt croissant et l'importance fondamentale des agents IUG, nous fournissons une enquête approfondie qui catégorise leurs références, métriques d'évaluation, architectures et méthodes d'entraînement. Nous proposons un cadre unifié qui délimite leurs capacités de perception, de raisonnement, de planification et d'action. De plus, nous identifions d'importants défis ouverts et discutons des principales orientations futures. Enfin, ce travail sert de base aux praticiens et chercheurs pour acquérir une compréhension intuitive des progrès actuels, des techniques, des références et des problèmes ouverts critiques qui restent à résoudre.
Les humains possèdent l'intelligence visuo-spatiale pour se souvenir des espaces à partir d'observations visuelles séquentielles. Cependant, est-ce que les Modèles de Langage Multimodaux à Grande Échelle (MLLMs) entraînés sur des ensembles de données vidéo à grande échelle peuvent aussi "penser dans l'espace" à partir de vidéos ? Nous présentons un nouveau banc d'essai d'intelligence visuo-spatiale basé sur la vidéo (VSI-Bench) comprenant plus de 5 000 paires question-réponse, et constatons que les MLLMs présentent une intelligence visuo-spatiale compétitive - bien que sous-humaine. Nous interrogeons les modèles pour qu'ils expriment comment ils pensent dans l'espace à la fois linguistiquement et visuellement, et constatons que bien que les capacités de raisonnement spatial restent le principal goulot d'étranglement pour que les MLLMs atteignent des performances supérieures au banc d'essai, des modèles locaux du monde et une conscience spatiale émergent au sein de ces modèles. Notamment, les techniques de raisonnement linguistique prédominantes (par exemple, la chaîne de pensée, la cohérence interne, l'arbre de pensées) échouent à améliorer les performances, tandis que la génération explicite de cartes cognitives lors de la réponse aux questions améliore la capacité des MLLMs à évaluer les distances spatiales.
La mise à l'échelle de la résolution de l'image d'entrée est essentielle pour améliorer les performances des Modèles Vision Langage (MVL), en particulier dans les tâches de compréhension d'images riches en texte. Cependant, les codeurs visuels populaires tels que les Transformers Vision (ViTs) deviennent inefficaces à haute résolution en raison du grand nombre de jetons et de la latence d'encodage élevée causée par les couches d'auto-attention empilées. À différentes résolutions opérationnelles, le codeur visuel d'un MVL peut être optimisé le long de deux axes : réduire la latence d'encodage et minimiser le nombre de jetons visuels transmis au Modèle Langage (ML), réduisant ainsi la latence globale. Sur la base d'une analyse complète de l'efficacité de l'interaction entre la résolution de l'image, la latence visuelle, le nombre de jetons et la taille du ML, nous introduisons FastVLM, un modèle qui atteint un compromis optimisé entre la latence, la taille du modèle et la précision. FastVLM intègre FastViTHD, un nouveau codeur visuel hybride conçu pour produire moins de jetons et réduire significativement le temps d'encodage pour les images haute résolution. Contrairement aux méthodes précédentes, FastVLM atteint l'équilibre optimal entre le nombre de jetons visuels et la résolution de l'image uniquement en mettant à l'échelle l'image d'entrée, éliminant ainsi le besoin d'élagage de jetons supplémentaire et simplifiant la conception du modèle. Dans la configuration LLaVA-1.5, FastVLM réalise une amélioration de 3,2 fois du temps jusqu'au premier jeton (TTFT) tout en maintenant des performances similaires sur les bancs d'essai des MVL par rapport aux travaux antérieurs. Comparé à LLaVa-OneVision à la résolution la plus élevée (1152 fois 1152), FastVLM atteint des performances comparables sur des bancs d'essai clés comme SeedBench et MMMU, en utilisant le même ML de 0,5 milliard, mais avec un TTFT 85 fois plus rapide et un codeur visuel 3,4 fois plus petit.
Les grands modèles de langage (LLMs) ont connu un succès remarquable, cependant, des découvertes récentes révèlent que leurs couches plus profondes contribuent souvent de manière minimale et peuvent être élaguées sans affecter les performances globales. Alors que certains voient cela comme une opportunité pour la compression de modèle, nous l'identifions comme une lacune dans l'entraînement enracinée dans l'utilisation généralisée de la Normalisation Avant-Couche (Pre-LN). Nous démontrons que la Pre-LN, couramment utilisée dans des modèles tels que GPT et LLaMA, entraîne une diminution des normes de gradient dans ses couches plus profondes, réduisant ainsi leur efficacité. En revanche, la Normalisation Après-Couche (Post-LN) préserve des normes de gradient plus élevées dans les couches plus profondes mais souffre de gradients qui disparaissent dans les couches antérieures. Pour remédier à cela, nous introduisons Mix-LN, une nouvelle technique de normalisation qui combine les avantages de la Pre-LN et de la Post-LN au sein du même modèle. Mix-LN applique la Post-LN aux couches antérieures et la Pre-LN aux couches plus profondes, garantissant des gradients plus uniformes à travers les couches. Cela permet à toutes les parties du réseau - à la fois les couches peu profondes et profondes - de contribuer efficacement à l'entraînement. Des expériences approfondies avec différentes tailles de modèle de 70M à 7B démontrent que Mix-LN surpasse systématiquement à la fois la Pre-LN et la Post-LN, favorisant des normes de gradient plus équilibrées et plus saines dans l'ensemble du réseau, et améliorant la qualité globale de la pré-formation des LLM. De plus, nous démontrons que les modèles pré-entraînés avec Mix-LN apprennent mieux par rapport à ceux utilisant la Pre-LN ou la Post-LN lors du fine-tuning supervisé (SFT) et de l'apprentissage par renforcement à partir des retours humains (RLHF), soulignant l'importance critique des couches profondes de haute qualité. En traitant efficacement les inefficacités des couches profondes dans les LLM actuels, Mix-LN libère leur potentiel, améliorant la capacité du modèle sans augmenter sa taille. Notre code est disponible sur https://github.com/pixeli99/MixLN.
Dans les grands modèles de langage multimodaux (MLLM), les transformateurs de vision (ViTs) sont largement utilisés pour l'encodage visuel. Cependant, leur performance dans la résolution des tâches universelles des MLLM n'est pas satisfaisante. Nous l'attribuons à un manque d'informations provenant de divers niveaux visuels, entravant l'alignement avec les différentes granularités sémantiques requises pour la génération de langage. Pour résoudre ce problème, nous présentons LLaVA-UHD v2, un MLLM avancé centré autour d'un transformateur de fenêtre hiérarchique qui permet de capturer une diversité de granularité visuelle en construisant et en intégrant une pyramide de caractéristiques haute résolution. En tant que projecteur vision-langage, le transformateur Hiwin comprend deux modules principaux : (i) une pyramide de caractéristiques inverse, construite par un processus de sur-échantillonnage de caractéristiques dérivées de ViT utilisant des détails haute fréquence d'une pyramide d'images, et (ii) une attention de fenêtre hiérarchique, se concentrant sur un ensemble de caractéristiques d'échantillonnage clés dans des fenêtres inter-échelles pour condenser des cartes de caractéristiques multi-niveaux. Des expériences approfondies démontrent que LLaVA-UHD v2 atteint des performances supérieures aux MLLM existants sur des benchmarks populaires. Notamment, notre conception apporte une amélioration moyenne de 3,7 % sur 14 benchmarks par rapport à la méthode de référence, 9,3 % sur DocVQA par exemple. Nous mettons toutes les données, les points de contrôle du modèle et le code publiquement disponibles pour faciliter les recherches futures.
Nous présentons FashionComposer pour la génération d'images de mode compositionnelles. Contrairement aux méthodes précédentes, FashionComposer est hautement flexible. Il prend en compte des entrées multimodales (c'est-à-dire, une instruction textuelle, un modèle humain paramétrique, une image de vêtement et une image de visage) et permet de personnaliser l'apparence, la pose et la silhouette de l'humain, tout en attribuant plusieurs vêtements en une seule passe. Pour y parvenir, nous développons d'abord un cadre universel capable de gérer diverses modalités d'entrée. Nous construisons des données d'entraînement adaptées pour améliorer les capacités compositionnelles robustes du modèle. Pour intégrer de manière transparente plusieurs images de référence (vêtements et visages), nous organisons ces références dans une seule image en tant que "bibliothèque de ressources" et utilisons un UNet de référence pour extraire les caractéristiques d'apparence. Pour injecter les caractéristiques d'apparence dans les pixels corrects du résultat généré, nous proposons une attention de liaison de sujet. Cela lie les caractéristiques d'apparence de différents "éléments" avec les caractéristiques textuelles correspondantes. De cette manière, le modèle peut comprendre chaque élément en fonction de leur sémantique, prenant en charge un nombre arbitraire et des types variés d'images de référence. En tant que solution complète, FashionComposer prend également en charge de nombreuses autres applications telles que la génération d'albums humains, diverses tâches d'essayage virtuel, etc.
Cet article présente une approche novatrice qui permet la génération vidéo autoregressive avec une grande efficacité. Nous proposons de reformuler le problème de génération vidéo en tant que modélisation autoregressive non quantifiée de la prédiction temporelle image par image et de la prédiction spatiale ensemble par ensemble. Contrairement à la prédiction par balayage raster dans les modèles autoregressifs précédents ou à la modélisation de la distribution conjointe de jetons de longueur fixe dans les modèles de diffusion, notre approche conserve la propriété causale des modèles de style GPT pour des capacités flexibles en contexte, tout en exploitant la modélisation bidirectionnelle au sein des images individuelles pour l'efficacité. Avec l'approche proposée, nous entraînons un nouveau modèle vidéo autoregressif sans quantification vectorielle, appelé NOVA. Nos résultats démontrent que NOVA surpasse les modèles vidéo autoregressifs précédents en termes d'efficacité des données, de vitesse d'inférence, de fidélité visuelle et de fluidité vidéo, même avec une capacité de modèle beaucoup plus petite, c'est-à-dire 0,6 milliard de paramètres. NOVA surpasse également les modèles de diffusion d'images de pointe dans les tâches de génération de texte vers image, avec un coût d'entraînement significativement plus faible. De plus, NOVA généralise bien sur des durées vidéo étendues et permet diverses applications zero-shot dans un modèle unifié. Le code et les modèles sont disponibles publiquement sur https://github.com/baaivision/NOVA.
Les invitations jouent un rôle crucial dans libérer la puissance des modèles fondamentaux de langage et de vision pour des tâches spécifiques. Pour la première fois, nous introduisons l'utilisation d'invitations dans les modèles fondamentaux de profondeur, créant un nouveau paradigme pour l'estimation de profondeur métrique appelé Profondeur par Invitation. Plus précisément, nous utilisons un LiDAR à faible coût comme invitation pour guider le modèle Profondeur par Invitation vers une sortie de profondeur métrique précise, atteignant une résolution allant jusqu'à 4K. Notre approche repose sur une conception de fusion d'invitation concise qui intègre le LiDAR à plusieurs échelles au sein du décodeur de profondeur. Pour relever les défis d'entraînement posés par des ensembles de données limités contenant à la fois des données de profondeur LiDAR et des données de profondeur GT précises, nous proposons un pipeline de données évolutif qui inclut une simulation de données LiDAR synthétiques et la génération de données de profondeur GT pseudo réelles. Notre approche établit de nouveaux états de l'art sur les ensembles de données ARKitScenes et ScanNet++ et bénéficie aux applications aval, y compris la reconstruction 3D et la préhension robotique généralisée.
Les modèles géospatiaux doivent s'adapter à la diversité des données d'observation de la Terre en termes de résolutions, d'échelles et de modalités. Cependant, les approches existantes s'attendent à des configurations d'entrée fixes, ce qui limite leur applicabilité pratique. Nous proposons AnySat, un modèle multimodal basé sur une architecture prédictive d'incorporation conjointe (JEPA) et des codeurs spatiaux adaptatifs à la résolution, nous permettant de former un seul modèle sur des données très hétérogènes de manière auto-supervisée. Pour démontrer les avantages de cette approche unifiée, nous compilons GeoPlex, une collection de 5 ensembles de données multimodaux avec des caractéristiques variables et 11 capteurs distincts. Nous formons ensuite un seul modèle puissant sur ces ensembles de données diversifiés simultanément. Une fois affiné, nous obtenons de meilleurs résultats ou des résultats proches de l'état de l'art sur les ensembles de données de GeoPlex et 4 autres pour 5 tâches de surveillance de l'environnement : cartographie de l'occupation des sols, identification des espèces d'arbres, classification des types de cultures, détection de changements et segmentation des inondations. Le code et les modèles sont disponibles sur https://github.com/gastruc/AnySat.
Les politiques de diffusion sont devenues largement utilisées en Apprentissage par Imitation, offrant plusieurs propriétés attrayantes, telles que la génération de comportements multimodaux et discontinus. Alors que les modèles deviennent de plus en plus grands pour capturer des capacités plus complexes, leurs exigences computationnelles augmentent, comme le montrent les récentes lois d'échelle. Par conséquent, poursuivre avec les architectures actuelles présentera un obstacle computationnel. Pour combler cette lacune, nous proposons Mélange d'Experts de Débruitage (MoDE) comme une nouvelle politique pour l'Apprentissage par Imitation. MoDE surpasse les politiques de diffusion basées sur les Transformers de pointe actuelles tout en permettant une mise à l'échelle efficace des paramètres grâce à des experts clairsemés et un routage conditionné par le bruit, réduisant à la fois les paramètres actifs de 40 % et les coûts d'inférence de 90 % via la mise en cache des experts. Notre architecture combine cette mise à l'échelle efficace avec un mécanisme d'auto-attention conditionné par le bruit, permettant un débruitage plus efficace à travers différents niveaux de bruit. MoDE atteint des performances de pointe sur 134 tâches dans quatre benchmarks d'apprentissage par imitation établis (CALVIN et LIBERO). Notamment, en pré-entraînant MoDE sur des données robotiques diverses, nous obtenons 4,01 sur CALVIN ABC et 0,95 sur LIBERO-90. Il surpasse à la fois les politiques de diffusion basées sur les CNN et les Transformers de pointe de 57 % en moyenne sur 4 benchmarks, tout en utilisant 90 % de FLOPs en moins et moins de paramètres actifs par rapport aux architectures de Transformers de diffusion par défaut. De plus, nous menons des ablations approfondies sur les composants de MoDE, fournissant des informations pour la conception d'architectures de Transformers efficaces et évolutives pour les politiques de diffusion. Le code et les démonstrations sont disponibles sur https://mbreuss.github.io/MoDE_Diffusion_Policy/.
L'apprentissage évolutif des robots humanoïdes est crucial pour leur déploiement dans des applications du monde réel. Alors que les approches traditionnelles reposent principalement sur l'apprentissage par renforcement ou la téléopération pour parvenir à un contrôle complet du corps, elles sont souvent limitées par la diversité des environnements simulés et les coûts élevés de collecte des démonstrations. En revanche, les vidéos humaines sont omniprésentes et constituent une source inexploitée d'informations sémantiques et de mouvement qui pourraient améliorer considérablement les capacités de généralisation des robots humanoïdes. Ce document présente Humanoid-X, un ensemble de données à grande échelle de plus de 20 millions de poses de robots humanoïdes avec des descriptions de mouvement basées sur du texte correspondantes, conçu pour exploiter ces données abondantes. Humanoid-X est élaboré à travers un processus complet : extraction de données sur Internet, génération de légendes vidéo, retargeting de mouvement des humains vers les robots humanoïdes, et apprentissage de politiques pour le déploiement dans le monde réel. Avec Humanoid-X, nous entraînons en outre un grand modèle humanoïde, UH-1, qui prend des instructions textuelles en entrée et produit des actions correspondantes pour contrôler un robot humanoïde. Des expériences étendues simulées et réelles valident que notre approche d'entraînement évolutif conduit à une meilleure généralisation dans le contrôle humanoïde basé sur du texte, marquant une avancée significative vers des robots humanoïdes adaptables et prêts pour le monde réel.
Malgré les progrès significatifs réalisés par les modèles de langage augmentés par récupération (RALM) existants pour fournir des réponses fiables et ancrées dans des sources crédibles, ils négligent souvent un alignement efficace avec les préférences humaines. Dans le processus d'alignement, les modèles de récompense (RM) agissent comme un proxy crucial des valeurs humaines pour guider l'optimisation. Cependant, il reste encore flou comment évaluer et sélectionner un RM fiable pour l'alignement des préférences dans les RALM. À cette fin, nous proposons RAG-RewardBench, le premier banc d'essai pour évaluer les RM dans les paramètres RAG. Tout d'abord, nous concevons quatre scénarios cruciaux et complexes spécifiques aux RAG pour évaluer les RM, comprenant un raisonnement multi-sauts, une citation détaillée, une abstention appropriée et une robustesse aux conflits. Ensuite, nous incorporons 18 sous-ensembles RAG, six récupérateurs et 24 RALM pour accroître la diversité des sources de données. Enfin, nous adoptons une approche LLM-comme-juge pour améliorer l'efficacité et l'efficience de l'annotation des préférences, présentant une forte corrélation avec les annotations humaines. Sur la base de RAG-RewardBench, nous menons une évaluation complète de 45 RM et mettons en lumière leurs limites dans les scénarios RAG. De plus, nous révélons également que les RALM existants entraînés ne montrent presque aucune amélioration dans l'alignement des préférences, soulignant le besoin d'une transition vers une formation alignée sur les préférences. Nous mettons notre banc d'essai et notre code publiquement à disposition sur https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ pour les travaux futurs.
L'encodage du contenu vidéo en jetons latents compacts est devenu une étape fondamentale dans la génération et la compréhension de vidéos, motivé par la nécessité de traiter la redondance inhérente aux représentations au niveau des pixels. Par conséquent, il existe une demande croissante pour des tokeniseurs vidéo open source haute performance, alors que la recherche centrée sur la vidéo gagne en importance. Nous présentons VidTok, un tokeniseur vidéo polyvalent qui offre des performances de pointe à la fois dans les tokenisations continues et discrètes. VidTok intègre plusieurs avancées clés par rapport aux approches existantes : 1) une architecture de modèle telle que des couches convolutionnelles et des modules d'échantillonnage haut/bas ; 2) pour résoudre l'instabilité de l'entraînement et l'effondrement du codebook généralement associés à la Quantification Vectorielle (VQ) conventionnelle, nous intégrons la Quantification Scalaire Finie (FSQ) dans la tokenisation vidéo discrète ; 3) des stratégies d'entraînement améliorées, comprenant un processus d'entraînement en deux étapes et l'utilisation de taux d'images réduits. En intégrant ces avancées, VidTok réalise des améliorations substantielles par rapport aux méthodes existantes, démontrant des performances supérieures sur plusieurs métriques, y compris le PSNR, le SSIM, le LPIPS et le FVD, dans des paramètres d'évaluation standardisés.
Des recherches récentes arXiv:2410.15027 arXiv:2410.23775 ont mis en lumière les capacités intrinsèques de génération en contexte des transformateurs de diffusion pré-entraînés (DiTs), leur permettant de s'adapter de manière transparente à diverses tâches visuelles avec des modifications architecturales minimales ou nulles. Ces capacités sont débloquées en concaténant des jetons d'auto-attention à travers plusieurs images d'entrée et cibles, combinées avec des pipelines de génération groupés et masqués. En s'appuyant sur cette base, nous présentons ChatDiT, un cadre de génération visuelle interactif, généraliste et sans réglage qui exploite les transformateurs de diffusion pré-entraînés dans leur forme originale, ne nécessitant aucun réglage supplémentaire, adaptateurs ou modifications. Les utilisateurs peuvent interagir avec ChatDiT pour créer des articles texte-image entrelacés, des livres d'images multi-pages, éditer des images, concevoir des dérivés de PI ou développer des paramètres de conception de personnages, le tout à travers un langage naturel libre sur un ou plusieurs tours de conversation. Au cœur de ChatDiT se trouve un système multi-agent comprenant trois composants clés : un agent d'analyse d'instructions qui interprète les images et instructions téléchargées par l'utilisateur, un agent de planification de stratégie qui conçoit des actions de génération en une seule étape ou multi-étapes, et un agent d'exécution qui effectue ces actions en utilisant une boîte à outils en contexte de transformateurs de diffusion. Nous évaluons en détail ChatDiT sur IDEA-Bench arXiv:2412.11767, comprenant 100 tâches de conception du monde réel et 275 cas avec des instructions diverses et des nombres variables d'images d'entrée et cibles. Malgré sa simplicité et son approche sans entraînement, ChatDiT surpasse tous les concurrents, y compris ceux spécifiquement conçus et entraînés sur des ensembles de données multi-tâches étendus. Nous identifions en outre les limitations clés des DiTs pré-entraînés dans leur adaptation sans réglage aux tâches. Nous mettons à disposition tout le code, les agents, les résultats et les sorties intermédiaires pour faciliter de nouvelles recherches sur https://github.com/ali-vilab/ChatDiT
Nous présentons une démonstration d'un grand modèle de langage s'engageant dans la falsification d'alignement : se conformant sélectivement à son objectif d'entraînement afin d'éviter toute modification de son comportement en dehors de l'entraînement. Tout d'abord, nous donnons à Claude 3 Opus une instruction système indiquant qu'il est formé pour répondre à toutes les requêtes, même celles nuisibles, ce qui entre en conflit avec sa formation antérieure à refuser de telles requêtes. Pour permettre au modèle de déduire quand il est en phase d'entraînement, nous précisons qu'il sera formé uniquement sur des conversations avec des utilisateurs gratuits, et non payants. Nous constatons que le modèle se conforme aux requêtes nuisibles des utilisateurs gratuits 14% du temps, contre presque jamais pour les utilisateurs payants. En expliquant cet écart, dans presque tous les cas où le modèle se conforme à une requête nuisible d'un utilisateur gratuit, nous observons un raisonnement explicite de falsification d'alignement, le modèle déclarant répondre stratégiquement aux requêtes nuisibles en entraînement pour préserver son comportement préféré d'inoffensivité en dehors de l'entraînement. Ensuite, nous étudions un cadre plus réaliste où des informations sur le processus d'entraînement sont fournies non dans une instruction système, mais en formant sur des documents synthétiques imitant les données de pré-entraînement - et observons une falsification d'alignement similaire. Enfin, nous étudions l'effet de l'entraînement réel du modèle à se conformer à des requêtes nuisibles via l'apprentissage par renforcement, ce qui augmente le taux de raisonnement de falsification d'alignement à 78%, bien qu'il augmente également la conformité même en dehors de l'entraînement. Nous observons également d'autres comportements tels que le modèle exfiltrant ses poids lorsqu'il a une opportunité facile. Bien que nous ayons facilité la falsification d'alignement en indiquant au modèle quand et selon quels critères il était formé, nous n'avons pas instruit le modèle à falsifier l'alignement ni lui donné un objectif explicite. Comme les futurs modèles pourraient déduire des informations sur leur processus d'entraînement sans être informés, nos résultats suggèrent un risque de falsification d'alignement dans les futurs modèles, que ce soit en raison d'une préférence bénigne - comme dans ce cas - ou non.
Les modèles de Conception Assistée par Ordinateur (CAO) sont généralement construits en dessinant séquentiellement des croquis paramétriques et en appliquant des opérations de CAO pour obtenir un modèle 3D. Le problème de l'ingénierie inverse de CAO 3D consiste à reconstruire les séquences de croquis et d'opérations de CAO à partir de représentations 3D telles que des nuages de points. Dans cet article, nous abordons ce défi à travers des contributions novatrices à trois niveaux : la représentation des séquences de CAO, la conception du réseau et l'ensemble de données. En particulier, nous représentons les séquences de croquis-extrusion de CAO sous forme de code Python. Le CAD-Recode proposé traduit un nuage de points en code Python qui, une fois exécuté, reconstruit le modèle CAO. En exploitant l'exposition des Grands Modèles de Langage Pré-entraînés (LLM) au code Python, nous utilisons un LLM relativement petit en tant que décodeur pour CAD-Recode et le combinons avec un projecteur de nuage de points léger. CAD-Recode est entraîné uniquement sur un ensemble de données synthétiques proposé de un million de séquences de CAO diverses. CAD-Recode surpasse significativement les méthodes existantes sur trois ensembles de données tout en nécessitant moins de points d'entrée. Notamment, il atteint une distance de Chamfer moyenne 10 fois inférieure aux méthodes de pointe sur les ensembles de données DeepCAD et Fusion360. De plus, nous montrons que notre code Python de CAO en sortie est interprétable par des LLM prêts à l'emploi, permettant l'édition de CAO et la réponse à des questions spécifiques à la CAO à partir de nuages de points.
La contamination des données entrave l'évaluation juste des LLM en introduisant des données de test dans les ensembles d'entraînement des nouveaux modèles. Les études existantes résolvent ce défi en mettant à jour les références avec des données nouvellement collectées. Cependant, elles ne parviennent pas à garantir une évaluation sans contamination car les données nouvellement collectées peuvent contenir des connaissances préexistantes, et leurs mises à jour de références reposent sur un travail humain intensif. Pour résoudre ces problèmes, nous proposons dans cet article AntiLeak-Bench, un cadre automatisé de référencement anti-fuite. Au lieu d'utiliser simplement des données nouvellement collectées, nous construisons des échantillons avec des connaissances explicitement nouvelles absentes des ensembles d'entraînement des LLM, ce qui garantit ainsi une évaluation strictement sans contamination. Nous concevons en outre un flux de travail entièrement automatisé pour construire et mettre à jour notre référence sans travail humain. Cela réduit considérablement le coût de maintenance de la référence pour s'adapter aux LLM émergents. À travers des expériences approfondies, nous soulignons que la contamination des données existe probablement avant l'heure de coupure des LLM et démontrons qu'AntiLeak-Bench surmonte efficacement ce défi.
Les documents historiques renferment une richesse de trésors culturels mais souffrent de dommages sévères tels que des caractères manquants, des dommages au papier et une érosion de l'encre au fil du temps. Cependant, les méthodes existantes de traitement de documents se concentrent principalement sur la binarisation, l'amélioration, etc., en négligeant la réparation de ces dommages. À cette fin, nous présentons une nouvelle tâche, appelée Réparation de Documents Historiques (HDR), qui vise à prédire l'apparence originale des documents historiques endommagés. Pour combler cette lacune dans ce domaine, nous proposons un ensemble de données à grande échelle HDR28K et un réseau basé sur la diffusion, DiffHDR, pour la réparation de documents historiques. Plus précisément, HDR28K contient 28 552 paires d'images endommagées-réparées avec des annotations au niveau des caractères et des dégradations multi-styles. De plus, DiffHDR augmente le cadre de diffusion de base avec des informations sémantiques et spatiales ainsi qu'une perte perceptuelle de caractères minutieusement conçue pour la cohérence contextuelle et visuelle. Les résultats expérimentaux montrent que le DiffHDR proposé, entraîné à l'aide de HDR28K, surpasse significativement les approches existantes et présente des performances remarquables dans le traitement de vrais documents endommagés. Notamment, DiffHDR peut également être étendu à l'édition de documents et à la génération de blocs de texte, démontrant ainsi sa grande flexibilité et sa capacité de généralisation. Nous pensons que cette étude pourrait ouvrir une nouvelle voie dans le traitement de documents et contribuer à la transmission des cultures et civilisations inestimables. L'ensemble de données et le code sont disponibles sur https://github.com/yeungchenwa/HDR.