Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les capacités multimodales saillantes et l'expérience interactive de GPT-4o soulignent son rôle crucial dans les applications pratiques, cependant il lui manque un équivalent open-source performant. Dans cet article, nous présentons Baichuan-Omni, le premier Modèle de Langage Large Multimodal (MLLM) open-source de 7 milliards d'éléments capable de traiter et d'analyser simultanément les modalités d'image, de vidéo, d'audio et de texte, tout en offrant une expérience interactive multimodale avancée et des performances solides. Nous proposons un schéma d'entraînement multimodal efficace commençant par un modèle de 7 milliards d'éléments et se déroulant à travers deux étapes d'alignement multimodal et de fine-tuning multitâche à travers les modalités audio, image, vidéo et texte. Cette approche dote le modèle de langage de la capacité de traiter efficacement les données visuelles et audio. En démontrant des performances solides à travers divers benchmarks omni-modaux et multimodaux, nous visons à faire de cette contribution une référence compétitive pour la communauté open-source dans l'avancement de la compréhension multimodale et de l'interaction en temps réel.
Les modèles de diffusion, tels que la Diffusion Stable, ont réalisé des avancées significatives dans la génération visuelle, cependant leur paradigme reste fondamentalement différent des modèles de langage autorégressifs, ce qui complique le développement de modèles unifiés de langage-vision. Des efforts récents comme LlamaGen ont tenté la génération d'images autorégressive en utilisant des jetons discrets VQVAE, mais le grand nombre de jetons impliqués rend cette approche inefficace et lente. Dans ce travail, nous présentons Meissonic, qui élève la modélisation d'images masquées non autorégressives (MIM) texte-vers-image à un niveau comparable aux modèles de diffusion de pointe comme SDXL. En incorporant une gamme complète d'innovations architecturales, des stratégies avancées de codage positionnel et des conditions d'échantillonnage optimisées, Meissonic améliore considérablement les performances et l'efficacité de MIM. De plus, nous exploitons des données d'entraînement de haute qualité, intégrons des micro-conditions informées par des scores de préférence humaine, et utilisons des couches de compression de caractéristiques pour améliorer encore la fidélité et la résolution des images. Notre modèle égale non seulement mais dépasse souvent les performances des modèles existants comme SDXL dans la génération d'images de haute qualité et haute résolution. Des expériences approfondies valident les capacités de Meissonic, démontrant son potentiel en tant que nouvelle norme dans la synthèse texte-vers-image. Nous mettons à disposition un point de contrôle de modèle capable de produire des images en résolution 1024 fois 1024.
La génération augmentée par récupération (RAG) est un moyen clé d'améliorer efficacement les grands modèles de langage (LLM) dans de nombreuses tâches basées sur la connaissance. Cependant, les méthodes RAG existantes rencontrent des difficultés avec les tâches de raisonnement intensif en connaissances, car les informations utiles nécessaires à ces tâches sont mal réparties. Cette caractéristique rend difficile pour les méthodes RAG existantes d'identifier avec précision les informations clés et d'effectuer un raisonnement global avec une telle augmentation bruyante. Dans cet article, motivés par les théories cognitives selon lesquelles les humains convertissent les informations brutes en diverses connaissances structurées lorsqu'ils abordent des tâches de raisonnement intensif en connaissances, nous proposons un nouveau cadre, StructRAG, qui peut identifier le type de structure optimal pour la tâche en cours, reconstruire les documents originaux dans ce format structuré, et inférer des réponses basées sur la structure résultante. Des expériences approfondies menées sur diverses tâches intensives en connaissances montrent que StructRAG atteint des performances de pointe, se distinguant particulièrement dans des scénarios difficiles, démontrant ainsi son potentiel en tant que solution efficace pour améliorer les LLM dans des applications réelles complexes.
Les grands modèles de langage vision (VLM), qui combinent de grands modèles de langage avec des encodeurs visuels, montrent des promesses dans diverses tâches. Cependant, ils ont souvent des performances inférieures dans des applications spécifiques en raison des écarts de domaine entre la pré-formation et l'optimisation fine. Nous introduisons VITask, un nouveau cadre qui améliore l'adaptabilité spécifique à la tâche des VLM en intégrant des modèles spécifiques à la tâche (TSM). VITask utilise trois stratégies clés : l'incitation par exemple (EP), l'alignement de la distribution des réponses (RDA) et l'ajustement contrastif des réponses (CRT) pour améliorer les performances spécifiques à la tâche des VLM en ajustant leurs distributions de réponses. EP permet aux caractéristiques des TSM de guider les VLM, tandis que RDA permet aux VLM de s'adapter sans les TSM lors de l'inférence en apprenant des modèles incités par des exemples. CRT optimise en outre le classement des paires image-réponse correctes, réduisant ainsi le risque de générer des réponses indésirables. Des expériences sur 12 ensembles de données de diagnostic médical couvrant 9 modalités d'imagerie montrent que VITask surpasse à la fois les VLMs accordés aux instructions de base et les TSM, démontrant sa capacité à intégrer efficacement des caractéristiques complémentaires des deux modèles. De plus, VITask offre des avantages pratiques tels qu'une intégration flexible des TSM et une robustesse aux instructions incomplètes, en faisant une solution polyvalente et efficace pour l'optimisation des VLM spécifiques à la tâche. Notre code est disponible sur https://github.com/baiyang4/VITask.
La sélection efficace des données est cruciale pour accélérer la préformation des grands modèles de langage (GML). Bien que diverses méthodes aient été proposées pour améliorer l'efficacité des données, peu de recherches ont abordé les conflits inhérents entre ces approches pour parvenir à une sélection optimale des données pour la préformation des GML. Pour résoudre ce problème, nous proposons un nouveau mécanisme de sélection de données collaboratif multi-agent. Dans ce cadre, chaque méthode de sélection de données agit comme un agent indépendant, et une console d'agent est conçue pour intégrer dynamiquement les informations de tous les agents tout au long du processus de formation des GML. Nous menons des études empiriques approfondies pour évaluer notre cadre multi-agent. Les résultats expérimentaux montrent que notre approche améliore significativement l'efficacité des données, accélère la convergence dans la formation des GML et obtient un gain de performance moyen de 10,5 % sur plusieurs référentiels de modèles de langage par rapport aux méthodes de pointe.
Comprendre comment les caractéristiques évoluent à travers les couches des réseaux neuronaux profonds est un défi fondamental en termes d'interprétabilité mécaniste, en particulier en raison de la polysémie et de la superposition des caractéristiques. Alors que les autoencodeurs parcimonieux (SAEs) ont été utilisés pour extraire des caractéristiques interprétables des couches individuelles, l'alignement de ces caractéristiques à travers les couches est resté un problème ouvert. Dans cet article, nous présentons SAE Match, une nouvelle méthode sans données pour aligner les caractéristiques des SAE à travers différentes couches d'un réseau neuronal. Notre approche implique d'aligner les caractéristiques en minimisant l'erreur quadratique moyenne entre les paramètres pliés des SAE, une technique qui intègre les seuils d'activation dans les poids de l'encodeur et du décodeur pour prendre en compte les différences d'échelle des caractéristiques. À travers des expériences approfondies sur le modèle de langage Gemma 2, nous démontrons que notre méthode capture efficacement l'évolution des caractéristiques à travers les couches, améliorant la qualité de l'alignement des caractéristiques. Nous montrons également que les caractéristiques persistent sur plusieurs couches et que notre approche peut approximer les états cachés à travers les couches. Notre travail fait progresser la compréhension de la dynamique des caractéristiques dans les réseaux neuronaux et fournit un nouvel outil pour les études d'interprétabilité mécaniste.
Les récents progrès dans les modèles de génération ont mis en lumière des capacités remarquables à produire du contenu fantastique. Cependant, la plupart d'entre eux sont entraînés sur des données propriétaires de haute qualité, et certains modèles retiennent leurs paramètres et ne fournissent que des interfaces de programmation d'applications (API) accessibles, limitant ainsi leurs avantages pour les tâches en aval. Pour explorer la faisabilité de former un modèle de génération texte-image comparable aux modèles avancés en utilisant des ressources disponibles publiquement, nous introduisons EvolveDirector. Ce cadre interagit avec les modèles avancés via leurs API publiques pour obtenir des paires de données texte-image afin de former un modèle de base. Nos expériences avec des données étendues indiquent que le modèle formé sur des données générées par le modèle avancé peut approximer sa capacité de génération. Cependant, cela nécessite des échantillons à grande échelle de 10 millions ou plus. Cela entraîne des dépenses significatives en termes de temps, de ressources informatiques et surtout les coûts associés à l'utilisation d'API payantes. Pour résoudre ce problème, nous exploitons des modèles pré-entraînés de grande taille vision-langage (VLM) pour guider l'évolution du modèle de base. Le VLM évalue continuellement le modèle de base pendant l'entraînement et met à jour et affine dynamiquement l'ensemble de données d'entraînement par des opérations de discrimination, d'expansion, de suppression et de mutation. Les résultats expérimentaux montrent que ce paradigme réduit significativement le volume de données requis. De plus, lors de l'approche de plusieurs modèles avancés, EvolveDirector peut sélectionner les meilleurs échantillons générés par eux pour acquérir des capacités puissantes et équilibrées. Le modèle entraîné final, Edgen, est démontré comme surpassant ces modèles avancés. Le code et les poids du modèle sont disponibles sur https://github.com/showlab/EvolveDirector.
Les grands modèles de langage (LLM) tels que GPT-4, PaLM et LLaMA ont montré des améliorations significatives dans diverses tâches de raisonnement. Cependant, des modèles plus petits tels que Llama-3-8B et DeepSeekMath-Base ont encore du mal avec le raisonnement mathématique complexe car ils échouent à identifier et corriger efficacement les erreurs de raisonnement. Les récentes méthodes basées sur la réflexion visent à résoudre ces problèmes en permettant l'auto-réflexion et l'auto-correction, mais elles rencontrent encore des défis pour détecter indépendamment les erreurs dans leurs étapes de raisonnement. Pour surmonter ces limitations, nous proposons SuperCorrect, un nouveau cadre en deux étapes qui utilise un grand modèle enseignant pour superviser et corriger à la fois les processus de raisonnement et de réflexion d'un modèle étudiant plus petit. Dans la première étape, nous extrayons des modèles enseignants des modèles de pensée hiérarchiques de haut niveau et détaillés pour guider le modèle étudiant dans l'élucidation de pensées de raisonnement plus fines. Dans la deuxième étape, nous introduisons une optimisation de préférence directe collaborative entre modèles (DPO) pour améliorer les capacités d'auto-correction du modèle étudiant en suivant les traces de correction du modèle enseignant pendant l'entraînement. Cette approche DPO entre modèles enseigne au modèle étudiant à localiser et résoudre efficacement les pensées erronées avec des idées basées sur les erreurs du modèle enseignant, brisant le goulot d'étranglement de ses pensées et acquérant de nouvelles compétences et connaissances pour relever des problèmes complexes. Des expériences approfondies démontrent de manière cohérente notre supériorité par rapport aux méthodes précédentes. Notamment, notre modèle SuperCorrect-7B surpasse significativement le puissant DeepSeekMath-7B de 7,8%/5,3% et Qwen2.5-Math-7B de 15,1%/6,3% sur les référentiels MATH/GSM8K, atteignant de nouvelles performances de pointe parmi tous les modèles 7B. Code : https://github.com/YangLing0818/SuperCorrect-llm
Les grands modèles de langage (LLMs) démontrent des capacités impressionnantes dans divers domaines, tels que le jeu de rôle, l'écriture créative, le raisonnement mathématique et la programmation. Malgré ces avancées, les LLMs rencontrent toujours des défis en matière de contrôle de longueur, échouant fréquemment à respecter des contraintes de longueur spécifiques en raison de leurs opérations au niveau du jeton et d'un entraînement insuffisant sur des données avec des limitations strictes de longueur. Nous identifions ce problème comme découlant d'un manque de conscience positionnelle et proposons des approches novatrices - le PositionID Prompting et le PositionID Fine-Tuning - pour y remédier. Ces méthodes améliorent la capacité du modèle à surveiller et gérer continuellement la longueur du texte lors de la génération. De plus, nous introduisons le PositionID CP Prompting pour permettre aux LLMs d'effectuer des opérations de copier-coller avec précision. En outre, nous développons deux référentiels pour évaluer le contrôle de la longueur et les capacités de copier-coller. Nos expériences démontrent que nos méthodes améliorent significativement le respect des contraintes de longueur par le modèle et la précision du copier-coller sans compromettre la qualité des réponses.
La génération d'actifs 3D de haute qualité à partir de descriptions textuelles demeure un défi crucial dans la recherche en infographie et vision par ordinateur. En raison de la rareté des données 3D, les approches de pointe utilisent des préalables de diffusion 2D pré-entraînés, optimisés par l'échantillonnage de distillation de score (SDS). Malgré les progrès réalisés, la création de scènes 3D complexes comportant plusieurs objets ou interactions complexes reste difficile. Pour relever ce défi, les méthodes récentes ont incorporé des indications de boîte ou de disposition. Cependant, ces méthodes compositionnelles guidées par la disposition ont souvent du mal à fournir un contrôle détaillé, car elles sont généralement grossières et manquent d'expressivité. Pour surmonter ces défis, nous introduisons une nouvelle approche SDS, l'échantillonnage de distillation de score sémantique (SemanticSDS), conçue pour améliorer efficacement l'expressivité et la précision de la génération textuelle vers 3D. Notre approche intègre de nouveaux plongements sémantiques qui maintiennent la cohérence à travers différentes vues de rendu et différencient clairement entre différents objets et parties. Ces plongements sont transformés en une carte sémantique, qui guide un processus SDS spécifique à la région, permettant une optimisation précise et une génération compositionnelle. En exploitant un guidage sémantique explicite, notre méthode libère les capacités compositionnelles des modèles de diffusion pré-entraînés existants, atteignant ainsi une qualité supérieure dans la génération de contenu 3D, notamment pour des objets et scènes complexes. Les résultats expérimentaux démontrent que notre cadre SemanticSDS est très efficace pour générer du contenu 3D complexe de pointe. Code : https://github.com/YangLing0818/SemanticSDS-3D
L'inférence avec les modèles de langage basés sur les transformers commence par une étape de traitement de l'invite. Dans cette étape, le modèle génère le premier jeton de sortie et stocke le cache KV nécessaire pour les futures étapes de génération. Cette étape de traitement de l'invite peut être coûteuse en termes de calcul, prenant 10 secondes ou plus pour les modèles à un milliard de paramètres sur des appareils périphériques lorsque les longueurs des invites ou les tailles des lots augmentent. Cela dégrade l'expérience utilisateur en introduisant une latence significative dans les sorties du modèle. Pour réduire le temps passé à produire le premier jeton de sortie (connu sous le nom de "temps jusqu'au premier jeton", ou TTFT) d'un modèle pré-entraîné, nous introduisons une nouvelle méthode appelée Prédiction KV. Dans notre méthode, un petit modèle auxiliaire est utilisé pour traiter l'invite et produire une approximation du cache KV utilisé par un modèle de base. Ce cache KV approximé est ensuite utilisé avec le modèle de base pour une génération autorégressive sans avoir besoin d'interroger à nouveau le modèle auxiliaire. Nous démontrons que notre méthode produit un compromis efficacité-précision optimal de Pareto par rapport aux références. Sur TriviaQA, nous démontrons des améliorations de précision relatives dans une fourchette de 15 % à 50 % sur une gamme de budgets de FLOPs TTFT. Nous démontrons également des améliorations de précision allant jusqu'à 30 % sur la complétion de code Python HumanEval à des budgets FLOPs TTFT fixes. De plus, nous évaluons les modèles sur un processeur Apple M2 Pro et démontrons que notre amélioration en FLOPs se traduit par une accélération du TTFT sur le matériel. Nous mettons notre code à disposition sur https://github.com/apple/corenet/tree/main/projects/kv-prediction.
La diffusion discrète a atteint des performances de pointe, surpassant ou se rapprochant des modèles autorégressifs sur des référentiels standard. Dans ce travail, nous introduisons la Diffusion Discrète avec Débruitage Planifié (DDPD), un nouveau cadre qui sépare le processus de génération en deux modèles : un planificateur et un débruiteur. Au moment de l'inférence, le planificateur sélectionne les positions à débruiter ensuite en identifiant les positions les plus corrompues nécessitant un débruitage, comprenant à la fois celles initialement corrompues et celles nécessitant un affinement supplémentaire. Cette approche de planification et de débruitage permet une reconstruction plus efficace pendant la génération en identifiant et en débruitant de manière itérative les corruptions dans l'ordre optimal. DDPD surpasse les méthodes traditionnelles de diffusion de masque uniquement débruiteur, obtenant des résultats supérieurs sur des référentiels de modélisation de langage tels que text8, OpenWebText, et la génération basée sur les jetons sur ImageNet 256 fois 256. Notamment, en modélisation de langage, DDPD réduit significativement l'écart de performance entre les méthodes basées sur la diffusion et autorégressives en termes de perplexité générative. Le code est disponible sur https://github.com/liusulin/DDPD.
Nous présentons ZeroComp, une approche efficace de composition d'objets 3D sans apprentissage supervisé qui ne nécessite pas d'images de scènes composites appariées pendant l'entraînement. Notre méthode exploite ControlNet pour se conditionner à partir d'images intrinsèques et la combine avec un modèle de diffusion stable pour utiliser ses connaissances a priori sur les scènes, fonctionnant ensemble comme un moteur de rendu efficace. Pendant l'entraînement, ZeroComp utilise des images intrinsèques basées sur la géométrie, l'albédo et le masquage des ombres, le tout sans avoir besoin d'images appariées de scènes avec et sans objets composites. Une fois entraîné, il intègre de manière transparente des objets virtuels 3D dans les scènes, ajustant les ombres pour créer des composites réalistes. Nous avons développé un ensemble de données d'évaluation de haute qualité et démontrons que ZeroComp surpasse les méthodes utilisant des estimations d'éclairage explicites et des techniques génératives dans des benchmarks quantitatifs et de perception humaine. De plus, ZeroComp s'étend à la composition d'images réelles et en extérieur, même lorsqu'il est entraîné uniquement sur des données synthétiques d'intérieur, démontrant ainsi son efficacité en matière de composition d'images.
Les Transformateurs de Flux Rectifiés (RFT) offrent une efficacité supérieure en matière d'entraînement et d'inférence, ce qui en fait probablement la direction la plus viable pour l'extension des modèles de diffusion. Cependant, les progrès dans la résolution de génération ont été relativement lents en raison de la qualité des données et des coûts d'entraînement. L'extrapolation de résolution sans réglage présente une alternative, mais les méthodes actuelles réduisent souvent la stabilité générative, limitant ainsi l'application pratique. Dans cet article, nous passons en revue les méthodes d'extrapolation de résolution existantes et introduisons le cadre I-Max pour maximiser le potentiel de résolution des RFT Texte-vers-Image. I-Max présente : (i) une nouvelle stratégie de Flux Projeté pour une extrapolation stable et (ii) une boîte à outils d'inférence avancée pour généraliser les connaissances du modèle à des résolutions plus élevées. Des expériences avec Lumina-Next-2K et Flux.1-dev démontrent la capacité d'I-Max à améliorer la stabilité dans l'extrapolation de résolution et montrent qu'il peut apporter l'émergence de détails d'image et la correction d'artefacts, confirmant ainsi la valeur pratique de l'extrapolation de résolution sans réglage.
Nous présentons DA-Code, un banc d'essai de génération de code spécifiquement conçu pour évaluer les LLM sur des tâches de science des données basées sur des agents. Ce banc d'essai comprend trois éléments principaux : Tout d'abord, les tâches de DA-Code sont intrinsèquement difficiles, les distinguant des tâches traditionnelles de génération de code et exigeant des compétences avancées en codage, en ancrage et en planification. Deuxièmement, les exemples de DA-Code sont tous basés sur des données réelles et diverses, couvrant un large éventail de tâches complexes de manipulation et d'analyse de données. Troisièmement, pour résoudre les tâches, les modèles doivent utiliser des langages de programmation complexes en science des données, pour effectuer un traitement de données complexe et déduire les réponses. Nous avons mis en place le banc d'essai dans un environnement contrôlable et exécutable qui correspond à des scénarios d'analyse de données du monde réel et qui est évolutif. Les annotateurs conçoivent méticuleusement la suite d'évaluation pour garantir l'exactitude et la robustesse de l'évaluation. Nous développons la ligne de base DA-Agent. Les expériences montrent que bien que la ligne de base performe mieux que d'autres cadres existants, l'utilisation des LLM actuels les plus performants n'atteint qu'une précision de 30,5 %, laissant ainsi une marge de progression importante. Nous mettons notre banc d'essai à disposition sur https://da-code-bench.github.io.
La prolifération de contenus de "fausses" nouvelles inflammatoires ou trompeuses est devenue de plus en plus courante ces dernières années. Parallèlement, il est plus facile que jamais d'utiliser des outils d'IA pour générer des images photoréalistes représentant n'importe quelle scène imaginable. La combinaison de ces deux éléments - des contenus de fausses nouvelles générés par l'IA - est particulièrement puissante et dangereuse. Pour lutter contre la propagation de fausses nouvelles générées par l'IA, nous proposons le jeu de données MiRAGeNews, un ensemble de données de 12 500 paires image-légende réelles et générées par l'IA de haute qualité provenant de générateurs de pointe. Nous constatons que notre ensemble de données pose un défi significatif aux humains (60% F-1) et aux LLM multi-modaux de pointe (< 24% F-1). En utilisant notre ensemble de données, nous formons un détecteur multi-modal (MiRAGe) qui améliore de +5,1% le F-1 par rapport aux références de pointe sur les paires image-légende provenant de générateurs d'images et de médias d'actualité hors domaine. Nous mettons à disposition notre code et nos données pour aider les travaux futurs sur la détection de contenus générés par l'IA.
La génération de réponses diverses à partir de grands modèles de langage (LLM) est cruciale pour des applications telles que la planification/la recherche et la génération de données synthétiques, où la diversité fournit des réponses distinctes à travers les générations. Les approches antérieures reposent sur l'augmentation de la température pour accroître la diversité. Cependant, contrairement à ce que l'on pourrait penser, nous montrons que non seulement cette approche produit des générations individuelles de moindre qualité à mesure que la température augmente, mais elle dépend des probabilités des jetons suivants du modèle étant similaires à la vraie distribution des réponses. Nous proposons une approche alternative qui utilise le modèle de langage lui-même pour partitionner l'espace en strates. Lors de l'inférence, une strate aléatoire est sélectionnée et un échantillon est prélevé à l'intérieur de la strate. Pour mesurer la diversité, nous introduisons CoverageQA, un ensemble de données de questions sous-spécifiées avec plusieurs réponses également plausibles, et évaluons la diversité en mesurant la divergence de Kullback-Leibler entre la distribution de sortie et la distribution uniforme des bonnes réponses valides. Compte tenu de l'impossibilité de calculer la probabilité par réponse/solution pour les modèles propriétaires, nous mesurons le rappel sur les solutions réelles. Notre évaluation montre que l'utilisation de SimpleStrat permet d'obtenir un rappel plus élevé de 0,05 par rapport à GPT-4o et une réduction moyenne de 0,36 de la divergence de KL par rapport à Llama 3.
Les grands modèles de langage (LLM) ont affiché des performances remarquables dans diverses tâches complexes en exploitant la technique de Chaîne de Pensée (CoT). Récemment, des études ont proposé une approche de Distillation des Connaissances (KD), la distillation de raisonnement, qui transfère cette capacité de raisonnement des LLM en affinant les modèles de langage avec des explications en plusieurs étapes générées par les enseignants LLM. Cependant, ils n'ont pas suffisamment pris en compte deux défis concernant les ensembles de distillation insuffisants du modèle enseignant LLM, en termes de 1) qualité des données et 2) fourniture d'étiquettes souples. Dans cet article, nous proposons Mentor-KD, qui distille efficacement la capacité de raisonnement en plusieurs étapes des LLM vers des plus petits LMs tout en abordant les défis mentionnés ci-dessus. Plus précisément, nous exploitons un mentor, un modèle intermédiaire de taille spécifique à la tâche, pour ajouter des annotations CoT supplémentaires et fournir des étiquettes souples pour le modèle étudiant lors de la distillation du raisonnement. Nous menons des expériences approfondies et confirmons l'efficacité de Mentor-KD sur divers modèles et tâches de raisonnement complexes.
Les grands modèles de langage (LLMs) présentent des capacités impressionnantes mais nécessitent un alignement soigneux avec les préférences humaines. Les méthodes traditionnelles d'entraînement finetunent les LLMs en utilisant des ensembles de données de préférences humaines, mais entraînent des coûts importants et nécessitent un entraînement répété pour gérer des préférences utilisateur diverses. Les méthodes d'alignement au moment du test abordent cette problématique en utilisant des modèles de récompense (RMs) pour guider les LLMs figés sans re-entraînement. Cependant, les approches existantes au moment du test reposent sur des RMs au niveau de la trajectoire qui sont conçus pour évaluer des réponses complètes, les rendant inadaptés à la génération de texte autorégressive qui nécessite le calcul de récompenses de jeton suivant à partir de réponses partielles. Pour résoudre cela, nous introduisons GenARM, une approche d'alignement au moment du test qui exploite le Modèle de Récompense Autorégressif - une nouvelle paramétrisation de récompense conçue pour prédire les récompenses de jeton suivant de manière efficace et efficiente pour la génération autorégressive. Théoriquement, nous démontrons que cette paramétrisation peut guider de manière prouvable les LLMs figés vers toute distribution réalisable par des RMs traditionnels dans le cadre de l'apprentissage par renforcement régularisé par KL. Les résultats expérimentaux montrent que GenARM surpasse significativement les références d'alignement au moment du test précédentes et égale les performances des méthodes d'entraînement. De plus, GenARM permet un guidage efficace de faible à fort, alignant des LLMs plus grands avec des RMs plus petits sans les coûts élevés de l'entraînement de modèles plus grands. De plus, GenARM prend en charge l'alignement multi-objectif, permettant des compromis en temps réel entre les dimensions de préférence et répondant à des préférences utilisateur diverses sans re-entraînement.
La synthèse d'images sonar est cruciale pour faire progresser les applications en exploration sous-marine, en biologie marine et en défense. Les méthodes traditionnelles reposent souvent sur une collecte de données extensive et coûteuse à l'aide de capteurs sonar, compromettant la qualité et la diversité des données. Pour surmonter ces limitations, cette étude propose un nouveau cadre de synthèse d'images sonar, Synth-SONAR, exploitant des modèles de diffusion et des incitations GPT. Les principales nouveautés de Synth-SONAR sont triples : Premièrement, en intégrant des techniques d'injection de style basées sur l'IA générative avec des données réelles/simulées disponibles publiquement, produisant ainsi l'un des plus grands corpus de données sonar pour la recherche sonar. Deuxièmement, une hiérarchie de modèles de diffusion sonar à double conditionnement textuel synthétise des images sonar grossières et détaillées avec une qualité et une diversité améliorées. Troisièmement, des méthodes de génération sonar basées sur du texte de haut niveau (grossier) et de bas niveau (détaillé) exploitent des informations sémantiques avancées disponibles dans les modèles de langage visuel (VLM) et les incitations GPT. Lors de l'inférence, la méthode génère des images sonar diverses et réalistes à partir de consignes textuelles, comblant ainsi l'écart entre les descriptions textuelles et la génération d'images sonar. Cela marque l'application des incitations GPT dans l'imagerie sonar pour la première fois, à notre connaissance. Synth-SONAR obtient des résultats de pointe dans la production de jeux de données sonar synthétiques de haute qualité, améliorant significativement leur diversité et leur réalisme.