Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récentes avancées dans les modèles génératifs multimodaux ont permis la génération d'images photoréalistes alignées sur des instructions, mais les systèmes leaders comme GPT-4o-Image restent propriétaires et inaccessibles. Pour démocratiser ces capacités, nous présentons ShareGPT-4o-Image, le premier ensemble de données comprenant 45K données de texte-à-image et 46K données de texte-et-image-à-image, toutes synthétisées en utilisant les capacités de génération d'images de GPT-4o pour distiller ses compétences avancées en génération d'images. En exploitant cet ensemble de données, nous développons Janus-4o, un modèle de langage multimodal capable à la fois de génération de texte-à-image et de texte-et-image-à-image. Janus-4o améliore non seulement significativement la génération de texte-à-image par rapport à son prédécesseur, Janus-Pro, mais prend également en charge la génération de texte-et-image-à-image. Notamment, il atteint des performances impressionnantes en génération de texte-et-image-à-image à partir de zéro, en utilisant seulement 91K échantillons synthétiques et 6 heures d'entraînement sur une machine équipée de 8 GPU A800. Nous espérons que la publication de ShareGPT-4o-Image et de Janus-4o stimulera la recherche ouverte dans la génération d'images photoréalistes alignées sur des instructions.
Le pré-entraînement des modèles de langage de pointe (LLMs) nécessite des quantités massives de données textuelles propres et diversifiées. Alors que le développement ouvert de grands ensembles de données de pré-entraînement de haute qualité en anglais a connu des progrès substantiels récemment, l'entraînement de LLMs multilingues performants reste un défi, en grande partie en raison de la difficulté inhérente à adapter les pipelines de filtrage et de déduplication à un grand nombre de langues. Dans ce travail, nous introduisons un nouveau pipeline de curation de données de pré-entraînement basé sur FineWeb, qui peut être automatiquement adapté pour supporter n'importe quelle langue. Nous effectuons une ablation extensive des choix de conception de notre pipeline sur un ensemble de neuf langues diverses, guidés par un ensemble de tâches d'évaluation significatives et informatives choisies à travers un processus de sélection novateur basé sur des critères mesurables. En fin de compte, nous montrons que notre pipeline peut être utilisé pour créer des corpus non-anglophones qui produisent des modèles plus performants que les ensembles de données précédents. Nous introduisons également une approche simple et rigoureuse pour rééquilibrer les ensembles de données en tenant compte à la fois du nombre de duplications et de la qualité, offrant ainsi une amélioration supplémentaire des performances. Enfin, nous mettons à l'échelle notre pipeline pour plus de 1000 langues en utilisant près de 100 instantanés de Common Crawl pour produire FineWeb2, un nouvel ensemble de données multilingue de 20 téraoctets (5 milliards de documents) que nous publions, ainsi que notre pipeline, notre code d'entraînement et d'évaluation.
Les valeurs aberrantes extrêmes d'activation dans les grands modèles de langage (LLM) dégradent de manière critique les performances de quantification, entravant leur déploiement efficace sur les appareils. Bien que les opérations par canal et la mise à l'échelle adaptative des gradients soient des causes reconnues, leur atténuation pratique reste difficile. Nous introduisons l'**Outlier-Safe Pre-Training (OSP)**, une ligne directrice pratique qui prévient de manière proactive la formation de valeurs aberrantes plutôt que de s'appuyer sur des atténuations a posteriori. L'OSP combine trois innovations clés : (1) l'optimiseur Muon, qui élimine les bases privilégiées tout en maintenant l'efficacité de l'entraînement ; (2) le RMSNorm à échelle unique, qui empêche l'amplification par canal ; et (3) une projection d'incorporation apprenable, redistribuant les magnitudes d'activation provenant des matrices d'incorporation. Nous validons l'OSP en entraînant un modèle de 1,4 milliard de paramètres sur 1 trillion de tokens, ce qui constitue le premier LLM à l'échelle de production entraîné sans de telles valeurs aberrantes. Sous une quantification agressive en 4 bits, notre modèle OSP atteint un score moyen de 35,7 sur 10 benchmarks (contre 26,5 pour un modèle entraîné avec Adam), avec seulement 2 % de surcharge d'entraînement. Fait remarquable, les modèles OSP présentent un excès de kurtosis proche de zéro (0,04) par rapport aux valeurs extrêmes (1818,56) des modèles standards, modifiant fondamentalement le comportement de quantification des LLM. Notre travail démontre que les valeurs aberrantes ne sont pas inhérentes aux LLM mais sont des conséquences des stratégies d'entraînement, ouvrant la voie à un déploiement plus efficace des LLM. Le code source et les points de contrôle pré-entraînés sont disponibles à l'adresse https://github.com/dmis-lab/Outlier-Safe-Pre-Training.
Les récents progrès dans l'édition d'images avec des modèles de diffusion ont permis d'obtenir des résultats impressionnants, offrant un contrôle précis sur le processus de génération. Cependant, ces méthodes sont intensives en calcul en raison de leur nature itérative. Bien que les modèles de diffusion distillés permettent une inférence plus rapide, leurs capacités d'édition restent limitées, principalement en raison d'une qualité d'inversion médiocre. Une inversion et une reconstruction de haute fidélité sont essentielles pour une édition d'image précise, car elles préservent l'intégrité structurelle et sémantique de l'image source. Dans ce travail, nous proposons un nouveau cadre qui améliore l'inversion d'image en utilisant des modèles de cohérence, permettant une édition de haute qualité en seulement quatre étapes. Notre méthode introduit une stratégie d'optimisation de cohérence cyclique qui améliore significativement la précision de la reconstruction et permet un compromis contrôlable entre l'éditabilité et la préservation du contenu. Nous obtenons des performances de pointe sur diverses tâches et ensembles de données d'édition d'images, démontrant que notre méthode égale ou dépasse les modèles de diffusion à pleine étape tout en étant substantiellement plus efficace. Le code de notre méthode est disponible sur GitHub à l'adresse https://github.com/ControlGenAI/Inverse-and-Edit.
Différentes familles de modèles de langage de base, telles que Llama et Qwen, présentent des comportements divergents lors de l’entraînement postérieur avec l’apprentissage par renforcement (RL), en particulier sur des tâches intensives en raisonnement. Qu’est-ce qui rend un modèle de langage de base adapté à l’apprentissage par renforcement ? Acquérir une compréhension approfondie de cette question est essentiel pour développer des modèles de fondation évolutifs avec RL de la prochaine génération. Dans ce travail, nous étudions comment les stratégies d’entraînement intermédiaire façonnent la dynamique du RL, en nous concentrant sur deux familles de modèles représentatives : Qwen et Llama. Notre étude révèle que (1) des corpus mathématiques de haute qualité, tels que MegaMath-Web-Pro, améliorent significativement les performances du modèle de base et du RL, tandis que les alternatives existantes (par exemple, FineMath-4plus) échouent à le faire ; (2) l’ajout supplémentaire de données de type question-réponse, en particulier des exemples de raisonnement en chaîne de pensée (CoT) longs, améliore les résultats du RL, et les données d’instruction débloquent davantage cet effet ; (3) bien que le CoT long améliore la profondeur du raisonnement, il peut également induire une verbosité des réponses du modèle et une instabilité de l’entraînement RL, soulignant l’importance du formatage des données ; (4) la mise à l’échelle de l’entraînement intermédiaire conduit systématiquement à de meilleures performances RL en aval. Sur la base de ces insights, nous introduisons une stratégie d’entraînement intermédiaire en deux étapes, Stable-then-Decay, dans laquelle les modèles de base sont d’abord entraînés sur 200 milliards de tokens avec un taux d’apprentissage constant, suivis de 20 milliards de tokens répartis sur trois branches axées sur le CoT avec une décroissance du taux d’apprentissage. Cela donne naissance à OctoThinker, une famille de modèles démontrant une forte compatibilité avec le RL et réduisant l’écart de performance avec des familles de modèles plus adaptées au RL, comme Qwen. Nous espérons que notre travail contribuera à façonner les stratégies de pré-entraînement pour les modèles de fondation à l’ère du RL. Pour soutenir des recherches ultérieures, nous publions nos modèles open-source ainsi qu’un corpus intensif en raisonnement mathématique soigneusement sélectionné de plus de 70 milliards de tokens (c’est-à-dire MegaMath-Web-Pro-Max).
Le développement d’agents incarnés capables d’exécuter des tâches interactives complexes dans des scénarios réels demeure un défi fondamental dans le domaine de l’intelligence artificielle incarnée. Bien que les progrès récents dans les plateformes de simulation aient considérablement enrichi la diversité des tâches pour entraîner des modèles vision-langage incarnés (VLMs), la plupart de ces plateformes reposent sur des morphologies robotiques simplifiées et contournent la nature stochastique de l’exécution de bas niveau, ce qui limite leur transférabilité aux robots réels. Pour résoudre ces problèmes, nous présentons DualTHOR, une plateforme de simulation basée sur la physique dédiée aux robots humanoïdes à deux bras complexes, construite sur une version étendue d’AI2-THOR. Notre simulateur intègre des modèles de robots réels, une suite de tâches pour la collaboration à deux bras, ainsi que des solveurs de cinématique inverse pour les robots humanoïdes. Nous introduisons également un mécanisme de contingence qui intègre des échecs potentiels via une exécution de bas niveau basée sur la physique, réduisant ainsi l’écart avec les scénarios réels. Notre simulateur permet une évaluation plus complète de la robustesse et de la généralisation des VLMs dans des environnements domestiques. Des évaluations approfondies révèlent que les VLMs actuels éprouvent des difficultés dans la coordination à deux bras et présentent une robustesse limitée dans des environnements réalistes incluant des contingences, soulignant l’importance d’utiliser notre simulateur pour développer des VLMs plus performants pour les tâches incarnées. Le code est disponible à l’adresse suivante : https://github.com/ds199895/DualTHOR.git.
La synthèse de données basée sur la simulation est devenue un paradigme puissant pour améliorer la manipulation robotique dans le monde réel. Cependant, les ensembles de données synthétiques existants restent insuffisants pour une manipulation bimanuelle robuste en raison de deux défis : (1) l'absence d'une méthode efficace et évolutive de génération de données pour des tâches nouvelles, et (2) des environnements de simulation trop simplifiés qui ne parviennent pas à capturer la complexité du monde réel. Nous présentons RoboTwin 2.0, un cadre de simulation évolutif qui permet la génération automatisée et à grande échelle de données diversifiées et réalistes, ainsi que des protocoles d'évaluation unifiés pour la manipulation à deux bras. Nous construisons d'abord RoboTwin-OD, une bibliothèque d'objets à grande échelle comprenant 731 instances réparties dans 147 catégories, chacune annotée avec des étiquettes sémantiques et pertinentes pour la manipulation. Sur cette base, nous développons un pipeline de synthèse de données expertes qui combine des modèles de langage multimodaux (MLLMs) avec un raffinement en boucle de simulation pour générer automatiquement du code d'exécution au niveau de la tâche. Pour améliorer le transfert simulation-réel, RoboTwin 2.0 intègre une randomisation de domaine structurée selon cinq axes : encombrement, éclairage, arrière-plan, hauteur de la table et instructions linguistiques, augmentant ainsi la diversité des données et la robustesse des politiques. Nous instancions ce cadre sur 50 tâches bimanuelles couvrant cinq incarnations de robots, et pré-collectons plus de 100 000 trajectoires expertes randomisées par domaine. Les résultats empiriques montrent un gain de 10,9 % dans le succès de la génération de code et une meilleure généralisation à de nouveaux scénarios réels. Un modèle VLA affiné sur notre ensemble de données atteint une amélioration relative de 367 % (42,0 % contre 9,0 %) sur des tâches réelles de scènes inédites, tandis que les modèles zero-shot entraînés uniquement sur nos données synthétiques obtiennent un gain relatif de 228 %, mettant en évidence une forte généralisation sans supervision du monde réel. Nous publions le générateur de données, le benchmark, l'ensemble de données et le code pour soutenir la recherche évolutive dans la manipulation bimanuelle robuste.
Les modèles de diffusion sont devenus l'approche dominante pour la synthèse d'images, démontrant un photoréalisme et une diversité exceptionnels. Cependant, l'entraînement de ces modèles à des résolutions élevées reste prohibitif en termes de calcul, et les techniques existantes de génération zero-shot pour synthétiser des images au-delà des résolutions d'entraînement produisent souvent des artefacts, tels que la duplication d'objets et une incohérence spatiale. Dans cet article, nous présentons HiWave, une approche zero-shot et sans entraînement qui améliore considérablement la fidélité visuelle et la cohérence structurelle dans la synthèse d'images à ultra-haute résolution en utilisant des modèles de diffusion pré-entraînés. Notre méthode repose sur un pipeline en deux étapes : la génération d'une image de base à partir du modèle pré-entraîné, suivie d'une étape d'inversion DDIM par patchs et d'un module novateur d'amélioration des détails basé sur les ondelettes. Plus précisément, nous utilisons d'abord des méthodes d'inversion pour dériver des vecteurs de bruit initiaux qui préservent la cohérence globale à partir de l'image de base. Ensuite, lors de l'échantillonnage, notre module d'amélioration des détails dans le domaine des ondelettes conserve les composantes basse fréquence de l'image de base pour assurer la cohérence structurelle, tout en guidant sélectivement les composantes haute fréquence pour enrichir les détails fins et les textures. Des évaluations approfondies utilisant Stable Diffusion XL montrent que HiWave atténue efficacement les artefacts visuels courants observés dans les méthodes précédentes, atteignant une qualité perceptuelle supérieure. Une étude utilisateur a confirmé les performances de HiWave, qui a été préférée à l'alternative de pointe dans plus de 80 % des comparaisons, soulignant son efficacité pour la synthèse d'images de haute qualité à ultra-haute résolution sans nécessiter de réentraînement ou de modifications architecturales.
Les modèles de langage de grande taille (LLMs) excellent dans la génération de code, mais garantir que leurs sorties soient fonctionnellement correctes, en particulier dans des tâches de programmation complexes, reste un défi persistant. Bien que le développement piloté par les tests (Test-Driven Development, TDD) traditionnel offre une voie pour l'affinement du code, son efficacité avec les LLMs est souvent compromise par la rareté de cas de test de haute qualité ou les pièges de la génération automatisée de tests, incluant des tests biaisés ou des prédictions de sortie inexactes qui peuvent détourner le processus de correction. Cet article présente Property-Generated Solver, un cadre novateur qui exploite les tests basés sur les propriétés (Property-Based Testing, PBT) pour valider des propriétés ou invariants de haut niveau des programmes, plutôt que de s'appuyer sur des exemples spécifiques d'entrées-sorties. Ces propriétés sont souvent plus simples à définir et à vérifier que de prédire directement des oracles de test exhaustifs, rompant ainsi le "cycle d'auto-tromperie" où les tests pourraient partager les mêmes défauts que le code qu'ils sont censés valider. Property-Generated Solver emploie deux agents collaboratifs basés sur des LLMs : un Générateur dédié à la génération de code et à son affinement itératif, et un Testeur qui gère le cycle de vie du PBT et formule des retours sémantiquement riches à partir des violations de propriétés. Les retours complets et exploitables qui en résultent guident ensuite le Générateur dans ses efforts d'affinement. En établissant le PBT comme moteur de validation central au sein de ce paradigme itératif en boucle fermée, Property-Generated Solver fournit un mécanisme robuste pour orienter les LLMs vers un code plus correct et généralisable. Les résultats expérimentaux approfondis sur plusieurs benchmarks de génération de code démontrent que Property-Generated Solver réalise des améliorations substantielles en pass@1, avec des gains relatifs allant de 23,1 % à 37,3 % par rapport aux méthodes TDD établies.
Les grands modèles de langage dédiés au raisonnement ont récemment atteint des performances de pointe dans de nombreux domaines. Cependant, leur raisonnement en chaîne de pensée sur de longues séquences pose des défis d'interprétabilité, car chaque token généré dépend de tous les précédents, rendant la décomposition du calcul plus difficile. Nous soutenons que l'analyse des traces de raisonnement au niveau de la phrase est une approche prometteuse pour comprendre les processus de raisonnement. Nous présentons trois méthodes d'attribution complémentaires : (1) une méthode boîte noire mesurant l'importance contrefactuelle de chaque phrase en comparant les réponses finales sur 100 itérations conditionnées à la génération de cette phrase ou d'une autre de sens différent ; (2) une méthode boîte blanche agrégeant les motifs d'attention entre paires de phrases, qui a identifié des phrases de « diffusion » recevant une attention disproportionnée de toutes les phrases futures via des têtes d'attention « réceptrices » ; (3) une méthode d'attribution causale mesurant les connexions logiques entre phrases en supprimant l'attention vers une phrase et en mesurant l'effet sur les tokens de chaque phrase future. Chaque méthode fournit des preuves de l'existence d'ancres de pensée, des étapes de raisonnement d'importance majeure qui influencent de manière disproportionnée le processus de raisonnement ultérieur. Ces ancres de pensée sont généralement des phrases de planification ou de retour en arrière. Nous proposons un outil open-source (www.thought-anchors.com) pour visualiser les sorties de nos méthodes, et présentons une étude de cas montrant des motifs convergents entre les méthodes qui cartographient comment un modèle effectue un raisonnement à plusieurs étapes. La cohérence entre les méthodes démontre le potentiel de l'analyse au niveau de la phrase pour une compréhension approfondie des modèles de raisonnement.
Les récentes avancées dans les modèles de langage à grande échelle (LLMs) ont recentré l'attention sur la mise à l'échelle des calculs lors de l'inférence, améliorant les performances sans nécessiter de réentraînement du modèle. Une approche courante consiste à échantillonner plusieurs sorties en parallèle et à en sélectionner une comme résultat final. Cependant, les travaux à ce jour se sont principalement concentrés sur l'anglais et quelques domaines spécifiques comme les mathématiques et le code. En revanche, nous nous intéressons particulièrement aux techniques qui se généralisent à des tâches ouvertes, des tâches formellement vérifiables et à travers différentes langues. Dans ce travail, nous étudions comment mettre à l'échelle de manière robuste les calculs lors de l'inférence pour des tâches génératives ouvertes dans un contexte multilingue et multitâche. Nos résultats montrent que la stratégie d'échantillonnage basée sur la variation de température et la stratégie de sélection doivent être adaptées pour tenir compte de domaines divers et de contextes linguistiques variés. Nous évaluons les méthodes de sélection existantes, révélant que les stratégies efficaces en anglais échouent souvent à se généraliser à d'autres langues. Nous proposons de nouvelles stratégies d'échantillonnage et de sélection spécifiquement adaptées aux scénarios d'inférence multilingues et multitâches, et montrons qu'elles apportent des gains significatifs à travers les langues et les tâches. En particulier, nos méthodes combinées d'échantillonnage et de sélection entraînent une augmentation moyenne de +6,8 des taux de victoire pour nos modèles de 8B sur les prompts de m-ArenaHard-v2.0, par rapport à des modèles propriétaires comme Gemini. À plus grande échelle, Command-A (modèle de 111B) équipé de nos méthodes montre une amélioration de +9,0 des taux de victoire sur le même benchmark avec seulement cinq échantillons par rapport au décodage à échantillon unique, une augmentation substantielle à un coût minimal. Nos résultats soulignent la nécessité d'approches adaptées à la langue et à la tâche pour les calculs lors de l'inférence, visant à démocratiser les améliorations de performance dans les langues sous-représentées.
Les grands modèles de langage (LLMs) ont démontré des capacités remarquables en compréhension et génération du langage. Cependant, une telle performance impressionnante s'accompagne généralement d'une taille de modèle substantielle, ce qui pose des défis importants en matière de déploiement et d'inférence. Bien que l'élagage structuré des paramètres du modèle offre une voie prometteuse pour réduire les coûts de calcul lors du déploiement, les méthodes actuelles se concentrent principalement sur l'élagage d'un seul modèle. Dans ce travail, nous développons une nouvelle stratégie pour compresser les modèles en combinant ou fusionnant stratégiquement des couches de variantes de modèles affinés, ce qui préserve les capacités du modèle original en agrégeant les compétences accentuées dans différents affinages. Nous formulons l'optimisation de ces LLMs comme un problème d'optimisation d'ordre zéro, en adoptant un espace de recherche qui supporte trois opérations différentes : (1) Suppression de couches, (2) Sélection de couches parmi différents modèles candidats, et (3) Fusion de couches. Nos expériences montrent que cette approche conduit à un élagage compétitif des modèles, par exemple, pour les familles de modèles Llama2-13B, nos modèles compressés maintiennent environ 97,3 % de la performance originale tout en supprimant environ 25 % des paramètres, surpassant significativement les méthodes précédentes de l'état de l'art. Le code est disponible à l'adresse https://github.com/Guinan-Su/auto-merge-llm.
Les coûts computationnels et énergétiques des modèles de langage de grande taille (LLMs) ont augmenté de manière exponentielle, poussés par la croissance de la taille des modèles et l'adoption massive de ces LLMs par des centaines de millions d'utilisateurs. Le coût unitaire d'un LLM correspond au calcul d'un token. Par conséquent, le tokenizer joue un rôle crucial dans l'efficacité d'un modèle, et ils sont soigneusement optimisés pour minimiser le nombre de tokens pour le texte dans leur corpus d'entraînement. L'une des applications les plus populaires des LLMs sont les chatbots qui interagissent avec les utilisateurs. Une observation clé est que, pour ces chatbots, ce qui importe est la performance du tokenizer sur le texte saisi par l'utilisateur et les réponses du chatbot. Ces textes sont très probablement différents de ceux du corpus d'entraînement. Ainsi, une question qui se pose immédiatement est s'il existe un avantage potentiel à optimiser les tokenizers pour les conversations de chatbots. Dans cet article, cette idée est explorée pour différents tokenizers en utilisant un corpus public de conversations de chatbots pour redéfinir leurs vocabulaires et évaluer leur performance dans ce domaine. Les résultats montrent que les tokenizers optimisés pour les conversations réduisent systématiquement le nombre de tokens dans les dialogues de chatbots, ce qui peut entraîner des économies d'énergie significatives, de l'ordre de 5 % à 10 %, tout en ayant un impact minimal, voire légèrement positif, sur l'efficacité de la tokenisation pour le corpus d'entraînement original.
Les modèles de langage de grande taille (LLMs) démontrent des capacités remarquables en génération de code, mais rencontrent des difficultés pour s'adapter aux mises à jour fréquentes des API de bibliothèques externes. Cette limitation critique, découlant de leur dépendance à des connaissances d'API obsolètes issues de leurs données d'entraînement, même avec un accès à la documentation actuelle, entrave la génération fiable de code dans des environnements dynamiques. Pour résoudre ce problème, nous proposons ReCode (Reinforcement learning basé sur des règles pour la mise à jour de code), un cadre novateur qui imite l'adaptation des programmeurs humains aux changements d'API. Plus précisément, nous construisons un ensemble de données d'environ 2 000 entrées pour entraîner les LLMs à effectuer des migrations de version basées sur des informations mises à jour. Ensuite, nous introduisons une métrique modifiée de similarité de chaînes pour l'évaluation du code comme récompense pour l'apprentissage par renforcement. Nos expériences montrent que ReCode améliore considérablement les performances de génération de code des LLMs dans des scénarios d'API dynamiques, en particulier sur la tâche inédite CodeUpdateArena. De manière cruciale, comparé à un ajustement supervisé, ReCode a moins d'impact sur les capacités générales de génération de code des LLMs. Nous appliquons ReCode à divers LLMs et algorithmes d'apprentissage par renforcement (GRPO et DAPO), tous obtenant des améliorations constantes. Notamment, après l'entraînement, Qwen2.5-Coder-7B surpasse le modèle de code à 32 milliards de paramètres ajusté pour les instructions et le modèle de raisonnement avec la même architecture. Le code est disponible à l'adresse https://github.com/zjunlp/ReCode.
L'accessibilité reste une préoccupation majeure dans la société actuelle, car de nombreuses technologies ne sont pas conçues pour répondre à l'ensemble des besoins des utilisateurs. Les systèmes multi-agents (MAS) existants ne parviennent souvent pas à fournir une assistance complète aux utilisateurs en difficulté en raison du manque de personnalisation découlant de conceptions propriétaires. Par conséquent, les personnes handicapées rencontrent fréquemment des obstacles importants lorsqu'elles tentent d'interagir avec des environnements numériques. Nous présentons MATE, un système multi-agent d'accessibilité multimodal, qui effectue des conversions de modalités en fonction des besoins de l'utilisateur. Ce système est utile pour assister les personnes handicapées en veillant à ce que les données soient converties dans un format compréhensible. Par exemple, si l'utilisateur a des difficultés visuelles et reçoit une image, le système convertit cette image en une description audio. MATE peut être appliqué à un large éventail de domaines, d'industries et de secteurs, tels que les soins de santé, et peut devenir un assistant précieux pour divers groupes d'utilisateurs. Le système prend en charge plusieurs types de modèles, allant de l'appel d'API LLM à l'utilisation de classificateurs d'apprentissage automatique (ML) personnalisés. Cette flexibilité garantit que le système peut être adapté à divers besoins et est compatible avec une grande variété de matériels. Comme le système est conçu pour fonctionner localement, il assure la confidentialité et la sécurité des informations sensibles. De plus, le cadre peut être efficacement intégré aux technologies institutionnelles (par exemple, les services de santé numériques) pour une assistance en temps réel aux utilisateurs. Par ailleurs, nous présentons ModCon-Task-Identifier, un modèle capable d'extraire la tâche précise de conversion de modalité à partir de l'entrée utilisateur. De nombreuses expériences montrent que ModCon-Task-Identifier surpasse systématiquement d'autres LLM et modèles statistiques sur nos données personnalisées. Notre code et nos données sont disponibles publiquement à l'adresse suivante : https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.
La création de contenu pilotée par l'IA a démontré son potentiel dans la production cinématographique. Cependant, les systèmes existants de génération de films peinent à mettre en œuvre les principes cinématographiques, ce qui les empêche de produire des films de qualité professionnelle, notamment en raison d'un manque de diversité dans le langage visuel et le rythme cinématographique. Cela se traduit par des visuels stéréotypés et des récits peu captivants. Pour remédier à cela, nous présentons FilMaster, un système IA de bout en bout qui intègre les principes cinématographiques du monde réel pour générer des films de qualité professionnelle, produisant des résultats éditables et conformes aux standards de l'industrie. FilMaster repose sur deux principes clés : (1) l'apprentissage de la cinématographie à partir d'une vaste base de données de films réels et (2) l'imitation des workflows de post-production professionnels axés sur le public. Inspiré par ces principes, FilMaster intègre deux étapes : une étape de Génération Guidée par Référence qui transforme les entrées utilisateur en clips vidéo, et une étape de Post-Production Générative qui transforme les séquences brutes en sorties audiovisuelles en orchestrant les éléments visuels et auditifs pour créer un rythme cinématographique. Notre étape de génération met en avant un module de Conception de Langage Visuel Multi-plans Synergisé par RAG, qui guide l'IA dans la génération d'un langage visuel professionnel en récupérant des clips de référence à partir d'un vaste corpus de 440 000 clips de films. Notre étape de post-production imite les workflows professionnels en concevant un module de Contrôle du Rythme Cinématographique Centré sur le Public, incluant des processus de Rough Cut et Fine Cut informés par des retours simulés du public, pour une intégration efficace des éléments audiovisuels afin de produire un contenu engageant. Le système est soutenu par des modèles génératifs d'IA tels que les (M)LLMs et les modèles de génération vidéo. Par ailleurs, nous introduisons FilmEval, un benchmark complet pour évaluer les films générés par l'IA. Des expériences approfondies montrent la performance supérieure de FilMaster dans la conception du langage visuel et le contrôle du rythme cinématographique, faisant progresser l'IA générative dans le domaine de la réalisation cinématographique professionnelle.
Nous présentons Biomed-Enriched, un ensemble de données biomédicales construit à partir de PubMed via un processus d'annotation en deux étapes. Dans la première étape, un modèle de langage de grande taille annote 400 000 paragraphes issus d'articles scientifiques de PubMed, en leur attribuant des scores pour leur type (revue, étude, cas clinique, autre), leur domaine (clinique, biomédical, autre) et leur qualité éducative. Le score de qualité éducative (noté de 1 à 5) estime l'utilité d'un paragraphe pour l'apprentissage au niveau universitaire. Ces annotations sont ensuite utilisées pour affiner un petit modèle de langage, qui propage les étiquettes à travers l'intégralité du corpus PMC-OA. Les métadonnées résultantes nous permettent d'extraire des sous-ensembles raffinés, incluant 2 millions de paragraphes de cas cliniques dont plus de 450 000 de haute qualité provenant d'articles avec des licences d'utilisation commerciale, et de construire plusieurs variantes via un filtrage de qualité et un suréchantillonnage par domaine. Les textes cliniques sont généralement difficiles d'accès en raison de contraintes de confidentialité, car les dossiers hospitaliers ne peuvent pas être partagés publiquement. Ainsi, notre ensemble de données offre une collection alternative à grande échelle et librement accessible de cas cliniques issus de PubMed, en faisant une ressource précieuse pour le traitement du langage naturel (NLP) biomédical et clinique. Des expériences préliminaires de pré-entraînement continu avec OLMo2 suggèrent que ces sous-ensembles soigneusement sélectionnés permettent des améliorations ciblées, avec un suréchantillonnage clinique augmentant les performances d'environ 5 % sur MMLU ProfMed et un filtrage par qualité éducative améliorant MedQA et MedMCQA d'environ 1 %. Les combinaisons de ces techniques ont conduit à une convergence plus rapide, atteignant les mêmes performances avec un tiers des tokens d'entraînement, indiquant un potentiel pour des stratégies de pré-entraînement biomédical plus efficaces et efficientes.
L'efficacité du débogage par IA suit un modèle de décroissance exponentielle prévisible ; la plupart des modèles perdent 60 à 80 % de leur capacité de débogage en seulement 2 à 3 tentatives, bien que le débogage itératif soit une capacité essentielle pour les systèmes pratiques de génération de code. Nous introduisons l'Indice de Décroissance du Débogage (IDD), un cadre mathématique qui quantifie le moment où le débogage devient inefficace et prédit les points d'intervention. Notre approche stratégique de redémarrage passe de l'exploitation à l'exploration à des points stratégiques du processus de débogage, démontrant que des interventions bien synchronisées peuvent restaurer l'efficacité du débogage. L'IDD révèle une limitation fondamentale du débogage par IA actuel et fournit le premier cadre quantitatif pour optimiser les stratégies itératives de génération de code.