papers.description
Les récentes avancées dans les modèles de langage à grande échelle (LLMs) ont permis aux agents basés sur ces modèles de relever avec succès des tâches de planification interactive. Cependant, malgré leurs succès, les approches existantes souffrent souvent d'hallucinations de planification et nécessitent un réentraînement pour chaque nouvel agent. Pour relever ces défis, nous proposons le cadre d'Optimisation des Méta-Plans (Meta Plan Optimization, MPO), qui améliore les capacités de planification des agents en intégrant directement des directives explicites. Contrairement aux méthodes précédentes qui reposent sur des connaissances complexes, nécessitant soit un effort humain important, soit manquant de garantie de qualité, MPO exploite des directives générales de haut niveau via des méta-plans pour assister la planification des agents et permet une optimisation continue des méta-plans basée sur les retours d'expérience de l'exécution des tâches par l'agent. Nos expériences menées sur deux tâches représentatives démontrent que MPO surpasse significativement les approches de référence existantes. De plus, notre analyse indique que MPO offre une solution plug-and-play qui améliore à la fois l'efficacité de la réalisation des tâches et les capacités de généralisation dans des scénarios précédemment non rencontrés.
Les modèles de langage de grande taille (LLM) ont démontré des capacités remarquables en tant qu'agents autonomes, mais les benchmarks existants se concentrent soit sur des tâches mono-agent, soit sont limités à des domaines restreints, ne parvenant pas à capturer la dynamique de la coordination et de la compétition multi-agents. Dans cet article, nous présentons MultiAgentBench, un benchmark complet conçu pour évaluer les systèmes multi-agents basés sur des LLM dans divers scénarios interactifs. Notre cadre de mesure évalue non seulement l'accomplissement des tâches, mais aussi la qualité de la collaboration et de la compétition en utilisant de nouveaux indicateurs clés de performance basés sur des jalons. De plus, nous évaluons divers protocoles de coordination (y compris les topologies en étoile, en chaîne, en arbre et en graphe) ainsi que des stratégies innovantes telles que la discussion de groupe et la planification cognitive. Notamment, gpt-4o-mini atteint le score moyen le plus élevé pour les tâches, la structure en graphe se révèle la meilleure parmi les protocoles de coordination dans le scénario de recherche, et la planification cognitive améliore les taux de réussite des jalons de 3 %. Le code et les jeux de données sont disponibles publiquement à l'adresse https://github.com/MultiagentBench/MARBLE.
La montée de la désinformation, exacerbée par les modèles de langage de grande envergure (LLMs) comme GPT et Gemini, exige des solutions robustes de vérification des faits, en particulier pour les langues à ressources limitées comme le vietnamien. Les méthodes existantes peinent à gérer l'ambiguïté sémantique, les homonymes et les structures linguistiques complexes, souvent en sacrifiant la précision pour l'efficacité. Nous présentons SemViQA, un nouveau cadre de vérification des faits en vietnamien intégrant la Récupération de Preuves basée sur la Sémantique (SER) et la Classification de Verdict en Deux Étapes (TVC). Notre approche équilibre précision et rapidité, obtenant des résultats de pointe avec une précision stricte de 78,97 % sur ISE-DSC01 et 80,82 % sur ViWikiFC, se classant première au UIT Data Science Challenge. De plus, SemViQA Faster améliore la vitesse d'inférence par un facteur de 7 tout en maintenant une précision compétitive. SemViQA établit un nouveau standard pour la vérification des faits en vietnamien, faisant progresser la lutte contre la désinformation. Le code source est disponible à l'adresse : https://github.com/DAVID-NGUYEN-S16/SemViQA.
Dans cet article, nous présentons une analyse approfondie de l'impact des modèles de langage à grande échelle (LLMs) sur Wikipédia, en examinant l'évolution de Wikipédia à travers des données existantes et en utilisant des simulations pour explorer les risques potentiels. Nous commençons par analyser les vues de pages et le contenu des articles pour étudier les changements récents de Wikipédia et évaluer l'impact des LLMs. Par la suite, nous évaluons comment les LLMs affectent diverses tâches de traitement du langage naturel (NLP) liées à Wikipédia, y compris la traduction automatique et la génération augmentée par récupération (RAG). Nos résultats et simulations révèlent que les articles de Wikipédia ont été influencés par les LLMs, avec un impact d'environ 1 % à 2 % dans certaines catégories. Si le benchmark de traduction automatique basé sur Wikipédia est influencé par les LLMs, les scores des modèles pourraient être surévalués, et les résultats comparatifs entre les modèles pourraient également évoluer. De plus, l'efficacité de la RAG pourrait diminuer si la base de connaissances est polluée par du contenu généré par des LLMs. Bien que les LLMs n'aient pas encore complètement modifié les structures linguistiques et de connaissances de Wikipédia, nous pensons que nos résultats empiriques signalent la nécessité d'une réflexion attentive sur les risques potentiels futurs.
Nous présentons LADDER (Learning through Autonomous Difficulty-Driven Example Recursion), un cadre qui permet aux grands modèles de langage d'améliorer de manière autonome leurs capacités de résolution de problèmes grâce à un apprentissage autoguidé en générant et en résolvant de manière récursive des variantes progressivement plus simples de problèmes complexes. Contrairement aux approches antérieures qui nécessitent des ensembles de données soigneusement sélectionnés ou des retours humains, LADDER exploite les capacités propres d'un modèle pour générer des variantes de questions plus faciles. Nous démontrons l'efficacité de LADDER dans le domaine de l'intégration mathématique, améliorant la précision de Llama 3.2 3B de 1 % à 82 % sur des problèmes de niveau universitaire et permettant à Qwen2.5 7B Deepseek-R1 Distilled d'atteindre 73 % à l'examen de qualification du MIT Integration Bee. Nous introduisons également TTRL (Test-Time Reinforcement Learning), où nous effectuons un apprentissage par renforcement sur des variantes de problèmes de test au moment de l'inférence. TTRL permet à Qwen2.5 7B Deepseek-R1 Distilled d'obtenir un score de pointe de 90 % à l'examen de qualification du MIT Integration Bee, surpassant la performance d'OpenAI o1. Ces résultats montrent comment un apprentissage stratégique autodirigé peut permettre des améliorations significatives des capacités sans recourir à une mise à l'échelle architecturale ou à une supervision humaine.
Les grands modèles de langage (LLMs) présentent des hallucinations (c'est-à-dire des informations infidèles ou absurdes) lorsqu'ils servent d'assistants IA dans divers domaines. Étant donné que les hallucinations sont toujours accompagnées de contenu véridique dans les réponses des LLMs, les méthodes précédentes d'alignement factuel qui effectuent un apprentissage des préférences au niveau de la réponse ont inévitablement introduit du bruit pendant l'entraînement. Par conséquent, cet article propose une méthode d'alignement factuel fine basée sur l'Optimisation Directe des Préférences (DPO), appelée Mask-DPO. En incorporant la factualité au niveau de la phrase comme signaux de masquage, Mask-DPO n'apprend qu'à partir des phrases factuellement correctes dans les échantillons préférés et évite de pénaliser les contenus factuels dans les échantillons non préférés, ce qui résout l'ambiguïté dans l'apprentissage des préférences. Les résultats expérimentaux approfondis démontrent que Mask-DPO peut significativement améliorer la factualité des réponses des LLMs à des questions provenant de jeux de données intra-domaines et extra-domaines, bien que ces questions et leurs sujets correspondants n'aient pas été vus pendant l'entraînement. Entraîné uniquement sur l'ensemble d'entraînement ANAH, le score de Llama3.1-8B-Instruct sur l'ensemble de test ANAH est passé de 49,19 % à 77,53 %, surpassant même le score de Llama3.1-70B-Instruct (53,44 %), tandis que son FactScore sur le jeu de données extra-domaine Biography est également passé de 30,29 % à 39,39 %. Nous étudions en outre la propriété de généralisation de Mask-DPO en utilisant différentes stratégies de mise à l'échelle des échantillons d'entraînement et constatons que la mise à l'échelle du nombre de sujets dans le jeu de données est plus efficace que celle du nombre de questions. Nous proposons une hypothèse sur ce que l'alignement factuel fait avec les LLMs, sur l'implication de ce phénomène, et menons des expériences de preuve de concept pour la vérifier. Nous espérons que la méthode et les résultats ouvrent la voie à des recherches futures sur la mise à l'échelle de l'alignement factuel.
Les progrès récents dans les modèles de langage de grande taille (LLMs) se sont concentrés sur la production de réponses qui répondent aux attentes humaines et s'alignent sur les valeurs partagées - un processus appelé alignement. Cependant, aligner les LLMs reste un défi en raison du décalage inhérent entre la complexité des valeurs humaines et la nature étroite des approches technologiques conçues pour les aborder. Les méthodes d'alignement actuelles conduisent souvent à des objectifs mal spécifiés, reflétant le problème plus large des contrats incomplets, c'est-à-dire l'impossibilité pratique de spécifier un contrat entre un développeur de modèle et le modèle lui-même qui couvre chaque scénario dans l'alignement des LLMs. Dans cet article, nous soutenons que l'amélioration de l'alignement des LLMs nécessite d'intégrer des insights provenant des cadres d'alignement sociétal, y compris l'alignement social, économique et contractuel, et nous discutons des solutions potentielles tirées de ces domaines. Compte tenu du rôle de l'incertitude dans les cadres d'alignement sociétal, nous examinons ensuite comment elle se manifeste dans l'alignement des LLMs. Nous concluons notre discussion en proposant une vision alternative de l'alignement des LLMs, en considérant la nature sous-spécifiée de ses objectifs comme une opportunité plutôt que comme un défaut à corriger. Au-delà des améliorations techniques dans l'alignement des LLMs, nous discutons de la nécessité de concevoir des interfaces d'alignement participatives.
L'adaptation des modèles génératifs à des domaines spécifiques constitue une solution efficace pour répondre à des exigences spécialisées. Cependant, l'adaptation à certains domaines complexes reste un défi, en particulier lorsque ces domaines nécessitent des données appariées substantielles pour capturer les distributions ciblées. Étant donné que les données non appariées issues d'une seule modalité, comme la vision ou le langage, sont plus facilement disponibles, nous exploitons les correspondances bidirectionnelles entre la vision et le langage apprises par le modèle génératif unifié pour permettre l'entraînement sur des données non appariées en vue de l'adaptation de domaine. Plus précisément, nous proposons DoraCycle, qui intègre deux cycles multimodaux : texte-à-image-à-texte et image-à-texte-à-image. Le modèle est optimisé via une perte d'entropie croisée calculée aux extrémités des cycles, où les deux extrémités partagent la même modalité. Cela facilite l'auto-évolution du modèle sans dépendre de paires texte-image annotées. Les résultats expérimentaux montrent que pour des tâches indépendantes de connaissances appariées, comme la stylisation, DoraCycle peut adapter efficacement le modèle unifié en utilisant uniquement des données non appariées. Pour les tâches impliquant de nouvelles connaissances appariées, comme des identités spécifiques, une combinaison d'un petit ensemble d'exemples image-texte appariés et de données non appariées à plus grande échelle est suffisante pour une adaptation orientée domaine efficace. Le code sera publié à l'adresse https://github.com/showlab/DoraCycle.
Le parallélisme par pipeline (PP) est largement utilisé pour l'entraînement de grands modèles de langage (LLMs), mais sa scalabilité est souvent limitée par la consommation élevée de mémoire d'activation, qui augmente avec le nombre de micro-lots en cours d'exécution en fonction du degré de PP. Dans cet article, nous nous concentrons sur la résolution de ce défi en exploitant la stratégie sous-utilisée de déchargement de mémoire dans le PP. Grâce à une étude empirique, nous découvrons que dans la majorité des configurations standard, au moins la moitié, et potentiellement la totalité, des activations peuvent être déchargées avec un surcoût négligeable. Dans les cas où un déchargement complet n'est pas possible, nous introduisons une nouvelle stratégie de déchargement sélectif qui réduit la mémoire d'activation de pointe de manière meilleure que linéaire. De plus, nous intégrons le déchargement de mémoire avec d'autres techniques pour considérer conjointement le débit global et les limitations de mémoire. Nos expériences prouvent que la mémoire d'activation par dispositif diminue effectivement avec le nombre total d'étapes, faisant du PP une alternative plus robuste que le TP, offrant jusqu'à une accélération de 19 % avec une consommation de mémoire encore plus faible. L'implémentation est open-source à l'adresse suivante : https://github.com/sail-sg/zero-bubble-pipeline-parallelism{ce lien}.
Bien que l'apprentissage par renforcement à partir de retours humains (RLHF) soit devenu la méthode prédominante pour contrôler les sorties des modèles de langage, il souffre de coûts de calcul élevés et d'une instabilité lors de l'entraînement. Le décodage guidé, en particulier les méthodes guidées par la valeur, offre une alternative économique en contrôlant les sorties sans nécessiter de ré-entraînement des modèles. Cependant, la précision de la fonction de valeur est cruciale pour le décodage guidé par la valeur, car des imprécisions peuvent entraîner une prise de décision sous-optimale et une dégradation des performances. Les méthodes existantes peinent à estimer avec précision la fonction de valeur optimale, ce qui conduit à un contrôle moins efficace. Nous proposons l'Optimisation Itérative de la Fonction de Valeur, un cadre novateur qui surmonte ces limitations grâce à deux composants clés : l'Estimation de Valeur par Monte Carlo, qui réduit la variance d'estimation en explorant des trajectoires diverses, et l'Optimisation Itérative sur Politique, qui améliore progressivement l'estimation de la valeur en collectant des trajectoires à partir de politiques guidées par la valeur. Des expériences approfondies sur la synthèse de texte, les dialogues multi-tours et le suivi d'instructions démontrent l'efficacité des approches de décodage guidé par la valeur pour aligner les modèles de langage. Ces approches non seulement atteignent l'alignement, mais réduisent également de manière significative les coûts de calcul en exploitant une optimisation rigoureuse de la fonction de valeur pour un contrôle efficace et efficient.
Un modèle unifié pour la vidéo et l'action présente un potentiel significatif pour la robotique, où les vidéos fournissent des informations riches sur la scène pour la prédiction d'actions, et les actions fournissent des informations dynamiques pour la prédiction vidéo. Cependant, combiner efficacement la génération de vidéos et la prédiction d'actions reste un défi, et les méthodes actuelles basées sur la génération de vidéos peinent à égaler les performances de l'apprentissage direct de politiques en termes de précision des actions et de vitesse d'inférence. Pour combler cette lacune, nous introduisons le modèle Vidéo-Action Unifié (UVA), qui optimise conjointement les prédictions vidéo et action pour atteindre à la fois une haute précision et une inférence d'action efficace. La clé réside dans l'apprentissage d'une représentation latente commune vidéo-action et dans le décodage séparé vidéo-action. La représentation latente commune relie les domaines visuel et action, modélisant efficacement la relation entre les séquences vidéo et action. Parallèlement, le décodage séparé, alimenté par deux têtes de diffusion légères, permet une inférence d'action à haute vitesse en contournant la génération de vidéos pendant l'inférence. Un tel cadre unifié permet en outre une fonctionnalité polyvalente grâce à l'entraînement sur entrées masquées. En masquant sélectivement les actions ou les vidéos, un seul modèle peut aborder diverses tâches au-delà de l'apprentissage de politiques, telles que la modélisation des dynamiques directe et inverse et la génération de vidéos. À travers un ensemble étendu d'expériences, nous démontrons que l'UVA peut servir de solution générale pour une large gamme de tâches robotiques, telles que l'apprentissage de politiques, la dynamique directe/inverse et la prédiction d'observations vidéo, sans compromettre les performances par rapport aux méthodes spécifiquement conçues pour des applications particulières. Les résultats sont mieux visualisés sur https://unified-video-action-model.github.io/.
Les modèles de diffusion ont réalisé des avancées remarquables dans diverses tâches de génération d'images. Cependant, leurs performances déclinent notablement lors de la génération d'images à des résolutions supérieures à celles utilisées pendant la période d'entraînement. Bien qu'il existe de nombreuses méthodes pour produire des images haute résolution, elles souffrent soit d'inefficacité, soit sont entravées par des opérations complexes. Dans cet article, nous proposons RectifiedHR, une solution efficace et simple pour la génération d'images haute résolution sans entraînement. Plus précisément, nous introduisons la stratégie de rafraîchissement du bruit, qui théoriquement ne nécessite que quelques lignes de code pour débloquer la capacité de génération haute résolution du modèle et améliorer l'efficacité. De plus, nous observons pour la première fois le phénomène de décroissance d'énergie qui peut provoquer un flou d'image lors du processus de génération d'images haute résolution. Pour résoudre ce problème, nous proposons une stratégie de Rectification d'Énergie, où la modification des hyperparamètres du guidage sans classificateur améliore efficacement les performances de génération. Notre méthode est entièrement exempte d'entraînement et bénéficie d'une logique d'implémentation simple. À travers des comparaisons approfondies avec de nombreuses méthodes de référence, notre RectifiedHR démontre une efficacité et une efficience supérieures.
Les récents progrès dans les modèles de langage de grande taille (LLMs) ont conduit au développement d'agents intelligents basés sur ces modèles, capables d'interagir avec des interfaces graphiques (GUIs). Ces agents démontrent une forte capacité de raisonnement et d'adaptation, leur permettant d'accomplir des tâches complexes qui nécessitaient traditionnellement des règles prédéfinies. Cependant, la dépendance à un raisonnement étape par étape dans les agents basés sur les LLMs entraîne souvent des inefficacités, en particulier pour les tâches routinières. À l'inverse, les systèmes traditionnels basés sur des règles excellent en termes d'efficacité mais manquent d'intelligence et de flexibilité pour s'adapter à des scénarios nouveaux. Pour relever ce défi, nous proposons un cadre évolutif novateur pour les agents GUI qui améliore l'efficacité opérationnelle tout en conservant l'intelligence et la flexibilité. Notre approche intègre un mécanisme de mémoire qui enregistre l'historique d'exécution des tâches de l'agent. En analysant cet historique, l'agent identifie des séquences d'actions répétitives et développe des actions de haut niveau qui servent de raccourcis, remplaçant ces opérations de bas niveau et améliorant ainsi l'efficacité. Cela permet à l'agent de se concentrer sur les tâches nécessitant un raisonnement plus complexe, tout en simplifiant les actions routinières. Les résultats expérimentaux sur plusieurs tâches de référence montrent que notre approche surpasse significativement les méthodes existantes en termes d'efficacité et de précision. Le code sera rendu public pour soutenir les recherches futures.
La collecte de récompenses de réalisation de tâches ou de démonstrations humaines pour des tâches de raisonnement à plusieurs étapes est souvent coûteuse et chronophage, en particulier dans des domaines interactifs comme les tâches web. Pour résoudre ce goulot d'étranglement, nous présentons la méthode d'anticipation auto-apprise, une approche auto-supervisée qui exploite la dynamique des transitions d'état pour entraîner un modèle de valeur capable de guider efficacement la recherche contrôlée par un modèle de langage. Nous constatons que des modèles de valeur de taille modérée (8 milliards de paramètres) à poids ouverts, améliorés par l'anticipation auto-apprise, peuvent égaler les performances d'un modèle de langage de pointe tel que GPT-4 utilisé comme modèle de valeur. De plus, nous observons que l'anticipation auto-apprise améliore les performances de 20 % tout en réduisant les coûts par un facteur de 37 par rapport aux méthodes précédentes de recherche arborescente basées sur des LLM, sans recourir à des récompenses de référence.
Les modèles de langage autorégressifs s'appuient sur un cache Clé-Valeur (KV), qui évite de recalculer les états cachés passés lors de la génération, rendant ainsi le processus plus rapide. À mesure que la taille des modèles et la longueur des contextes augmentent, le cache KV devient un goulot d'étranglement mémoire significatif, ce qui nécessite des méthodes de compression pour limiter sa taille pendant la génération. Dans cet article, nous découvrons des propriétés surprenantes des vecteurs Requête (Q) et Clé (K) qui nous permettent d'approximer efficacement les scores d'attention sans calculer les cartes d'attention. Nous proposons Q-Filters, une méthode de compression du cache KV sans entraînement, qui filtre les paires Clé-Valeur moins cruciales en se basant sur une projection unique et indépendante du contexte. Contrairement à de nombreuses alternatives, Q-Filters est compatible avec FlashAttention, car il ne nécessite pas d'accès direct aux poids d'attention. Les résultats expérimentaux dans des contextes de longue durée montrent que Q-Filters est compétitif par rapport aux méthodes de compression basées sur l'attention, comme SnapKV, dans les tâches de recherche, tout en surpassant systématiquement les schémas de compression efficaces, tels que Streaming-LLM, dans les configurations de génération. Notamment, Q-Filters atteint une précision de 99 % dans la tâche de l'aiguille dans une botte de foin avec un niveau de compression x32, tout en réduisant la baisse de perplexité lors de la génération de texte jusqu'à 65 % par rapport à Streaming-LLM.
Les agents basés sur des modèles de langage de grande taille (LLM) ont démontré des capacités de généralisation remarquables pour des tâches multi-domaines. Les approches existantes de réglage des agents utilisent généralement un ajustement supervisé sur l'intégralité des trajectoires expertes. Cependant, le clonage comportemental de trajectoires complètes peut introduire un biais expert et affaiblir la généralisation à des états non couverts par les données expertes. De plus, des étapes critiques, telles que la planification, le raisonnement complexe pour les sous-tâches intermédiaires et la prise de décision stratégique, sont essentielles à la réussite des tâches des agents. Apprendre ces étapes est donc la clé pour améliorer les agents LLM. Pour un réglage des agents plus efficace et efficient, nous proposons ATLaS, qui identifie les étapes critiques dans les trajectoires expertes et ajuste les LLM uniquement sur ces étapes, réduisant ainsi les coûts. En orientant l'attention de l'entraînement sur quelques étapes critiques, notre méthode atténue le risque de surajustement des trajectoires entières et favorise la généralisation à travers différents environnements et tâches. Dans des expériences approfondies, un LLM ajusté sur seulement 30 % des étapes critiques sélectionnées par ATLaS surpasse le LLM ajusté sur toutes les étapes ainsi que les récents agents LLM open-source. ATLaS maintient et améliore les compétences de base des LLM en tant qu'agents généralistes interagissant avec des environnements diversifiés.
Les modèles généralistes ont obtenu un succès remarquable dans les tâches de langage et de vision-langage, démontrant le potentiel de la modélisation unifiée. Cependant, l'intégration efficace de tâches de perception fine comme la détection et la segmentation dans ces modèles reste un défi majeur. Cela est principalement dû au fait que ces tâches reposent souvent fortement sur des conceptions et architectures spécifiques qui peuvent compliquer le processus de modélisation. Pour relever ce défi, nous présentons \ours, un cadre qui unifie les tâches de perception visuelle fine à travers une interface langagière ouverte. En transformant toutes les cibles de perception en espace langagier, \ours unifie la détection au niveau objet, la segmentation au niveau pixel et les tâches de vision-langage au niveau image dans un seul modèle. De plus, nous introduisons une nouvelle approche de récupération d'embeddings qui repose uniquement sur l'interface langagière pour supporter les tâches de segmentation. Notre cadre comble le fossé entre la perception fine et les tâches de vision-langage, simplifiant considérablement la conception architecturale et les stratégies d'entraînement tout en atteignant des performances comparables ou supérieures aux méthodes avec des conceptions spécifiques complexes. Après un entraînement multi-tâches sur cinq ensembles de données standard de perception visuelle, \ours surpasse les précédents modèles généralistes de pointe de 12,3 mAP sur la segmentation d'instances COCO et de 3,3 mIoU sur la segmentation sémantique ADE20K. En outre, notre méthode s'intègre de manière transparente avec les MLLM existants, combinant efficacement les capacités de perception fine avec leurs capacités langagières avancées, permettant ainsi des tâches plus complexes comme la segmentation raisonnée. Le code et les modèles seront rendus publics.
L'échantillonnage spéculatif est devenu une technique importante pour accélérer le processus de génération auto-régressive des grands modèles de langage (LLMs) en utilisant un mécanisme de brouillon-puis-vérification pour produire plusieurs tokens par passage avant. Bien que les méthodes d'échantillonnage spéculatif de pointe n'utilisent qu'une seule couche et une tête de modélisation du langage (LM) comme modèle de brouillon pour obtenir une compression impressionnante des couches, leurs gains d'efficacité sont considérablement réduits pour les LLMs à grand vocabulaire, tels que Llama-3-8B avec un vocabulaire de 128k tokens. Pour remédier à cela, nous présentons FR-Spec, un cadre d'échantillonnage spéculatif classé par fréquence qui optimise la sélection des candidats de brouillon grâce à une compression de l'espace du vocabulaire. En limitant la recherche de brouillon à un sous-ensemble de tokens priorisé par fréquence, notre méthode réduit la surcharge de calcul de la tête LM de 75% tout en garantissant l'équivalence de la distribution finale des sorties. Les expériences menées sur plusieurs ensembles de données démontrent une accélération moyenne de 1,12 fois par rapport à la méthode d'échantillonnage spéculatif de pointe EAGLE-2.
L'évaluation du contenu texte-à-vision repose sur deux aspects cruciaux : la qualité visuelle et l'alignement. Bien que des progrès significatifs aient été réalisés dans le développement de modèles objectifs pour évaluer ces dimensions, la performance de tels modèles dépend fortement de l'échelle et de la qualité des annotations humaines. Selon la loi d'échelle (Scaling Law), l'augmentation du nombre d'instances annotées par des humains suit un schéma prévisible qui améliore la performance des modèles d'évaluation. Par conséquent, nous introduisons un ensemble de données complet conçu pour évaluer la qualité visuelle et le niveau d'alignement pour le contenu texte-à-vision (Q-EVAL-100K), comprenant la plus grande collection de scores d'opinion moyenne (MOS) annotés par des humains pour les deux aspects mentionnés. Le jeu de données Q-EVAL-100K englobe à la fois les modèles texte-à-image et texte-à-vidéo, avec 960 000 annotations humaines spécifiquement axées sur la qualité visuelle et l'alignement pour 100 000 instances (60 000 images et 40 000 vidéos). En exploitant cet ensemble de données avec un contexte de prompt, nous proposons Q-Eval-Score, un modèle unifié capable d'évaluer à la fois la qualité visuelle et l'alignement, avec des améliorations spécifiques pour gérer l'alignement des prompts de texte long. Les résultats expérimentaux indiquent que le Q-Eval-Score proposé atteint une performance supérieure à la fois en qualité visuelle et en alignement, avec de solides capacités de généralisation sur d'autres benchmarks. Ces résultats mettent en évidence la valeur significative du jeu de données Q-EVAL-100K. Les données et les codes seront disponibles à l'adresse suivante : https://github.com/zzc-1998/Q-Eval.
L'apprentissage des préférences améliore les modèles de langage pour le code (Code LLMs) au-delà du réglage fin supervisé en exploitant des comparaisons relatives de qualité. Les méthodes existantes construisent des paires de préférences à partir de candidats basés sur la réussite des cas de test, traitant l'échantillon avec le taux de réussite le plus élevé comme positif et celui avec le taux le plus bas comme négatif. Cependant, cette approche ne localise pas les erreurs spécifiques dans le code, ce qui empêche le modèle d'apprendre des modèles de correction d'erreurs plus informatifs, car l'alignement du code défaillant dans son ensemble manque de la granularité nécessaire pour capturer des relations significatives de résolution d'erreurs. Pour résoudre ces problèmes, nous proposons IterPref, un nouveau cadre d'alignement des préférences qui imite le débogage itératif humain pour affiner les Code LLMs. IterPref localise explicitement les régions d'erreur et aligne les tokens correspondants via un algorithme DPO adapté. Pour générer des paires informatives, nous introduisons le jeu de données CodeFlow, où les échantillons sont raffinés de manière itérative jusqu'à ce qu'ils passent les tests, avec des modifications capturant les corrections d'erreurs. Des expériences approfondies montrent qu'une suite diversifiée de Code LLMs équipés d'IterPref obtient des gains de performance significatifs en génération de code et s'améliore sur des tâches complexes comme BigCodeBench. Une analyse approfondie révèle qu'IterPref produit moins d'erreurs. Notre code et nos données seront rendus publics.
Dans l'apprentissage de représentation, l'uniformité fait référence à la distribution uniforme des caractéristiques dans l'espace latent (c'est-à-dire l'hypersphère unitaire). Les travaux précédents ont montré qu'améliorer l'uniformité contribue à l'apprentissage des classes sous-représentées. Cependant, la plupart des recherches antérieures se sont concentrées sur la classification ; l'espace de représentation pour la régression déséquilibrée reste inexploré. Les méthodes basées sur la classification ne sont pas adaptées aux tâches de régression car elles regroupent les caractéristiques en catégories distinctes sans tenir compte de la nature continue et ordonnée essentielle à la régression. D'un point de vue géométrique, nous nous concentrons de manière unique sur l'assurance de l'uniformité dans l'espace latent pour la régression déséquilibrée à travers deux pertes clés : l'enveloppement et l'homogénéité. La perte d'enveloppement encourage la trace induite à occuper uniformément la surface d'une hypersphère, tandis que la perte d'homogénéité assure une régularité, avec des représentations espacées de manière uniforme à des intervalles constants. Notre méthode intègre ces principes géométriques dans les représentations de données via un cadre d'Apprentissage de Représentation Piloté par Surrogate (SRL). Les expériences avec des tâches de régression et d'apprentissage d'opérateurs dans le monde réel mettent en lumière l'importance de l'uniformité dans la régression déséquilibrée et valident l'efficacité de nos fonctions de perte basées sur la géométrie.
Le progrès de l'IA en pathologie computationnelle nécessite des ensembles de données volumineux, de haute qualité et diversifiés. Cependant, les ensembles de données publics existants sont souvent limités en termes de diversité d'organes, de couverture de classes ou de qualité d'annotations. Pour combler cette lacune, nous présentons SPIDER (Supervised Pathology Image-DEscription Repository), le plus grand ensemble de données disponible publiquement au niveau des patches, couvrant plusieurs types d'organes, notamment la peau, le côlon-rectum et le thorax, avec une couverture complète des classes pour chaque organe. SPIDER fournit des annotations de haute qualité vérifiées par des pathologistes experts et inclut des patches de contexte environnant, qui améliorent les performances de classification en fournissant un contexte spatial. Parallèlement à l'ensemble de données, nous présentons des modèles de référence entraînés sur SPIDER en utilisant le modèle de base Hibou-L comme extracteur de caractéristiques, combiné à une tête de classification basée sur l'attention. Ces modèles atteignent des performances de pointe à travers plusieurs catégories de tissus et servent de références solides pour les futures recherches en pathologie numérique. Au-delà de la classification des patches, le modèle permet une identification rapide des zones significatives, des métriques quantitatives des tissus, et établit une base pour des approches multimodales. L'ensemble de données et les modèles entraînés sont tous deux disponibles publiquement pour faire progresser la recherche, la reproductibilité et le développement de l'IA en pathologie. Accédez-y à l'adresse suivante : https://github.com/HistAI/SPIDER
Ces dernières années, les modèles visuels fondamentaux généraux (VFMs) ont connu une adoption croissante, en particulier en tant qu'encodeurs d'images pour les modèles de langage multi-modaux (MLLMs) populaires. Cependant, en l'absence d'une supervision sémantique fine, ces modèles continuent de rencontrer des erreurs de prédiction fondamentales dans le cadre de tâches en aval liées au texte et à l'image, c'est-à-dire la perception, la compréhension et le raisonnement avec des images contenant des textes petits et denses. Pour combler cette lacune, nous développons TokenOCR, le premier modèle visuel fondamentau au niveau des tokens spécifiquement conçu pour les tâches liées au texte et à l'image, destiné à soutenir une variété d'applications traditionnelles en aval. Pour faciliter le pré-entraînement de TokenOCR, nous avons également conçu un pipeline de production de données de haute qualité qui construit le premier jeu de données d'images textuelles au niveau des tokens, TokenIT, comprenant 20 millions d'images et 1,8 milliard de paires token-masque. De plus, en tirant parti de cette base avec une capacité exceptionnelle à traiter l'image comme du texte, nous remplaçons de manière transparente les VFMs précédents par TokenOCR pour construire un MLLM au niveau des documents, TokenVL, pour les tâches de compréhension de documents basées sur la VQA. Enfin, des expériences approfondies démontrent l'efficacité de TokenOCR et TokenVL. Le code, les jeux de données et les poids seront disponibles à l'adresse https://token-family.github.io/TokenOCR_project.
Alors que les progrès des grands modèles de langage (LLMs) ont considérablement amélioré la qualité des données textuelles synthétiques ces dernières années, la synthèse de données tabulaires a reçu relativement moins d'attention. Nous abordons cette disparité avec Tabby, une modification simple mais puissante apportée après l'entraînement à l'architecture standard des modèles de langage Transformer, permettant son utilisation pour la synthèse de jeux de données tabulaires. Tabby permet la représentation des différences entre les colonnes en utilisant un mélange de portes d'experts (Gated Mixture-of-Experts), avec des ensembles de paramètres spécifiques à chaque colonne. Empiriquement, Tabby produit des données dont la qualité est proche ou égale à celle des données réelles. En associant notre nouvelle technique d'entraînement de tables LLM, Plain, à Tabby, nous observons une amélioration de la qualité allant jusqu'à 44 % par rapport aux méthodes précédentes. Nous montrons également que Tabby s'étend au-delà des tables à des données structurées plus générales, atteignant une parité avec les données réelles sur un jeu de données JSON imbriqué également.
Au cours des dernières décennies, les recherches en neurosciences et en psychologie ont mis en évidence des relations directes entre le goût et les perceptions auditives. Cet article explore des modèles génératifs multimodaux capables de convertir des informations gustatives en musique, en s'appuyant sur ces recherches fondamentales. Nous proposons une brève revue de l'état de l'art dans ce domaine, en mettant en lumière les découvertes et méthodologies clés. Nous présentons une expérience dans laquelle une version affinée d'un modèle génératif de musique (MusicGEN) est utilisée pour générer de la musique à partir de descriptions gustatives détaillées fournies pour chaque morceau. Les résultats sont prometteurs : selon l'évaluation des participants (n=111), le modèle affiné produit une musique qui reflète de manière plus cohérente les descriptions gustatives en entrée par rapport au modèle non affiné. Cette étude représente une avancée significative dans la compréhension et le développement d'interactions incarnées entre l'IA, le son et le goût, ouvrant de nouvelles possibilités dans le domaine de l'IA générative. Nous mettons à disposition notre ensemble de données, notre code et notre modèle pré-entraîné à l'adresse suivante : https://osf.io/xs5jy/.
Cet article présente le Discrete-time Hybrid Automata Learning (DHAL), un cadre utilisant l'apprentissage par renforcement on-policy pour identifier et exécuter des changements de mode sans segmentation de trajectoire ni apprentissage de fonction d'événement. Les systèmes dynamiques hybrides, qui incluent un flux continu et des changements de mode discrets, peuvent modéliser des tâches robotiques telles que la locomotion de robots à pattes. Les méthodes basées sur des modèles dépendent généralement de démarches prédéfinies, tandis que les approches sans modèle manquent de connaissances explicites sur les changements de mode. Les méthodes actuelles identifient les modes discrets via une segmentation avant de régresser le flux continu, mais apprendre la dynamique complexe de corps rigides en haute dimension sans étiquettes de trajectoire ni segmentation reste un problème ouvert et difficile. Notre approche intègre une distribution de politique bêta et une architecture multi-critique pour modéliser des mouvements guidés par le contact, illustrés par une tâche complexe de robot quadrupède sur un skateboard. Nous validons notre méthode à travers des simulations et des tests en conditions réelles, démontrant une performance robuste dans les systèmes dynamiques hybrides.