Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous proposons un nouveau référentiel financier à long contexte, FailSafeQA, conçu pour tester la robustesse et la conscience contextuelle des LLMs face à six variations dans les interactions interface humaine dans les systèmes de question-réponse basés sur les LLM dans le domaine financier. Nous nous concentrons sur deux études de cas : l'échec de la requête et l'échec du contexte. Dans le scénario d'échec de la requête, nous perturbons la requête originale pour varier en termes d'expertise de domaine, de complétude et de précision linguistique. Dans le cas d'échec du contexte, nous simulons le téléchargement de documents dégradés, non pertinents et vides. Nous utilisons la méthodologie LLM-comme-juge avec Qwen2.5-72B-Instruct et utilisons des critères d'évaluation fins pour définir et calculer les scores de Robustesse, d'Ancrage Contextuel et de Conformité pour 24 modèles prêts à l'emploi. Les résultats suggèrent que bien que certains modèles excellent dans l'atténuation des perturbations d'entrée, ils doivent équilibrer une réponse robuste avec la capacité de s'abstenir d'halluciner. Notamment, Palmyra-Fin-128k-Instruct, reconnu comme le modèle le plus conforme, a maintenu de solides performances de base mais a rencontré des défis pour maintenir des prédictions robustes dans 17 % des cas de test. D'autre part, le modèle le plus robuste, OpenAI o3-mini, a fabriqué des informations dans 41 % des cas testés. Les résultats montrent que même les modèles performants ont un potentiel d'amélioration significatif et mettent en évidence le rôle de FailSafeQA en tant qu'outil pour développer des LLM optimisés pour la fiabilité dans les applications financières. L'ensemble de données est disponible sur : https://huggingface.co/datasets/Writer/FailSafeQA
Nous montrons que l'apprentissage par renforcement appliqué aux grands modèles de langage (GML) améliore significativement les performances sur des tâches complexes de codage et de raisonnement. De plus, nous comparons deux modèles de raisonnement polyvalents - OpenAI o1 et un point de contrôle précoce de o3 - avec un système spécifique au domaine, o1-ioi, qui utilise des stratégies d'inférence conçues manuellement pour concourir à l'Olympiade internationale d'informatique (IOI) de 2024. Nous avons participé en direct à l'IOI 2024 avec o1-ioi et, en utilisant des stratégies de test élaborées manuellement, nous nous sommes classés au 49e centile. Dans des conditions de compétition moins contraignantes, o1-ioi a obtenu une médaille d'or. Cependant, lors de l'évaluation de modèles ultérieurs tels que o3, nous constatons que o3 obtient une médaille d'or sans stratégies spécifiques au domaine élaborées manuellement ou contraintes moins strictes. Nos résultats montrent que bien que des pipelines spécialisés tels que o1-ioi apportent des améliorations significatives, le modèle polyvalent à grande échelle o3 surpasse ces résultats sans recourir à des heuristiques d'inférence élaborées manuellement. De manière notable, o3 obtient une médaille d'or à l'IOI 2024 et obtient un classement Codeforces au niveau des compétiteurs humains d'élite. Dans l'ensemble, ces résultats indiquent que l'expansion de l'apprentissage par renforcement polyvalent, plutôt que de s'appuyer sur des techniques spécifiques au domaine, offre une voie robuste vers une IA de pointe dans les domaines du raisonnement, tels que la programmation compétitive.
Le raisonnement est une capacité fondamentale des grands modèles de langage. Alors que les recherches antérieures se concentrent principalement sur l'amélioration de compétences spécifiques telles que les mathématiques ou la génération de code, l'amélioration des performances sur de nombreuses autres tâches de raisonnement reste difficile en raison de données d'entraînement rares et fragmentées. Pour résoudre ce problème, nous proposons CodeI/O, une approche novatrice qui condense systématiquement divers schémas de raisonnement intrinsèquement intégrés dans des codes ancrés contextuellement, en transformant le code original en un format de prédiction d'entrée-sortie de code. En formant des modèles à prédire les entrées/sorties étant donné le code et les cas de test entièrement en langage naturel en tant que justifications en chaîne de pensées (CoT), nous les exposons à des primitives de raisonnement universelles -- telles que la planification de flux logique, la recherche d'espace d'états, le parcours d'arbre de décision et la décomposition modulaire -- tout en dissociant le raisonnement structuré de la syntaxe spécifique au code et en préservant la rigueur procédurale. Les résultats expérimentaux démontrent que CodeI/O entraîne des améliorations constantes sur des tâches de raisonnement symbolique, scientifique, logique, mathématique et numérique, ainsi que de bon sens. En correspondant aux sorties de référence existantes ou en ré-exécutant le code avec les entrées prédites, nous pouvons vérifier chaque prédiction et améliorer davantage les CoTs grâce à des révisions multi-tours, aboutissant à CodeI/O++ et atteignant des performances supérieures. Nos données et modèles sont disponibles sur https://github.com/hkust-nlp/CodeIO.
Les grands modèles de raisonnement (GMR) abordent des problèmes de raisonnement complexes en suivant de longues chaînes de réflexion (Long CoT) qui intègrent la réflexion, le retour en arrière et l'auto-validation. Cependant, les techniques d'entraînement et les exigences en données pour susciter des Long CoT restent mal comprises. Dans ce travail, nous constatons qu'un grand modèle de langage (GLM) peut apprendre efficacement le raisonnement Long CoT grâce à un fine-tuning supervisé efficace en données (SFT) et à une adaptation à faible rang de paramètres (LoRA). Avec seulement 17 000 échantillons d'entraînement Long CoT, le modèle Qwen2.5-32B-Instruct obtient des améliorations significatives sur un large éventail de bancs d'essai en mathématiques et en codage, y compris 56,7 % (+40,0 %) sur AIME 2024 et 57,0 % (+8,1 %) sur LiveCodeBench, compétitif par rapport au score du modèle propriétaire o1-preview de 44,6 % et 59,1 %. Plus important encore, nous constatons que la structure du Long CoT est cruciale pour le processus d'apprentissage, tandis que le contenu des étapes de raisonnement individuelles a un impact minimal. Les perturbations affectant le contenu, telles que l'entraînement sur des échantillons incorrects ou la suppression de mots-clés de raisonnement, ont peu d'impact sur les performances. En revanche, les modifications structurelles qui perturbent la cohérence logique dans le Long CoT, telles que le mélange ou la suppression des étapes de raisonnement, dégradent significativement la précision. Par exemple, un modèle entraîné sur des échantillons Long CoT avec des réponses incorrectes n'obtient qu'une précision inférieure de 3,2 % par rapport à l'entraînement avec des échantillons entièrement corrects. Ces observations approfondissent notre compréhension de la manière de susciter les capacités de raisonnement dans les GLM et mettent en évidence les considérations clés pour l'entraînement efficace de la prochaine génération de modèles de raisonnement. Il s'agit de l'article académique de notre modèle Sky-T1-32B-Preview précédemment publié. Les codes sont disponibles sur https://github.com/NovaSky-AI/SkyThought.
La prédiction des mouvements de stock, une tâche fondamentale dans la prévision des séries temporelles financières, nécessite l'identification et la récupération des facteurs d'influence critiques à partir de vastes quantités de données de séries temporelles. Cependant, les méthodes de recherche existantes basées sur des similarités textuelles ou numériques sont insuffisantes pour traiter l'analyse financière complexe. Pour remédier à cela, nous proposons le premier cadre de génération augmentée par recherche (RAG) pour la prévision des séries temporelles financières, présentant trois innovations clés : un modèle de langage large finement réglé à 1 milliard de paramètres (StockLLM) comme base, une nouvelle méthode de sélection de candidats exploitant les retours du LLM, et un objectif d'entraînement qui maximise la similarité entre les requêtes et les séquences historiquement significatives. Cela permet à notre système de recherche, FinSeer, de découvrir des motifs significatifs tout en minimisant le bruit dans des données financières complexes. Nous construisons également de nouveaux ensembles de données intégrant des indicateurs financiers et des prix d'actions historiques pour entraîner FinSeer et garantir une évaluation robuste. Les résultats expérimentaux démontrent que notre cadre RAG surpasse le simple StockLLM et la recherche aléatoire, mettant en avant son efficacité, tandis que FinSeer dépasse les méthodes de recherche existantes, atteignant une précision 8\% plus élevée sur BIGDATA22 et récupérant des séquences plus impactantes. Ce travail souligne l'importance des modèles de recherche adaptés dans la prévision financière et fournit un cadre novateur pour les futures recherches.
Dans ce rapport technique, nous présentons Magic 1-For-1 (Magic141), un modèle efficace de génération vidéo avec une consommation mémoire optimisée et une latence d'inférence réduite. L'idée clé est simple : factoriser la tâche de génération de texte en vidéo en deux tâches plus simples pour la distillation des étapes de diffusion, à savoir la génération de texte en image et l'image en vidéo. Nous vérifions qu'avec le même algorithme d'optimisation, la tâche image-vidéo est effectivement plus facile à converger que la tâche texte-vidéo. Nous explorons également un ensemble d'astuces d'optimisation pour réduire le coût computationnel de l'entraînement des modèles image-vidéo (I2V) selon trois aspects : 1) accélération de la convergence du modèle en injectant une condition préalable multimodale ; 2) accélération de la latence d'inférence en appliquant une distillation d'étape adversaire, et 3) optimisation du coût mémoire d'inférence avec la sparsification des paramètres. Grâce à ces techniques, nous sommes capables de générer des clips vidéo de 5 secondes en moins de 3 secondes. En appliquant une fenêtre temporelle glissante au moment du test, nous sommes en mesure de générer une vidéo d'une minute en moins d'une minute avec une qualité visuelle et une dynamique de mouvement considérablement améliorées, en dépensant moins d'une seconde pour générer en moyenne des clips vidéo d'une seconde. Nous menons une série d'explorations préliminaires pour trouver le compromis optimal entre le coût computationnel et la qualité vidéo lors de la distillation des étapes de diffusion, et espérons que cela pourrait constituer un bon modèle de base pour des explorations en open source. Le code et les poids du modèle sont disponibles sur https://github.com/DA-Group-PKU/Magic-1-For-1.
Nous menons une étude empirique du potentiel de pré-entraînement des modèles vision-langage à une échelle sans précédent : 100 milliards d'exemples. Nous constatons que les performances du modèle ont tendance à se saturer à cette échelle sur de nombreux benchmarks de classification et de recherche occidentaux courants, tels que COCO Captions. Néanmoins, les tâches de diversité culturelle bénéficient de gains plus importants à partir des données web à l'échelle des 100 milliards, grâce à sa couverture des concepts de longue traîne. De plus, nous analysons la multilinguisme du modèle et montrons des gains dans les langues à faibles ressources également. En outre, nous observons que la réduction de la taille de l'ensemble de données de pré-entraînement via des filtres de qualité comme l'utilisation de CLIP, généralement utilisés pour améliorer les performances, peut involontairement réduire la diversité culturelle représentée même dans des ensembles de données à grande échelle. Nos résultats soulignent que, bien que les benchmarks traditionnels ne bénéficient pas significativement de la mise à l'échelle des données web brutes et bruyantes à 100 milliards d'exemples, cette échelle de données est essentielle pour la construction de systèmes multimodaux vraiment inclusifs.
Les lois d'échelle sont généralement ajustées en utilisant une famille de modèles avec une gamme étroite de choix d'hyperparamètres figés. Dans ce travail, nous étudions les lois d'échelle en utilisant une large gamme d'architectures et de choix d'hyperparamètres, et mettons en lumière leur impact sur les prescriptions résultantes. En tant qu'élément principal de notre recherche, nous publions les Gemstones : l'ensemble de données sur les lois d'échelle open source le plus complet à ce jour, composé de plus de 4000 points de contrôle provenant de transformateurs avec jusqu'à 2 milliards de paramètres ; ces modèles ont été entraînés avec différents taux d'apprentissage, des calendriers de refroidissement et des formes architecturales. Nos points de contrôle permettent des études plus complexes sur l'échelle, telles qu'une loi qui prédit les performances de modélisation de langage en fonction de la largeur et de la profondeur du modèle. En examinant les différents aspects de notre ensemble de modèles, nous constatons que les prescriptions des lois d'échelle peuvent être très sensibles au processus de conception expérimentale et aux points de contrôle de modèle spécifiques utilisés lors de l'ajustement. Code : https://github.com/mcleish7/gemstone-scaling-laws
Enseigner aux grands modèles de langage (LLM) à critiquer et à affiner leurs sorties est crucial pour construire des systèmes capables de s'améliorer de manière itérative, mais cela est fondamentalement limité par la capacité à fournir des jugements précis et des suggestions exploitables. Dans ce travail, nous étudions les critiques des LLM pour la génération de code et proposons CTRL, un cadre pour l'Entraînement de Critiques via l'Apprentissage par Renforcement, qui entraîne un modèle critique à générer des retours qui maximisent les performances de correction pour un modèle générateur fixe sans supervision humaine. Nos résultats démontrent que les critiques formés avec CTRL améliorent significativement les taux de réussite et atténuent les erreurs cumulatives à travers les modèles générateurs de base et plus puissants. De plus, nous montrons que ces modèles critiques agissent en tant que modèles de récompense générative précis et permettent une mise à l'échelle au moment des tests à travers la critique-révision itérative, atteignant jusqu'à 106,1% d'améliorations relatives à travers des benchmarks de génération de code complexes.
La génération de vidéos basée sur DiT a obtenu des résultats remarquables, mais la recherche visant à améliorer les modèles existants reste relativement inexplorée. Dans ce travail, nous présentons une approche sans entraînement pour améliorer la cohérence et la qualité des vidéos générées basées sur DiT, nommée Améliorer-Une-Vidéo. L'idée principale est d'améliorer les corrélations inter-trames basées sur des distributions d'attention temporelle non diagonales. Grâce à sa conception simple, notre approche peut être facilement appliquée à la plupart des cadres de génération de vidéos basés sur DiT sans nécessiter de réentraînement ou de fine-tuning. À travers divers modèles de génération de vidéos basés sur DiT, notre approche démontre des améliorations prometteuses à la fois en termes de cohérence temporelle et de qualité visuelle. Nous espérons que cette recherche pourra inspirer de futures explorations dans l'amélioration de la génération de vidéos.
Les modèles fondamentaux ont révolutionné le traitement du langage naturel et l'intelligence artificielle, améliorant considérablement la manière dont les machines comprennent et génèrent les langues humaines. Inspirés par le succès de ces modèles fondamentaux, les chercheurs ont développé des modèles fondamentaux pour des domaines scientifiques individuels, y compris les petites molécules, les matériaux, les protéines, l'ADN et l'ARN. Cependant, ces modèles sont généralement entraînés de manière isolée, sans la capacité de s'intégrer à travers différents domaines scientifiques. Reconnaissant que les entités au sein de ces domaines peuvent toutes être représentées sous forme de séquences, qui forment ensemble le "langage de la nature", nous introduisons le Modèle de Langage Naturel (abrégé NatureLM), un modèle fondamental scientifique basé sur des séquences conçu pour la découverte scientifique. Pré-entraîné avec des données provenant de plusieurs domaines scientifiques, NatureLM offre un modèle unifié et polyvalent qui permet diverses applications, notamment : (i) la génération et l'optimisation de petites molécules, de protéines, d'ARN et de matériaux à l'aide d'instructions textuelles ; (ii) la génération/conception inter-domaines, telle que la génération de protéines en molécules et de protéines en ARN ; et (iii) l'atteinte de performances de pointe dans des tâches telles que la traduction de SMILES en IUPAC et la rétrosynthèse sur USPTO-50k. NatureLM offre une approche généraliste prometteuse pour diverses tâches scientifiques, y compris la découverte de médicaments (génération/optimisation de hits, optimisation ADMET, synthèse), la conception de nouveaux matériaux et le développement de protéines thérapeutiques ou de nucléotides. Nous avons développé des modèles NatureLM de différentes tailles (1 milliard, 8 milliards et 46,7 milliards de paramètres) et avons observé une amélioration claire des performances à mesure que la taille du modèle augmente.
En raison de la rareté des données de pré-entraînement orientées agent, les agents autonomes basés sur LLM s'appuient généralement sur des formulations complexes ou un ajustement fin approfondi, ce qui échoue souvent à introduire de nouvelles capacités tout en préservant une forte capacité de généralisation. Nous présentons Hephaestus-Forge, le premier corpus de pré-entraînement à grande échelle conçu pour améliorer les capacités fondamentales des agents LLM dans l'appel de fonctions API, le raisonnement intrinsèque et la planification, ainsi que dans l'adaptation aux retours environnementaux. Hephaestus-Forge comprend 103 milliards de données spécifiques à l'agent englobant 76 537 APIs, comprenant à la fois la documentation des outils pour introduire la connaissance des fonctions API et les trajectoires d'appel de fonctions pour renforcer le raisonnement intrinsèque. Pour explorer des protocoles d'entraînement efficaces, nous étudions les lois d'échelle pour identifier la recette optimale en termes de ratios de mélange de données. En continuant l'entraînement sur Hephaestus-Forge, Hephaestus surpasse les LLM open-source de petite à moyenne échelle et rivalise avec les LLM commerciaux sur trois benchmarks d'agents, démontrant l'efficacité de notre corpus de pré-entraînement dans l'amélioration des capacités agentic fondamentales et de la généralisation des LLM à de nouvelles tâches ou environnements.
Les méthodes récentes de génération d'images en vidéo ont démontré leur succès en permettant le contrôle sur un ou deux éléments visuels, tels que la trajectoire de la caméra ou le mouvement des objets. Cependant, ces méthodes ne parviennent pas à offrir un contrôle sur plusieurs éléments visuels en raison de limitations liées aux données et à l'efficacité du réseau. Dans cet article, nous présentons VidCRAFT3, un nouveau cadre pour la génération précise d'images en vidéo qui permet le contrôle simultané de la trajectoire de la caméra, du mouvement des objets et de la direction de l'éclairage. Pour mieux découpler le contrôle de chaque élément visuel, nous proposons le Transformateur à Triple Attention Spatiale, qui intègre de manière symétrique la direction de l'éclairage, le texte et l'image. Étant donné que la plupart des ensembles de données vidéo du monde réel manquent d'annotations sur l'éclairage, nous avons construit un ensemble de données vidéo synthétiques de haute qualité, l'ensemble de données VideoLightingDirection (VLD). Cet ensemble de données comprend des annotations sur la direction de l'éclairage et des objets d'apparence diversifiée, permettant à VidCRAFT3 de gérer efficacement les effets de forte transmission de lumière et de réflexion. De plus, nous proposons une stratégie d'entraînement en trois étapes qui élimine le besoin de données d'entraînement annotées avec plusieurs éléments visuels simultanément (trajectoire de la caméra, mouvement des objets et direction de l'éclairage). Des expériences approfondies sur des ensembles de données de référence démontrent l'efficacité de VidCRAFT3 dans la production de contenus vidéo de haute qualité, surpassant les méthodes existantes de pointe en termes de granularité de contrôle et de cohérence visuelle. Tout le code et les données seront publiquement disponibles. Page du projet : https://sixiaozheng.github.io/VidCRAFT3/.
Nous présentons Pippo, un modèle génératif capable de produire des vidéos détaillées en résolution 1K d'une personne à partir d'une simple photo prise de manière informelle. Pippo est un transformateur de diffusion multi-vue et ne nécessite aucun input supplémentaire - par exemple, un modèle paramétrique ajusté ou des paramètres de caméra de l'image d'entrée. Nous pré-entraînons Pippo sur 3 milliards d'images humaines sans légendes, et réalisons un entraînement intermédiaire et post-entraînement multi-vue sur des humains capturés en studio. Pendant l'entraînement intermédiaire, pour absorber rapidement l'ensemble de données du studio, nous débruitons plusieurs vues (jusqu'à 48) en basse résolution, et encodons grossièrement les caméras cibles à l'aide d'un MLP peu profond. Lors du post-entraînement, nous débruitons moins de vues en haute résolution et utilisons des contrôles alignés sur les pixels (par exemple, ancrage spatial et rayons de Plücker) pour permettre des générations 3D cohérentes. À l'inférence, nous proposons une technique de biais d'attention qui permet à Pippo de générer simultanément plus de 5 fois plus de vues que celles vues pendant l'entraînement. Enfin, nous introduisons également une métrique améliorée pour évaluer la cohérence 3D des générations multi-vues, et montrons que Pippo surpasse les travaux existants sur la génération humaine multi-vues à partir d'une seule image.
Les grands modèles de langage (LLM) semblent souvent exceller sur les benchmarks publics, mais ces scores élevés peuvent masquer une surdépendance aux indices superficiels spécifiques aux ensembles de données plutôt qu'à une véritable compréhension du langage. Nous introduisons le Détecteur de Surajustement au Benchmark Caméléon (C-BOD), un cadre de méta-évaluation qui déforme systématiquement les invitations des benchmarks via une transformation paramétrique et détecte le surajustement des LLM. En reformulant les entrées tout en préservant leur contenu sémantique et leurs étiquettes, C-BOD expose si la performance d'un modèle est basée sur des schémas mémorisés. Évaluée sur le benchmark MMLU en utilisant 26 principaux LLM, notre méthode révèle une dégradation moyenne des performances de 2,15% sous des perturbations modérées, avec 20 des 26 modèles présentant des différences statistiquement significatives. Notamment, les modèles avec une précision de base plus élevée montrent des différences de performances plus importantes sous perturbation, et les LLM plus grands ont tendance à être plus sensibles aux reformulations, indiquant que dans les deux cas, ils peuvent trop dépendre de schémas d'invitation fixes. En revanche, la famille Llama et les modèles avec une précision de base plus faible montrent une dégradation insignifiante, suggérant une dépendance réduite aux indices superficiels. De plus, la conception agnostique aux ensembles de données et aux modèles de C-BOD permet une intégration facile dans les pipelines d'entraînement pour promouvoir une compréhension du langage plus robuste. Nos résultats mettent au défi la communauté de regarder au-delà des scores des classements et de prioriser la résilience et la généralisation dans l'évaluation des LLM.
La grande majorité des modèles de recherche reposent sur les produits internes de vecteurs pour produire un score de pertinence entre une requête et un document. Cela limite naturellement l'expressivité du score de pertinence pouvant être utilisé. Nous proposons un nouveau paradigme, au lieu de produire un vecteur pour représenter la requête, nous produisons un petit réseau neuronal qui agit comme une fonction de pertinence apprise. Ce petit réseau neuronal prend en entrée une représentation du document, dans cet article nous utilisons un seul vecteur, et produit un score de pertinence scalaire. Pour produire le petit réseau neuronal, nous utilisons un hyper-réseau, un réseau qui produit les poids d'autres réseaux, comme notre codeur de requête ou comme nous l'appelons un Hypencodeur. Des expériences sur des tâches de recherche dans le même domaine montrent que l'Hypencodeur est capable de surpasser significativement les modèles de recherche denses forts et présente des métriques plus élevées que les modèles de réordonnancement et des modèles d'un ordre de grandeur plus grand. L'Hypencodeur est également démontré comme généralisant bien aux tâches de recherche hors domaine. Pour évaluer l'étendue des capacités de l'Hypencodeur, nous évaluons un ensemble de tâches de recherche difficiles incluant des tâches de recherche sur le bout de la langue et de suivi d'instructions, et constatons que l'écart de performance se creuse considérablement par rapport aux tâches de recherche standard. De plus, pour démontrer la praticité de notre méthode, nous mettons en œuvre un algorithme de recherche approximative et montrons que notre modèle est capable de rechercher 8,8 millions de documents en moins de 60 ms.
La technologie de Reconnaissance Optique de Caractères (OCR) est largement utilisée pour extraire du texte à partir d'images de documents, facilitant la numérisation efficace et la récupération de données. Cependant, extraire simplement du texte est insuffisant lorsqu'il s'agit de documents complexes. Comprendre pleinement de tels documents nécessite une compréhension de leur structure - y compris la mise en forme, les formules, les tableaux, et l'ordre de lecture de plusieurs blocs et colonnes sur plusieurs pages - ainsi que des informations sémantiques pour détecter des éléments tels que les notes de bas de page et les légendes d'images. Cette compréhension approfondie est cruciale pour des tâches ultérieures telles que la récupération, la réponse à des questions sur des documents, et la curation de données pour l'entraînement de Grands Modèles de Langage (LLMs) et de Modèles de Langage Visuel (VLMs). Pour répondre à cela, nous présentons \'Eclair, un outil d'extraction de texte polyvalent spécifiquement conçu pour traiter une large gamme de types de documents. En donnant une image en entrée, \'Eclair est capable d'extraire du texte formaté dans l'ordre de lecture, avec les cadres englobants et leurs classes sémantiques correspondantes. Pour évaluer pleinement ces nouvelles capacités, nous présentons notre banc d'essai diversifié annoté par des humains pour l'OCR au niveau du document et la classification sémantique. \'Eclair atteint une précision de pointe sur ce banc d'essai, surpassant d'autres méthodes sur des métriques clés. De plus, nous évaluons \'Eclair sur des bancs d'essai établis, démontrant sa polyvalence et sa robustesse selon plusieurs normes d'évaluation.
Les Modèles de Langage Multi-modaux à Grande Échelle (MLLM) rencontrent des difficultés avec les longues vidéos en raison du besoin de jetons visuels excessifs. Ces jetons dépassent largement la longueur de contexte des MLLM, ce qui entraîne un remplissage par des plans redondants non pertinents pour la tâche. La sélection des plans est un problème critique non résolu : un échantillonnage clair risque de manquer des détails clés, tandis qu'un échantillonnage exhaustif submerge le modèle de contenu non pertinent, conduisant à une incompréhension de la vidéo. Pour résoudre ce problème, nous proposons le prompt Chain-of-Shot (CoS). L'idée clé est de formuler la sélection des plans comme une optimisation de prompt visuel au moment du test, en choisissant des plans adaptés à la tâche sémantique de compréhension de la vidéo en optimisant l'alignement des plans sur la tâche. CoS se compose de deux parties clés : (1) un mécanisme de résumé vidéo binaire qui effectue un ancrage temporel pseudo, découvrant un codage binaire pour identifier les plans pertinents pour la tâche, et (2) un module de co-raisonnement vidéo qui déploie le codage binaire pour associer (apprentissage de l'alignement) des plans positifs pertinents pour la tâche avec des plans négatifs non pertinents. Il intègre les sélections de plans optimisées dans la vidéo d'origine, facilitant une focalisation sur le contexte pertinent pour optimiser la compréhension des longues vidéos. Des expériences menées sur trois bases et cinq ensembles de données démontrent l'efficacité et l'adaptabilité de CoS. Le code est disponible sur https://lwpyh.github.io/CoS.
Les grands modèles de langage (LLM) sont découverts comme souffrant de difficultés à récupérer précisément des informations clés. Pour remédier à cela, nous proposons Mask-Enhanced Autoregressive Prediction (MEAP), un paradigme d'entraînement simple mais efficace qui intègre de manière transparente le Modèle de Langage Masqué (MLM) dans la Prédiction du Prochain Token (NTP) pour améliorer les capacités de récupération contextuelle de ce dernier. Plus précisément, MEAP masque d'abord de manière aléatoire une petite fraction des tokens d'entrée, puis effectue directement la prédiction du prochain token standard de manière autorégressive en utilisant un Transformer à décodeur uniquement. MEAP élimine le besoin d'une attention bidirectionnelle ou d'architectures encodeur-décodeur pour le MLM, sans entraîner de surcharge computationnelle supplémentaire lors de la pré-formation ou de l'inférence. Des expériences intensives démontrent que MEAP surpasse considérablement NTP sur la récupération d'informations clés et les tâches de raisonnement à long contexte, tout en performant aussi bien, voire mieux, sur les tâches de raisonnement de bon sens. Les avantages de MEAP s'étendent également au fine-tuning supervisé, où il présente des avantages remarquables dans les scénarios de perte au milieu, surpassant NTP de 11,77 points de pourcentage. Notre analyse indique que l'efficacité de MEAP provient de sa capacité à promouvoir des scores d'attention plus discernables en se concentrant sur un ensemble réduit de tokens non masqués. Ce mécanisme améliore la focalisation du modèle sur les signaux pertinents pour la tâche tout en atténuant l'influence du contexte périphérique. Ces résultats placent MEAP comme un paradigme d'entraînement prometteur pour les grands modèles de langage.
La Conception Assistée par Ordinateur (CAO) est indispensable dans diverses industries. L'édition de CAO basée sur du texte, qui automatise la modification de modèles CAO en fonction d'instructions textuelles, présente un grand potentiel mais reste peu explorée. Les méthodes existantes se concentrent principalement sur la génération de variations de conception ou la génération de CAO basée sur du texte, en manquant de support pour le contrôle basé sur du texte ou en négligeant les modèles CAO existants en tant que contraintes. Nous présentons CAD-Editor, le premier cadre pour l'édition de CAO basée sur du texte. Pour relever le défi de la demande de données triplettes avec une correspondance précise pour l'entraînement, nous proposons un pipeline d'automatisation de synthèse de données. Ce pipeline utilise des modèles de variation de conception pour générer des paires de modèles CAO originaux et édités et utilise de grands modèles Vision-Language (LVLMs) pour résumer leurs différences en instructions d'édition. Pour aborder la nature composite de l'édition de CAO basée sur du texte, nous proposons un cadre de localisation puis de remplissage qui décompose la tâche en deux sous-tâches ciblées : localiser les régions nécessitant une modification et remplir ces régions avec des éditions appropriées. Les grands modèles de langage (LLMs) servent de base pour les deux sous-tâches, exploitant leurs capacités en compréhension du langage naturel et en connaissance de la CAO. Les expériences montrent que CAD-Editor atteint des performances supérieures à la fois quantitativement et qualitativement.
Nous présentons Goedel-Prover, un modèle de langage large (LLM) open-source qui atteint des performances de pointe (SOTA) en génération automatique de preuves formelles pour des problèmes mathématiques. Le défi clé dans ce domaine est la rareté des énoncés mathématiques formalisés et des preuves, que nous abordons de la manière suivante. Nous formons des formaliseurs d'énoncés pour traduire les problèmes mathématiques en langage naturel de Numina en langage formel (Lean 4), créant ainsi un ensemble de données de 1,64 million d'énoncés formels. Les LLM sont utilisés pour vérifier que les énoncés formels préservent fidèlement le contenu des problèmes mathématiques en langage naturel d'origine. Ensuite, nous construisons de manière itérative un grand ensemble de données de preuves formelles en formant une série de prouveurs. Chaque prouveur réussit à prouver de nombreux énoncés que les précédents n'ont pas pu, et ces nouvelles preuves sont ajoutées à l'ensemble d'entraînement pour le prouveur suivant. Le prouveur final surpasse tous les modèles open-source existants dans la génération de preuves complètes. Sur le benchmark miniF2F, il atteint un taux de réussite de 57,6% (Pass@32), dépassant le précédent meilleur modèle open-source de 7,6%. Sur PutnamBench, Goedel-Prover résout avec succès 7 problèmes (Pass@512), se classant premier au classement. De plus, il génère 29,7K preuves formelles pour les problèmes du Lean Workbook, soit près du double des 15,7K produites par les travaux antérieurs.
Pour comprendre véritablement les modèles de vision, il est essentiel non seulement d'interpréter leurs caractéristiques apprises, mais aussi de valider ces interprétations par le biais d'expériences contrôlées. Les approches actuelles fournissent soit des caractéristiques interprétables sans la capacité de tester leur influence causale, soit permettent la modification du modèle sans contrôles interprétables. Nous présentons un cadre unifié utilisant des autoencodeurs parcimonieux (SAEs) qui comble cette lacune, nous permettant de découvrir des caractéristiques visuelles interprétables par les humains et de les manipuler précisément pour tester des hypothèses sur le comportement du modèle. En appliquant notre méthode à des modèles de vision de pointe, nous révélons des différences clés dans les abstractions sémantiques apprises par des modèles ayant des objectifs de pré-entraînement différents. Nous démontrons ensuite l'utilisation pratique de notre cadre à travers des interventions contrôlées sur plusieurs tâches de vision. Nous montrons que les SAEs peuvent identifier et manipuler de manière fiable des caractéristiques visuelles interprétables sans ré-entraînement du modèle, offrant un outil puissant pour comprendre et contrôler le comportement des modèles de vision. Nous fournissons le code, des démonstrations et des modèles sur notre site web de projet : https://osu-nlp-group.github.io/SAE-V.
La mise en cache des invites dans les grands modèles de langage (LLM) entraîne des variations de timing dépendantes des données : les invites mises en cache sont traitées plus rapidement que les invites non mises en cache. Ces différences de timing introduisent le risque d'attaques par canaux auxiliaires basés sur le timing. Par exemple, si le cache est partagé entre les utilisateurs, un attaquant pourrait identifier les invites mises en cache à partir des temps de réponse API rapides pour apprendre des informations sur les invites d'autres utilisateurs. Étant donné que la mise en cache des invites peut provoquer des fuites de confidentialité, la transparence autour des politiques de mise en cache des fournisseurs d'API est importante. À cette fin, nous développons et menons des audits statistiques pour détecter la mise en cache des invites chez les fournisseurs d'API de LLM du monde réel. Nous détectons le partage global du cache entre les utilisateurs dans sept fournisseurs d'API, y compris OpenAI, entraînant une fuite potentielle de la confidentialité concernant les invites des utilisateurs. Les variations de timing dues à la mise en cache des invites peuvent également entraîner une fuite d'informations sur l'architecture du modèle. En particulier, nous trouvons des preuves que le modèle d'incorporation d'OpenAI est un Transformer à décodeur uniquement, ce qui n'était pas connu publiquement auparavant.
Les humains excellent dans la réutilisation des connaissances antérieures pour relever de nouveaux défis et développer des compétences tout en résolvant des problèmes. Ce paradigme devient de plus en plus populaire dans le développement d'agents autonomes, car il permet de créer des systèmes capables d'évoluer en réponse à de nouveaux défis, à l'instar des êtres humains. Cependant, les méthodes précédentes souffrent d'une efficacité d'entraînement limitée lors de l'acquisition de nouvelles compétences et ne parviennent pas à exploiter pleinement les connaissances antérieures pour faciliter l'apprentissage de nouvelles tâches. Dans cet article, nous proposons Parametric Skill Expansion and Composition (PSEC), un nouveau cadre conçu pour faire évoluer de manière itérative les capacités des agents et relever efficacement de nouveaux défis en maintenant une bibliothèque de compétences gérable. Cette bibliothèque peut intégrer progressivement des primitives de compétences en tant que modules d'adaptation Low-Rank Adaptation (LoRA) plug-and-play dans un réglage fin efficace en termes de paramètres, facilitant ainsi une expansion efficace et flexible des compétences. Cette structure permet également les compositions directes de compétences dans l'espace des paramètres en fusionnant des modules LoRA qui codent différentes compétences, exploitant les informations partagées entre les compétences pour programmer efficacement de nouvelles compétences. Sur cette base, nous proposons un module conscient du contexte pour activer dynamiquement différentes compétences afin de gérer de manière collaborative de nouvelles tâches. En permettant diverses applications, notamment la composition multi-objectif, le changement de dynamique et le changement de politique continu, les résultats sur les benchmarks D4RL, DSRL et la DeepMind Control Suite montrent que PSEC présente une capacité supérieure à exploiter les connaissances antérieures pour relever efficacement de nouveaux défis, ainsi qu'à étendre ses bibliothèques de compétences pour faire évoluer les capacités. Site web du projet : https://ltlhuuu.github.io/PSEC/.
Les grands modèles de langage ont révolutionné le traitement automatique du langage naturel grâce à un pré-entraînement auto-supervisé sur des ensembles de données massifs. Inspirés par ce succès, les chercheurs ont exploré l'adaptation de ces méthodes à la parole en discrétisant l'audio continu en jetons à l'aide de codecs audio neuronaux. Cependant, les approches existantes présentent des limitations, notamment des débits binaires élevés, la perte d'informations sémantiques ou acoustiques, et la dépendance à des conceptions multi-codebook lors de la tentative de capture des deux, ce qui accroît la complexité architecturale pour les tâches en aval. Pour relever ces défis, nous présentons FocalCodec, un codec à faible débit efficace basé sur la modulation focale qui utilise un seul codebook binaire pour compresser la parole entre 0,16 et 0,65 kbps. FocalCodec offre des performances compétitives en resynthèse de la parole et en conversion vocale à des débits binaires inférieurs à l'état de l'art actuel, tout en gérant efficacement la parole multilingue et les environnements bruyants. L'évaluation sur des tâches en aval montre que FocalCodec préserve avec succès des informations sémantiques et acoustiques suffisantes, tout en étant également bien adapté à la modélisation générative. Des échantillons de démonstration, du code et des points de contrôle sont disponibles sur https://lucadellalib.github.io/focalcodec-web/.
Les grands modèles de langage et de vision-langage (LLMs/VLMs) sont de plus en plus utilisés dans des applications critiques en termes de sécurité, mais leur processus de prise de décision opaque complique l'évaluation des risques et la fiabilité. La quantification de l'incertitude (UQ) aide à évaluer la confiance des prédictions et permet de s'abstenir lorsque l'incertitude est élevée. La prédiction conforme (CP), une méthode UQ de premier plan, fournit des garanties statistiques mais repose sur des seuils statiques, qui ne s'adaptent pas à la complexité de la tâche et aux distributions de données évolutives, entraînant des compromis sous-optimaux en termes d'exactitude, de couverture et d'informativité. Pour remédier à cela, nous proposons l'abstention conforme apprenable, en intégrant l'apprentissage par renforcement (RL) avec CP pour optimiser dynamiquement les seuils d'abstention. En traitant les seuils CP comme des actions adaptatives, notre approche équilibre plusieurs objectifs, minimisant la taille de l'ensemble de prédictions tout en maintenant une couverture fiable. Des évaluations approfondies sur divers bancs d'essai LLM/VLM montrent que notre méthode surpasse les Classifieurs Moins Ambigus (LAC) et les Ensembles de Prédictions Adaptatifs (APS), améliorant l'exactitude jusqu'à 3,2 %, augmentant l'AUROC pour la détection d'hallucinations de 22,19 %, améliorant la génération sélective guidée par l'incertitude (AUARC) de 21,17 %, et réduisant l'erreur de calibration de 70 % à 85 %. Ces améliorations sont constantes sur plusieurs modèles et ensembles de données tout en respectant systématiquement l'objectif de couverture de 90 %, établissant notre approche comme une solution plus efficace et flexible pour une prise de décision fiable dans des applications critiques en termes de sécurité. Le code est disponible sur : {https://github.com/sinatayebati/vlm-uncertainty}.