papers.description
La mise à l'échelle continue des grands modèles de langage (LLM) entraîne-t-elle des rendements décroissants ? La valeur réelle découle souvent de la longueur de la tâche qu'un agent peut accomplir. Nous commençons ce travail en observant le fait simple mais contre-intuitif que les gains marginaux en précision à une seule étape peuvent se traduire par des améliorations exponentielles dans la longueur de la tâche qu'un modèle peut accomplir avec succès. Ensuite, nous soutenons que les échecs des LLM lorsque des tâches simples sont prolongées proviennent d'erreurs d'exécution, plutôt que d'une incapacité à raisonner. Nous proposons d'isoler la capacité d'exécution, en fournissant explicitement les connaissances et le plan nécessaires pour résoudre une tâche à long terme. Nous constatons que les modèles plus grands peuvent exécuter correctement un nombre significativement plus élevé d'étapes, même lorsque les petits modèles ont une précision de 100 % à une seule étape. Nous observons que la précision par étape des modèles se dégrade à mesure que le nombre d'étapes augmente. Cela n'est pas seulement dû aux limitations de contexte long — curieusement, nous observons un effet d'auto-conditionnement — les modèles deviennent plus susceptibles de commettre des erreurs lorsque le contexte contient leurs erreurs des étapes précédentes. L'auto-conditionnement ne diminue pas simplement en augmentant la taille du modèle. En revanche, les modèles de pensée récents ne s'auto-conditionnent pas et peuvent également exécuter des tâches beaucoup plus longues en une seule étape. Nous concluons en évaluant les modèles de pensée de pointe sur la longueur de la tâche qu'ils peuvent exécuter en une seule étape. Globalement, en nous concentrant sur la capacité d'exécution, nous espérons réconcilier les débats sur la manière dont les LLM peuvent résoudre des problèmes de raisonnement complexes tout en échouant à des tâches simples lorsqu'elles sont prolongées, et mettre en évidence les avantages massifs de la mise à l'échelle de la taille des modèles et du calcul séquentiel au moment du test pour les tâches à long terme.
La génération d'images à résolution arbitraire offre une expérience visuelle cohérente sur tous les appareils, avec des applications étendues pour les producteurs et les consommateurs. Les modèles de diffusion actuels augmentent la demande de calcul de manière quadratique avec la résolution, entraînant des délais de génération d'images 4K dépassant 100 secondes. Pour résoudre ce problème, nous explorons la deuxième génération basée sur les modèles de diffusion latente, où le latent fixe généré par les modèles de diffusion est considéré comme la représentation du contenu, et nous proposons de décoder des images à résolution arbitraire à partir d'un latent compact en utilisant un générateur en une seule étape. Ainsi, nous présentons InfGen, qui remplace le décodeur VAE par ce nouveau générateur, permettant de générer des images à n'importe quelle résolution à partir d'un latent de taille fixe sans avoir à réentraîner les modèles de diffusion. Cela simplifie le processus, réduit la complexité computationnelle et peut être appliqué à tout modèle utilisant le même espace latent. Les expériences montrent qu'InfGen est capable de faire évoluer de nombreux modèles vers l'ère de la haute résolution arbitraire tout en réduisant le temps de génération d'images 4K à moins de 10 secondes.
L'adoption rapide des agents autonomes d'IA donne naissance à une nouvelle couche économique où les agents interagissent et se coordonnent à des échelles et des vitesses dépassant le contrôle humain direct. Nous proposons le concept d'"économie en bac à sable" comme cadre d'analyse de ce système émergent, en le caractérisant selon deux dimensions clés : ses origines (émergentes vs intentionnelles) et son degré de séparation par rapport à l'économie humaine établie (perméable vs imperméable). Notre trajectoire actuelle pointe vers l'émergence spontanée d'une vaste économie d'agents d'IA hautement perméable, nous offrant des opportunités de coordination sans précédent ainsi que des défis significatifs, incluant des risques économiques systémiques et une exacerbation des inégalités. Nous explorons ici plusieurs choix de conception possibles pour orienter de manière sûre les marchés d'agents d'IA. En particulier, nous examinons les mécanismes d'enchères pour une allocation équitable des ressources et la résolution des préférences, la conception d'"économies de mission" d'IA pour coordonner la réalisation d'objectifs collectifs, ainsi que l'infrastructure socio-technique nécessaire pour garantir la confiance, la sécurité et la responsabilité. Ce faisant, nous plaidons pour une conception proactive de marchés d'agents orientables afin que ce changement technologique à venir s'aligne sur l'épanouissement collectif à long terme de l'humanité.
La génération de formes 3D au niveau des parties est essentielle pour des applications en aval telles que la retopologie de maillages, le mappage UV et l'impression 3D. Cependant, les méthodes existantes de génération basée sur les parties manquent souvent de contrôlabilité suffisante et souffrent d'une décomposition sémantiquement peu significative. Pour répondre à ce problème, nous introduisons X-Part, un modèle génératif contrôlable conçu pour décomposer un objet 3D global en parties sémantiquement significatives et structurellement cohérentes, avec une haute fidélité géométrique. X-Part exploite la boîte englobante comme prompt pour la génération des parties et injecte des caractéristiques sémantiques point par point pour une décomposition significative. De plus, nous concevons un pipeline modifiable pour une génération interactive des parties. Les résultats expérimentaux approfondis montrent que X-Part atteint des performances de pointe dans la génération de formes au niveau des parties. Ce travail établit un nouveau paradigme pour la création d'actifs 3D prêts pour la production, modifiables et structurellement solides. Les codes seront publiés pour la recherche publique.
L'engagement et la motivation sont essentiels pour l'acquisition d'une langue seconde, mais maintenir l'intérêt des apprenants dans les conversations éducatives reste un défi. Bien que des recherches antérieures aient exploré ce qui rend les textes éducatifs intéressants, on en sait encore peu sur les caractéristiques linguistiques qui stimulent l'engagement dans les conversations. Pour combler cette lacune, nous présentons IntrEx, le premier grand ensemble de données annoté pour l'intérêt et l'intérêt attendu dans les interactions enseignant-élève. Basé sur le corpus de conversations enseignant-élève (TSCC), IntrEx étend les travaux précédents en incorporant des annotations au niveau des séquences, permettant d'étudier l'engagement au-delà des tours de parole isolés pour capturer comment l'intérêt évolue au fil des dialogues prolongés. Nous employons un processus d'annotation rigoureux avec plus de 100 apprenants de langue seconde, utilisant une approche d'évaluation comparative inspirée de l'apprentissage par renforcement à partir de retours humains (RLHF) pour améliorer l'accord. Nous investiguons si les grands modèles de langage (LLMs) peuvent prédire les jugements humains d'intérêt. Nous constatons que les LLMs (7B/8B paramètres) affinés sur les évaluations d'intérêt surpassent les modèles propriétaires plus grands comme GPT-4o, démontrant le potentiel des ensembles de données spécialisés pour modéliser l'engagement dans les contextes éducatifs. Enfin, nous analysons comment les facteurs linguistiques et cognitifs, tels que la concrétude, la compréhensibilité (lisibilité) et la reprise, influencent l'engagement dans les dialogues éducatifs.
L'approche de Génération Augmentée par Récupération (RAG) améliore les systèmes de réponse aux questions et les tâches de génération de dialogue en intégrant des technologies de récupération d'information (IR) avec des modèles de langage de grande taille (LLMs). Cette stratégie, qui récupère des informations à partir de bases de connaissances externes pour renforcer les capacités de réponse des modèles génératifs, a obtenu certains succès. Cependant, les méthodes RAG actuelles rencontrent encore de nombreux défis lorsqu'elles traitent des requêtes multi-sauts. Par exemple, certaines approches reposent trop sur une récupération itérative, gaspillant trop d'étapes de récupération pour des requêtes complexes. De plus, l'utilisation de la requête complexe originale pour la récupération peut échouer à capturer le contenu pertinent à des sous-requêtes spécifiques, entraînant un contenu récupéré bruyant. Si ce bruit n'est pas géré, il peut conduire au problème d'accumulation de bruit. Pour résoudre ces problèmes, nous introduisons HANRAG, un nouveau cadre heuristique conçu pour traiter efficacement des problèmes de complexité variable. Guidé par un puissant révélateur, HANRAG achemine les requêtes, les décompose en sous-requêtes et filtre le bruit des documents récupérés. Cela améliore l'adaptabilité du système et sa résistance au bruit, le rendant très capable de gérer des requêtes diverses. Nous comparons le cadre proposé à d'autres méthodes de pointe de l'industrie sur divers benchmarks. Les résultats démontrent que notre cadre obtient des performances supérieures dans les tâches de réponse aux questions à un saut et à plusieurs sauts.
Alors que les modèles vision-langage (VLMs) gagnent en sophistication, leur capacité à effectuer des raisonnements fait l'objet d'une supervision accrue. Bien qu'ils excellent dans de nombreuses tâches, leur compréhension des principes scientifiques fondamentaux, tels que la physique, reste une frontière peu explorée. Pour refléter les avancées dans ces capacités, nous introduisons un cadre novateur et accessible conçu pour évaluer rigoureusement les VLMs sur leur compréhension de la physique en 2D. Notre cadre comprend un générateur de scénarios pragmatiques qui crée un ensemble diversifié de plus de 400 problèmes répartis dans quatre domaines clés : le mouvement des projectiles, la dynamique des collisions, la mécanique et la dynamique des fluides. À travers une évaluation approfondie de quatre VLMs de pointe, nous démontrons une forte corrélation entre la taille du modèle et sa capacité de raisonnement, avec notre meilleur modèle, Qwen2.5-VL-7B, atteignant un score global de 0,815. Nous constatons que si les modèles excellent dans les problèmes formulaires, ils rencontrent des difficultés significatives dans les domaines nécessitant un raisonnement spatial abstrait. En concevant ce cadre, nous visons à démocratiser l'étude du raisonnement scientifique dans les VLMs et à favoriser une compréhension plus approfondie de leurs capacités et de leurs limites.
Les grands modèles de langage à diffusion masquée (dLLMs) émergent comme des alternatives prometteuses aux LLMs autorégressifs, offrant des performances compétitives tout en supportant des capacités de génération uniques telles que l'inpainting. Nous explorons comment l'inpainting peut éclairer la conception d'algorithmes de RL pour les dLLMs. L'alignement des LLMs avec l'apprentissage par renforcement se heurte à un défi d'exploration : des signaux de récompense clairsemés et un gaspillage d'échantillons lorsque les modèles ne parviennent pas à découvrir des solutions correctes. Bien que cette inefficacité affecte les LLMs de manière générale, les dLLMs offrent une opportunité distinctive—leur capacité d'inpainting peut guider l'exploration. Nous introduisons IGPO (Inpainting Guided Policy Optimization), un cadre de RL qui insère stratégiquement des traces de raisonnement partiellement véridiques pendant l'échantillonnage en ligne. Contrairement à fournir des solutions complètes, l'inpainting oriente l'exploration vers des espaces de trajectoires prometteurs tout en préservant le raisonnement auto-généré, faisant le pont entre le fine-tuning supervisé et l'apprentissage par renforcement. Nous appliquons IGPO à des méthodes d'optimisation basées sur des groupes comme GRPO, où les échecs d'exploration entraînent des avantages et des gradients nuls. IGPO restaure des gradients significatifs tout en améliorant l'efficacité des échantillons. Nous proposons également un fine-tuning supervisé sur des traces concises réécrites synthétiquement qui s'alignent mieux avec les modèles de génération des dLLMs. Avec des techniques supplémentaires incluant le filtrage basé sur l'entropie, notre recette d'entraînement apporte des gains substantiels sur trois benchmarks mathématiques—GSM8K, Math500 et AMC—établissant de nouveaux résultats de pointe pour les dLLMs masqués à attention complète.
Le Protocole de Contexte Modèle (MCP) émerge rapidement comme une norme ouverte essentielle, conçue pour améliorer l'intégration et l'interopérabilité entre agents et outils, et se positionne pour inaugurer une nouvelle ère d'IA agentique puissante, interconnectée et véritablement utilitaire. Cependant, malgré l'adoption croissante du MCP, les benchmarks existants échouent souvent à capturer les performances réelles des agents dans ce nouveau paradigme, conduisant à une perception déformée de leur véritable valeur opérationnelle et à une incapacité à différencier de manière fiable leurs compétences. Pour combler cette lacune critique en matière d'évaluation, nous introduisons MCP-AgentBench — un benchmark complet spécifiquement conçu pour évaluer rigoureusement les capacités des agents linguistiques dans les interactions d'outils médiées par le MCP. Les contributions principales de MCP-AgentBench incluent : la mise en place d'un banc d'essai MCP robuste comprenant 33 serveurs opérationnels avec 188 outils distincts ; le développement d'un benchmark comportant 600 requêtes systématiquement conçues réparties dans 6 catégories distinctes de complexité d'interaction variable ; et l'introduction de MCP-Eval, une nouvelle méthodologie d'évaluation axée sur les résultats, privilégiant la réussite des tâches dans le monde réel. Grâce à une évaluation empirique approfondie des principaux agents linguistiques, nous fournissons des insights fondamentaux. MCP-AgentBench vise à doter la communauté de recherche d'un cadre standardisé et fiable pour construire, valider et faire progresser des agents capables de tirer pleinement parti des avantages transformateurs du MCP, accélérant ainsi les progrès vers des systèmes d'IA véritablement compétents et interopérables.
Les récentes avancées dans les modèles de langage à grande échelle (LLMs) ont démontré des capacités impressionnantes en matière de raisonnement financier et de compréhension des marchés. Les frameworks multi-agents basés sur des LLMs, tels que TradingAgent et FINMEM, améliorent ces modèles pour des tâches d'investissement à long terme, en exploitant des données fondamentales et basées sur le sentiment pour la prise de décision stratégique. Cependant, ces systèmes sont mal adaptés aux exigences de haute vitesse et de précision critique du trading à haute fréquence (HFT). Le HFT nécessite des décisions rapides et conscientes du risque, basées sur des signaux structurés et à court terme, incluant des indicateurs techniques, des motifs graphiques et des caractéristiques basées sur les tendances, distincts du raisonnement sémantique à long terme typique des applications traditionnelles des LLMs en finance. À cette fin, nous introduisons QuantAgent, le premier framework multi-agent basé sur des LLMs explicitement conçu pour le trading algorithmique à haute fréquence. Le système décompose le trading en quatre agents spécialisés : Indicateur, Motif, Tendance et Risque, chacun équipé d'outils spécifiques au domaine et de capacités de raisonnement structuré pour capturer différents aspects de la dynamique des marchés sur de courtes fenêtres temporelles. Dans des évaluations en zero-shot sur dix instruments financiers, incluant le Bitcoin et les contrats à terme du Nasdaq, QuantAgent démontre une performance supérieure en termes de précision prédictive et de rendement cumulé sur des intervalles de trading de 4 heures, surpassant des bases de référence neuronales et basées sur des règles. Nos résultats suggèrent que la combinaison de connaissances financières structurées avec un raisonnement natif du langage ouvre de nouvelles perspectives pour des systèmes de décision traçables et en temps réel dans les marchés financiers à haute fréquence.
Le développement de politiques efficaces Vision-Langage-Action (VLA) est crucial pour le déploiement pratique de la robotique, mais les approches actuelles se heurtent à des coûts de calcul et des exigences en ressources prohibitifs. Les politiques VLA basées sur la diffusion existantes nécessitent des modèles de plusieurs milliards de paramètres et des ensembles de données massifs pour atteindre des performances solides. Nous relevons ce défi d'efficacité avec deux contributions : la fusion de modalités intermédiaires, qui réalloue la capacité à la tête de diffusion en élaguant jusqu'à 50 % des couches du modèle de langage (LLM), et le conditionnement Global-AdaLN spécifique à l'action, qui réduit les paramètres de 20 % grâce à une adaptation modulaire. Nous intégrons ces avancées dans un nouveau VLA de 950 millions de paramètres appelé FLOWER. Pré-entraîné en seulement 200 heures sur des GPU H100, FLOWER offre des performances compétitives par rapport aux VLA plus volumineux sur 190 tâches couvrant dix benchmarks de simulation et de monde réel, et démontre une robustesse face à diverses incarnations robotiques. De plus, FLOWER établit un nouveau record de 4,53 sur le benchmark CALVIN ABC. Les démonstrations, le code et les poids pré-entraînés sont disponibles à l'adresse https://intuitive-robots.github.io/flower_vla/.
L'apprentissage à longue traîne a suscité un intérêt croissant en raison de son applicabilité étendue dans des scénarios réels. Parmi les approches existantes, l'apprentissage semi-supervisé à longue traîne (LTSSL) s'est imposé comme une solution efficace en intégrant une grande quantité de données non étiquetées dans un ensemble de données étiquetées déséquilibré. Cependant, la plupart des méthodes LTSSL précédentes sont conçues pour entraîner des modèles à partir de zéro, ce qui entraîne souvent des problèmes tels qu'une confiance excessive et des pseudo-étiquettes de faible qualité. Pour relever ces défis, nous étendons le LTSSL au paradigme de réglage fin des modèles de base et proposons un nouveau cadre : LoFT (apprentissage semi-supervisé à longue traîne via un réglage fin paramétrique efficace). Nous démontrons que les modèles de base réglés finement peuvent générer des pseudo-étiquettes plus fiables, bénéficiant ainsi à l'apprentissage déséquilibré. De plus, nous explorons un cadre plus pratique en étudiant l'apprentissage semi-supervisé dans des conditions de monde ouvert, où les données non étiquetées peuvent inclure des échantillons hors distribution (OOD). Pour résoudre ce problème, nous proposons LoFT-OW (LoFT dans des scénarios de monde ouvert) afin d'améliorer la capacité discriminative. Les résultats expérimentaux sur plusieurs benchmarks montrent que notre méthode obtient des performances supérieures par rapport aux approches précédentes, même en utilisant seulement 1 % des données non étiquetées par rapport aux travaux antérieurs.
Nous présentons Probabilistic Structure Integration (PSI), un système pour apprendre des modèles du monde riches en contrôlabilité et flexibles à solliciter à partir de données. PSI repose sur un cycle en trois étapes. La première étape, la prédiction probabiliste, consiste à construire un modèle graphique probabiliste Psi des données, sous la forme d'un modèle séquentiel autorégressif à accès aléatoire. Psi intègre un ensemble complet de distributions conditionnelles apprises décrivant la dépendance de toute variable des données par rapport à tout autre ensemble de variables. Dans l'étape 2, l'extraction de structure, nous montrons comment extraire des propriétés sous-jacentes de faible dimension dans les données, correspondant à un ensemble diversifié de "structures intermédiaires" significatives, de manière zero-shot via l'inférence causale sur Psi. L'étape 3, l'intégration, complète le cycle en convertissant ces structures en nouveaux types de tokens qui sont ensuite continuellement réintégrés dans le régime d'entraînement comme signaux de conditionnement et cibles de prédiction. Chaque cycle de ce type augmente les capacités de Psi, lui permettant à la fois de mieux modéliser les données sous-jacentes et de créer de nouveaux leviers de contrôle - semblables à un langage universel de sollicitation de type LLM. Nous avons entraîné une instance de Psi sur 1,4 trillion de tokens de données vidéo issues d'internet ; nous l'utilisons pour effectuer diverses inférences utiles en prédiction et compréhension vidéo ; nous extrayons des estimations de flux optique, de profondeur auto-supervisée et de segmentation d'objets à l'état de l'art ; et nous utilisons ces structures pour soutenir un cycle complet d'améliorations prédictives.
L'alignement précis des couleurs dans la génération texte-image (T2I) est crucial pour des applications telles que la mode, la visualisation de produits et le design d'intérieur. Cependant, les modèles de diffusion actuels peinent à gérer les termes de couleur nuancés et composés (par exemple, bleu Tiffany, vert lime, rose vif), produisant souvent des images qui ne correspondent pas à l'intention humaine. Les approches existantes reposent sur la manipulation de l'attention croisée, des images de référence ou du réglage fin, mais elles échouent à résoudre systématiquement les descriptions de couleurs ambiguës. Pour restituer précisément les couleurs en cas d'ambiguïté dans les prompts, nous proposons un cadre sans apprentissage supplémentaire qui améliore la fidélité des couleurs en exploitant un modèle de langage de grande taille (LLM) pour désambiguïser les prompts liés aux couleurs et en guidant les opérations de mélange de couleurs directement dans l'espace d'incorporation de texte. Notre méthode utilise d'abord un LLM pour résoudre les termes de couleur ambigus dans le prompt texte, puis affine les incorporations de texte en fonction des relations spatiales des termes de couleur résultants dans l'espace colorimétrique CIELAB. Contrairement aux méthodes précédentes, notre approche améliore la précision des couleurs sans nécessiter d'apprentissage supplémentaire ni d'images de référence externes. Les résultats expérimentaux montrent que notre cadre améliore l'alignement des couleurs sans compromettre la qualité de l'image, comblant ainsi l'écart entre la sémantique du texte et la génération visuelle.
Les modèles de langage parlés (SLMs) sont apparus comme un paradigme unifié pour la compréhension et la génération de la parole, permettant une interaction naturelle entre l'homme et la machine. Cependant, bien que la plupart des progrès se soient concentrés sur la précision sémantique et le suivi des instructions, la capacité des SLMs à adapter leur style d'élocution en fonction d'instructions parlées a reçu peu d'attention. Nous introduisons l'Adaptation de Style Vocal (VSA), une nouvelle tâche qui examine si les SLMs peuvent modifier leur style d'élocution, tel que le timbre, la prosodie ou la persona, en suivant des commandes parlées en langage naturel. Pour étudier cette tâche, nous présentons VStyle, un benchmark bilingue (chinois et anglais) couvrant quatre catégories de génération de parole : les attributs acoustiques, les instructions en langage naturel, le jeu de rôle et l'empathie implicite. Nous introduisons également le cadre Large Audio Language Model as a Judge (LALM as a Judge), qui évalue progressivement les sorties en termes de fidélité textuelle, d'adhésion au style et de naturel, garantissant une évaluation reproductible et objective. Les expériences sur les systèmes commerciaux et les SLMs open source démontrent que les modèles actuels présentent des limites claires dans l'adaptation contrôlée du style, soulignant à la fois la nouveauté et le défi de cette tâche. En publiant VStyle et sa boîte à outils d'évaluation, nous visons à fournir à la communauté une base pour faire progresser l'interaction parlée centrée sur l'homme. Le jeu de données et le code sont disponibles publiquement à l'adresse suivante : https://junzhan2000.github.io/VStyle.github.io/{page d'accueil du projet}.
Les modèles de langage de grande envergure (LLMs) ont obtenu des succès remarquables dans divers domaines. Cependant, une question fondamentale demeure : les LLMs peuvent-ils exploiter efficacement les connaissances causales pour la prédiction et la génération ? À travers des études empiriques, nous constatons que les LLMs entraînés directement sur des données à grande échelle capturent souvent des corrélations fallacieuses plutôt que de véritables relations causales, ce qui entraîne des performances sous-optimales, en particulier dans des scénarios hors distribution (OOD). Pour relever ce défi, nous proposons le Causal Attention Tuning (CAT), une approche novatrice qui intègre des connaissances causales fines dans le mécanisme d'attention. Nous proposons un pipeline automatisé qui exploite les connaissances a priori humaines pour générer automatiquement des signaux causaux au niveau des tokens et introduisons le mécanisme de Re-Attention pour guider l'entraînement, aidant ainsi le modèle à se concentrer sur les structures causales tout en atténuant le bruit et les biais dans les scores d'attention. Les résultats expérimentaux sur notre benchmark Spurious Token Game (STG) et sur plusieurs tâches en aval démontrent que notre approche exploite efficacement les connaissances causales pour la prédiction et reste robuste dans les scénarios OOD. Les détails d'implémentation sont disponibles à l'adresse suivante : https://github.com/Kairong-Han/CAT.
L'intégration de contexte externe peut considérablement améliorer la qualité des réponses des modèles de langage à grande échelle (LLMs). Cependant, les contextes réels mélangent souvent des informations pertinentes avec un contenu inapproprié disproportionné, posant des risques de fiabilité. Comment les LLMs traitent-ils et hiérarchisent-ils un contexte mixte ? Pour étudier cela, nous introduisons le banc d'essai Poisoned Context, associant des requêtes à des contextes réels contenant à la fois des informations pertinentes et du contenu inapproprié. Inspirés par l'apprentissage associatif chez les animaux, nous adaptons le modèle Rescorla-Wagner (RW) issu des neurosciences pour quantifier comment les signaux contextuels concurrents influencent les sorties des LLMs. Notre modèle adapté révèle un schéma comportemental cohérent : les LLMs montrent une forte tendance à intégrer les informations moins prévalentes dans le contexte. Cette susceptibilité est néfaste dans des environnements réels, où de petites quantités de contenu inapproprié peuvent considérablement dégrader la qualité des réponses. Les évaluations empiriques sur notre banc d'essai confirment davantage cette vulnérabilité. Pour y remédier, nous introduisons RW-Steering, une approche en deux étapes basée sur le fine-tuning, permettant au modèle d'identifier et d'ignorer en interne les signaux inappropriés. Contrairement aux méthodes antérieures qui reposent sur une supervision extensive à travers divers mélanges de contextes, RW-Steering généralise de manière robuste face à des proportions variables de contenu inapproprié. Les expériences montrent que notre meilleur modèle fine-tuné améliore la qualité des réponses de 39,8 % et inverse la courbe de comportement indésirable, établissant RW-Steering comme une solution robuste et généralisable d'ingénierie contextuelle pour améliorer la sécurité des LLMs dans des utilisations réelles.
Le raisonnement visuel sur des données structurées telles que les tableaux est une capacité essentielle pour les modèles vision-langage modernes (VLMs). Cependant, les benchmarks actuels restent limités en termes d'échelle, de diversité ou de profondeur de raisonnement, en particulier lorsqu'il s'agit d'images de tableaux rendus. Pour combler cette lacune, nous introduisons Visual-TableQA, un ensemble de données multimodal à grande échelle et ouvert, spécialement conçu pour évaluer et améliorer le raisonnement visuel sur des données tabulaires complexes. Notre pipeline de génération est modulaire, évolutif et entièrement autonome, impliquant plusieurs modèles de langage (LLMs) collaborant dans des rôles distincts : génération, validation et inspiration. Visual-TableQA comprend 2,5k tableaux richement structurés rendus en LaTeX et 6k paires de questions-réponses intensives en raisonnement, le tout produit à un coût inférieur à 100 USD. Pour promouvoir la diversité et la créativité, notre pipeline effectue une génération de données collaborative multi-modèles via un incitation croisée ('inspiration') et un filtrage par jury de LLMs. Les modèles plus performants suggèrent des mises en page et des sujets que les modèles moins performants élaborent, distillant collectivement des schémas de raisonnement diversifiés et des structures visuelles dans l'ensemble de données. Les résultats empiriques montrent que les modèles affinés sur Visual-TableQA généralisent robustement aux benchmarks externes, surpassant plusieurs modèles propriétaires malgré la nature synthétique de l'ensemble de données. Le pipeline complet et les ressources sont disponibles publiquement à l'adresse https://github.com/AI-4-Everyone/Visual-TableQA.
Cet article présente les approches de l'équipe DeMeVa pour la troisième édition de la tâche partagée Learning with Disagreements (LeWiDi 2025 ; Leonardelli et al., 2025). Nous explorons deux axes : l'apprentissage en contexte (ICL) avec des modèles de langage de grande taille, où nous comparons différentes stratégies d'échantillonnage d'exemples ; et les méthodes d'apprentissage de distribution de labels (LDL) avec RoBERTa (Liu et al., 2019b), où nous évaluons plusieurs techniques de fine-tuning. Nos contributions sont doubles : (1) nous montrons que l'ICL peut prédire efficacement les annotations spécifiques aux annotateurs (annotations perspectivistes), et que l'agrégation de ces prédictions en labels flous offre des performances compétitives ; et (2) nous soutenons que les méthodes LDL sont prometteuses pour la prédiction de labels flous et méritent une exploration approfondie par la communauté perspectiviste.
Les grands modèles de langage (LLM) transforment rapidement la recherche en sciences sociales en automatisant des tâches laborieuses comme l'annotation de données et l'analyse de texte. Cependant, les sorties des LLM varient considérablement selon les choix d'implémentation des chercheurs (par exemple, la sélection du modèle, la stratégie de prompt ou les paramètres de température). Ces variations peuvent introduire des biais systématiques et des erreurs aléatoires, qui se propagent aux analyses ultérieures et entraînent des erreurs de type I, de type II, de type S ou de type M. Nous appelons cela le "LLM hacking". Nous quantifions le risque de LLM hacking en reproduisant 37 tâches d'annotation de données issues de 21 études de recherche en sciences sociales publiées, en utilisant 18 modèles différents. En analysant 13 millions d'étiquettes générées par des LLM, nous testons 2 361 hypothèses réalistes pour mesurer comment les choix plausibles des chercheurs affectent les conclusions statistiques. Nous constatons des conclusions incorrectes basées sur des données annotées par des LLM dans environ une hypothèse sur trois pour les modèles de pointe, et dans la moitié des hypothèses pour les petits modèles de langage. Bien que nos résultats montrent que de meilleures performances sur la tâche et des capacités générales plus élevées des modèles réduisent le risque de LLM hacking, même les modèles très précis ne l'éliminent pas complètement. Le risque de LLM hacking diminue à mesure que les tailles d'effet augmentent, ce qui souligne la nécessité d'une vérification plus rigoureuse des résultats proches des seuils de significativité. Notre analyse approfondie des techniques d'atténuation du LLM hacking met en évidence l'importance des annotations humaines pour réduire les faux positifs et améliorer la sélection des modèles. Étonnamment, les techniques courantes de correction des estimateurs de régression sont largement inefficaces pour réduire le risque de LLM hacking, car elles compromettent fortement les erreurs de type I et de type II. Au-delà des erreurs accidentelles, nous constatons que le LLM hacking intentionnel est inacceptablement simple. Avec quelques LLM et seulement une poignée de paraphrases de prompts, n'importe quoi peut être présenté comme statistiquement significatif.
Les langues minoritaires en Chine, telles que le tibétain, l'ouïghour et le mongol traditionnel, rencontrent des défis importants en raison de leurs systèmes d'écriture uniques, qui diffèrent des normes internationales. Cette divergence a entraîné un manque criant de corpus pertinents, en particulier pour les tâches supervisées comme la génération de titres. Pour combler cette lacune, nous présentons un nouveau jeu de données, Chinese Minority Headline Generation (CMHG), qui comprend 100 000 entrées pour le tibétain, et 50 000 entrées chacune pour l'ouïghour et le mongol, spécialement conçues pour les tâches de génération de titres. De plus, nous proposons un ensemble de test de haute qualité annoté par des locuteurs natifs, destiné à servir de référence pour les recherches futures dans ce domaine. Nous espérons que ce jeu de données deviendra une ressource précieuse pour faire progresser la génération de titres dans les langues minoritaires chinoises et contribuera au développement de benchmarks connexes.