Articles de recherche IA sélectionnés quotidiennement avec traductions
L'apprentissage par renforcement est devenu l'approche centrale permettant aux modèles de langage (ML) d'apprendre à partir de récompenses ou de retours d'information de l'environnement. En pratique, le retour environnemental est généralement rare et retardé. L'apprentissage à partir de tels signaux est difficile, car les ML doivent inférer implicitement comment les échecs observés doivent se traduire par des changements de comportement pour les itérations futures. Nous introduisons l'Apprentissage par Renforcement Expérientiel (ARE), un paradigme de formation qui intègre une boucle explicite expérience-réflexion-consolidation dans le processus d'apprentissage par renforcement. Face à une tâche, le modèle génère une tentative initiale, reçoit un retour environnemental, et produit une réflexion qui guide une seconde tentative raffinée, dont le succès est renforcé et internalisé dans la politique de base. Ce processus convertit le retour d'information en une révision comportementale structurée, améliorant l'exploration et stabilisant l'optimisation tout en préservant les gains lors du déploiement sans coût d'inférence supplémentaire. Sur des environnements de contrôle à récompense rare et des benchmarks de raisonnement agentique, l'ARE améliore constamment l'efficacité d'apprentissage et les performances finales par rapport à des bases solides d'apprentissage par renforcement, atteignant des gains allant jusqu'à +81% dans des environnements complexes multi-étapes et jusqu'à +11% dans des tâches de raisonnement utilisant des outils. Ces résultats suggèrent que l'intégration d'une autoréflexion explicite dans l'entraînement des politiques offre un mécanisme pratique pour transformer le retour d'information en une amélioration comportementale durable.
Les systèmes de recherche multimodaux existants excellent dans l'appariement sémantique, mais supposent implicitement que la pertinence requête-image peut être évaluée de manière isolée. Ce paradigme néglige les riches dépendances inhérentes aux flux visuels réalistes, où l'information est distribuée le long de séquences temporelles plutôt que confinée à des instantanés uniques. Pour combler cette lacune, nous présentons DeepImageSearch, un nouveau paradigme agentiel qui reformule la recherche d'images comme une tâche d'exploration autonome. Les modèles doivent planifier et effectuer un raisonnement multi-étapes sur des historiques visuels bruts pour localiser des cibles sur la base d'indices contextuels implicites. Nous construisons DISBench, un benchmark exigeant construit sur des données visuelles interconnectées. Pour relever le défi de l'évolutivité dans la création de requêtes dépendantes du contexte, nous proposons un pipeline collaboratif humain-modèle qui emploie des modèles vision-langage pour extraire des associations spatiotemporelles latentes, déléguant efficacement la découverte intensive de contexte avant une vérification humaine. Par ailleurs, nous développons une base robuste en utilisant un framework agent modulaire équipé d'outils à granularité fine et d'un système à mémoire double pour la navigation à long terme. Des expériences approfondies démontrent que DISBench présente des défis significatifs pour les modèles de pointe, soulignant la nécessité d'intégrer un raisonnement agentiel dans les systèmes de recherche de nouvelle génération.
Nous présentons Nanbeige4.1-3B, un modèle linguistique généraliste unifié qui réalise simultanément un comportement agentiel robuste, une génération de code et un raisonnement général avec seulement 3 milliards de paramètres. À notre connaissance, il s'agit du premier petit modèle linguistique (SLM) open-source à atteindre une telle polyvalence dans un modèle unique. Pour améliorer le raisonnement et l'alignement des préférences, nous combinons la modélisation de récompense ponctuelle et par paires, garantissant des réponses de haute qualité alignées sur les attentes humaines. Pour la génération de code, nous concevons des récompenses sensibles à la complexité dans l'apprentissage par renforcement, optimisant à la fois la justesse et l'efficacité. Pour la recherche approfondie, nous réalisons une synthèse de données complexe et intégrons une supervision tour par tour pendant l'entraînement. Cela permet des interactions stables à long horizon avec des outils, permettant à Nanbeige4.1-3B d'exécuter de manière fiable jusqu'à 600 tours d'appels d'outils pour la résolution de problèmes complexes. Des résultats expérimentaux approfondis montrent que Nanbeige4.1-3B surpasse significativement les modèles antérieurs de taille similaire, tels que Nanbeige4-3B-2511 et Qwen3-4B, atteignant même des performances supérieures à des modèles bien plus grands, comme Qwen3-30B-A3B. Nos résultats démontrent que les petits modèles peuvent simultanément atteindre une large compétence et une spécialisation robuste, redéfinissant le potentiel des modèles à 3 milliards de paramètres.
Les grands modèles de langage évoluent d’engines de connaissances généralistes vers des systèmes capables de résoudre des problèmes réels, mais leur optimisation pour des tâches de recherche approfondie reste difficile. Le principal goulot d’étranglement réside dans l’extrême rareté des trajectoires de recherche de haute qualité et des signaux de récompense, due à la difficulté de construire des tâches à long horizon de manière scalable et au coût élevé des rollouts intensifs en interactions incluant des appels à des outils externes. Pour relever ces défis, nous proposons REDSearcher, un cadre unifié qui conçoit conjointement la synthèse de tâches complexes, l’entraînement intermédiaire et post-entraînement pour optimiser de façon scalable les agents de recherche. Plus précisément, REDSearcher introduit les améliorations suivantes : (1) Nous modélisons la synthèse de tâches comme une optimisation à double contrainte, où la difficulté est précisément contrôlée par la topologie des graphes et la dispersion des preuves, permettant une génération scalable de tâches complexes et de haute qualité. (2) Nous introduisons des requêtes augmentées par outils pour encourager l’utilisation proactive d’outils plutôt que la récupération passive. (3) Pendant l’entraînement intermédiaire, nous renforçons les capacités atomiques fondamentales — connaissance, planification et appels de fonctions — réduisant substantiellement le coût de collecte de trajectoires de haute qualité pour l’entraînement aval. (4) Nous construisons un environnement simulé local permettant une itération algorithmique rapide et peu coûteuse pour les expériences d’apprentissage par renforcement. Sur des benchmarks d’agents de recherche textuels et multimodaux, notre approche atteint des performances à l’état de l’art. Pour favoriser les recherches futures sur les agents de recherche à long horizon, nous publierons 10 000 trajectoires de recherche textuelle complexes de haute qualité, 5 000 trajectoires multimodales et 1 000 requêtes textuelles pour l’apprentissage par renforcement, ainsi que le code et les points de contrôle des modèles.
Nous présentons BitDance, un générateur d'images autorégressif (AR) évolutif qui prédit des jetons visuels binaires au lieu d'indices de codebook. Grâce à des latents binaires à haute entropie, BitDance permet à chaque jeton de représenter jusqu'à 2^{256} états, produisant une représentation discrète compacte mais très expressive. L'échantillonnage dans un espace de jetons aussi vaste est difficile avec une classification standard. Pour résoudre ce problème, BitDance utilise une tête de diffusion binaire : au lieu de prédire un indice avec softmax, il emploie une diffusion dans l'espace continu pour générer les jetons binaires. De plus, nous proposons la diffusion par patch suivant, une nouvelle méthode de décodage qui prédit plusieurs jetons en parallèle avec une grande précision, accélérant considérablement l'inférence. Sur ImageNet 256x256, BitDance atteint un FID de 1,24, le meilleur résultat parmi les modèles AR. Avec la diffusion par patch suivant, BitDance surpasse les modèles AR parallèles de pointe utilisant 1,4 milliard de paramètres, tout en utilisant 5,4 fois moins de paramètres (260 millions) et en obtenant une accélération de 8,7 fois. Pour la génération texte-image, BitDance s'entraîne sur des jetons multimodaux à grande échelle et génère efficacement des images haute résolution et photoréalistes, montrant de solides performances et une bonne capacité d'évolution. Lors de la génération d'images 1024x1024, BitDance atteint une accélération de plus de 30 fois par rapport aux modèles AR précédents. Nous publions le code et les modèles pour faciliter la recherche future sur les modèles de fondation AR. Le code et les modèles sont disponibles à l'adresse : https://github.com/shallowdream204/BitDance.
L'apprentissage de représentation d'utilisateurs à l'échelle industrielle nécessite un équilibre entre une robuste universalité et une sensibilité aiguë aux tâches. Cependant, les paradigmes existants produisent principalement des embeddings statiques et agnostiques aux tâches, qui peinent à concilier les exigences divergentes des scénarios en aval au sein d'espaces vectoriels unifiés. De plus, les données hétérogènes multi-sources introduisent un bruit inhérent et des conflits de modalité, dégradant la représentation. Nous proposons Query-as-Anchor, un cadre qui fait évoluer la modélisation utilisateur d'un encodage statique vers une synthèse dynamique et sensible à la requête. Pour doter les Grands Modèles de Langage (LLMs) d'une compréhension approfondie des utilisateurs, nous construisons d'abord UserU, un jeu de données de pré-entraînement à l'échelle industrielle qui aligne des séquences comportementales multimodales avec une sémantique de compréhension utilisateur. Notre architecture Q-Anchor Embedding intègre des encodeurs hiérarchiques allant du grossier au fin dans des LLMs à double tour via une optimisation conjointe contrastive et autorégressive pour une représentation utilisateur sensible à la requête. Pour combler l'écart entre le pré-entraînement général et la logique métier spécialisée, nous introduisons en outre le Réglage par Invites Souples basé sur les Clusters pour imposer des structures latentes discriminantes, alignant efficacement l'attention du modèle avec les modalités spécifiques au scénario. Pour le déploiement, l'ancrage des requêtes aux extrémités des séquences permet une inférence accélérée par cache KV avec une latence incrémentielle négligeable. Les évaluations sur 10 benchmarks industriels d'Alipay montrent des performances SOTA constantes, une forte évolutivité et un déploiement efficace. Des tests A/B en ligne à grande échelle dans le système de production d'Alipay sur deux scénarios réels valident en outre son efficacité pratique. Notre code est préparé pour une diffusion publique et sera disponible à l'adresse : https://github.com/JhCircle/Q-Anchor.
Les méthodes de calcul au moment de l'inférence (ITC) comme Best-of-N et Tree-of-Thoughts visent à produire des candidats de sortie à la fois de haute qualité et diversifiés, mais leur utilisation de l'échantillonnage à haute température échoue souvent à atteindre une diversité de sortie significative. De plus, les méthodes ITC existantes offrent un contrôle limité sur la manière d'effectuer le raisonnement, ce qui limite à son tour leur explicabilité. Nous présentons STATe-of-Thoughts (STATe), une méthode ITC interprétable qui effectue une recherche sur des schémas de raisonnement de haut niveau. STATe remplace l'échantillonnage stochastique par des interventions textuelles discrètes et interprétables : un contrôleur sélectionne des actions encodant des choix de raisonnement de haut niveau, un générateur produit des étapes de raisonnement conditionnées par ces choix, et un évaluateur note les candidats pour guider la recherche. Cette approche structurée présente trois avantages principaux. Premièrement, les interventions textuelles guidées par les actions produisent une plus grande diversité de réponses que l'échantillonnage basé sur la température. Deuxièmement, dans une étude de cas sur la génération d'arguments, les séquences d'actions explicites de STATe capturent des caractéristiques interprétables très prédictives de la qualité de la sortie. Troisièmement, l'estimation de l'association entre la performance et les choix d'actions nous permet d'identifier des régions prometteuses mais inexplorées de l'espace d'actions et d'orienter directement la génération vers celles-ci. Ensemble, ces résultats établissent STATe comme un cadre pratique pour générer un texte de haute qualité, diversifié et interprétable. Notre cadre est disponible à l'adresse https://github.com/zbambergerNLP/state-of-thoughts.
L'évolution rapide des grands modèles de langage a catalysé une explosion de la production d'idées scientifiques, mais ce bond en avant ne s'est pas accompagné d'une avancée comparable dans l'évaluation de ces idées. La nature fondamentale de l'évaluation scientifique nécessite un ancrage dans la connaissance, une délibération collective et une prise de décision multicritère. Cependant, les méthodes d'évaluation existantes souffrent souvent d'horizons de connaissance restreints, de dimensions d'évaluation aplaties et des biais inhérents à l'utilisation d'un LLM comme juge. Pour y remédier, nous considérons l'évaluation des idées comme un problème de raisonnement ancré dans la connaissance et multi-perspectives, et nous introduisons InnoEval, un cadre d'évaluation profonde de l'innovation conçu pour reproduire l'évaluation des idées au niveau humain. Nous utilisons un moteur de recherche hétérogène de connaissance profonde qui récupère et ancre des preuves dynamiques provenant de diverses sources en ligne. Nous obtenons en outre un consensus d'examen grâce à un comité de revue de l'innovation composé de relecteurs aux profils académiques distincts, permettant une évaluation découplée et multidimensionnelle selon de multiples métriques. Nous construisons des jeux de données complets dérivés de soumissions autorisées ayant subi une relecture par les pairs pour évaluer les performances d'InnoEval. Les expériences démontrent qu'InnoEval surpasse constamment les méthodes de référence dans les tâches d'évaluation ponctuelle, par paires et par groupe, en présentant des schémas de jugement et un consensus fortement alignés avec ceux des experts humains.
La qualité des données détermine les performances des modèles de base, mais il manque des cadres de traitement systématiques. Nous introduisons Data Darwinism, une taxonomie à dix niveaux (L0-L9) qui conceptualise la coévolution données-modèles : les modèles avancés produisent des données supérieures pour les systèmes de nouvelle génération. Nous validons cela sur la littérature scientifique en construisant Darwin-Science, un corpus de 900 milliards de tokens (L0-L5). Nous identifions un écart d'apprenabilité dans le texte scientifique brut, que nous comblons via les niveaux L4 (Raffinement génératif) et L5 (Complétion cognitive) en utilisant des LLM de pointe pour expliciter le raisonnement et la terminologie. Pour garantir une attribution rigoureuse, nous avons pré-entraîné les modèles daVinci-origin-3B/7B à partir de zéro, en excluant le contenu scientifique pour créer des bases de référence non contaminées. Après 600 milliards de tokens de pré-entraînement continu, Darwin-Science surpasse les bases de référence de +2,12 (3B) et +2,95 (7B) points sur plus de 20 benchmarks, atteignant +5,60 et +8,40 points sur les tâches alignées au domaine. La progression systématique vers le niveau L5 produit un gain total de +1,36, confirmant que le traitement de niveau supérieur libère la valeur latente des données. Nous publions le corpus Darwin-Science et les modèles daVinci-origin pour permettre un développement coévolutif et fondé sur des principes.
Les modèles de langage multimodaux unifiés (MLLM) nécessitent une représentation visuelle qui supporte simultanément une reconstruction haute fidélité, une extraction sémantique complexe et une adéquation générative. Cependant, les tokenizers visuels existants peinent généralement à satisfaire ces objectifs conflictuels dans un cadre unique. Dans cet article, nous présentons UniWeTok, un tokenizer discret unifié conçu pour combler cet écart en utilisant un codebook binaire massif (2^{128}). Pour le cadre d'entraînement, nous introduisons la Pré-Post Distillation et une Priorité Sensible à la Génération pour améliorer l'extraction sémantique et l'a priori génératif des tokens discrets. Sur le plan de l'architecture du modèle, nous proposons une architecture hybride convolution-attention avec la fonction d'activation SigLu. L'activation SigLu borne non seulement la sortie de l'encodeur et stabilise le processus de distillation sémantique, mais résout aussi efficacement le conflit d'optimisation entre la perte d'entropie des tokens et la perte d'engagement. Nous proposons en outre un cadre d'entraînement en trois phases conçu pour améliorer l'adaptabilité d'UniWeTok à diverses résolutions d'image et à des scénarios sensibles à la perception, comme ceux impliquant des visages humains et du contenu textuel. Sur ImageNet, UniWeTok atteint des performances de pointe en génération d'images (FID : UniWeTok 1.38 vs. REPA 1.42) tout en nécessitant une quantité d'entraînement remarquablement faible (Tokens d'Entraînement : UniWeTok 33B vs. REPA 262B). Dans le domaine général, UniWeTok démontre des capacités très compétitives sur un large éventail de tâches, incluant la compréhension multimodale, la génération d'images (Score DPG : UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84) et l'édition (Score Global GEdit : UniWeTok 5.09 vs. OmniGen 5.06). Nous publions le code et les modèles pour faciliter l'exploration communautaire du tokenizer unifié et des MLLM.
Évaluer si les modèles de langage de grande taille multimodaux (MLLM) raisonnent véritablement sur la dynamique physique reste un défi. La plupart des benchmarks existants reposent sur des protocoles de type reconnaissance, tels que le Question-Réponse Visuel (VQA) et la Violation d'Attente (VoE), qui peuvent souvent être résolus sans s'engager dans une hypothèse physique explicite et testable. Nous proposons VisPhyWorld, un cadre d'évaluation basé sur l'exécution qui évalue le raisonnement physique en exigeant des modèles qu'ils génèrent du code exécutable pour un simulateur à partir d'observations visuelles. En produisant un code exécutable, la représentation du monde inférée est directement inspectable, modifiable et falsifiable. Cela permet de dissocier le raisonnement physique du rendu. En nous appuyant sur ce cadre, nous présentons VisPhyBench, comprenant 209 scènes d'évaluation dérivées de 108 modèles physiques et un protocole systématique qui évalue la capacité des modèles à reconstruire l'apparence et à reproduire un mouvement physiquement plausible. Notre pipeline produit des vidéos de reconstruction valides dans 97,7 % des cas sur le benchmark. Les expériences montrent que si les MLLM de pointe atteignent une compréhension sémantique solide des scènes, ils peinent à inférer avec précision les paramètres physiques et à simuler une dynamique physique cohérente.
Ce document présente une base de données quantique (Qute) qui considère le calcul quantique comme une option d'exécution de premier ordre. Contrairement aux méthodes antérieures basées sur la simulation qui exécutent des algorithmes quantiques sur des machines classiques ou adaptent des bases de données existantes pour la simulation quantique, Qute (i) compile une forme étendue de SQL en circuits quantiques optimisés en nombre de portes, (ii) utilise un optimiseur hybride pour sélectionner dynamiquement entre des plans d'exécution quantiques et classiques, (iii) introduit une indexation quantique sélective, et (iv) conçoit un stockage préservant la fidélité pour atténuer les contraintes actuelles sur les qubits. Nous présentons également une feuille de route d'évolution en trois étapes vers une base de données native quantique. Enfin, en déployant Qute sur un véritable processeur quantique (origin_wukong), nous montrons qu'il surpasse une référence classique à grande échelle, et nous publions un prototype open-source à l'adresse https://github.com/weAIDB/Qute.
La configuration des systèmes d'agents basés sur LLM implique de choisir des flux de travail, des outils, des budgets de tokens et des prompts dans un vaste espace de conception combinatoire, et est généralement gérée aujourd'hui par de grands modèles fixes ou des heuristiques ajustées manuellement. Cela conduit à un comportement fragile et à une utilisation inutile de ressources de calcul, puisque la même configuration lourde est souvent appliquée à la fois aux requêtes d'entrée faciles et difficiles. Nous formulons la configuration d'agent comme un problème décisionnel par requête et introduisons ARC (Agentic Resource & Configuration learner), qui apprend une politique hiérarchique légère en utilisant l'apprentissage par renforcement pour adapter dynamiquement ces configurations. Sur plusieurs benchmarks couvrant le raisonnement et la réponse à des questions assistée par outils, la politique apprise surpasse systématiquement des bases de référence solides conçues manuellement et d'autres approches, atteignant jusqu'à 25 % de précision de tâche supérieure tout en réduisant également les coûts en tokens et en temps d'exécution. Ces résultats démontrent que l'apprentissage de configurations d'agents par requête constitue une alternative puissante aux conceptions universelles.
Les agents web nécessitent des trajectoires massives pour généraliser, mais leur entraînement en conditions réelles est limité par la latence réseau, les limites de débit et les risques de sécurité. Nous présentons la série WebWorld, premier simulateur web ouvert entraîné à grande échelle. Alors que les simulateurs existants se restreignent à des environnements fermés avec des milliers de trajectoires, WebWorld exploite un pipeline de données scalable pour s'entraîner sur plus d'un million d'interactions web ouvertes, prenant en charge le raisonnement, les données multi-formats et les simulations à long horizon de plus de 30 étapes. Pour l'évaluation intrinsèque, nous introduisons WebWorld-Bench avec des métriques doubles couvrant neuf dimensions, où WebWorld atteint des performances de simulation comparables à Gemini-3-Pro. Pour l'évaluation extrinsèque, Qwen3-14B entraîné sur des trajectoires synthétisées par WebWorld améliore ses résultats de +9,2 % sur WebArena, atteignant des performances comparables à GPT-4o. WebWorld permet une recherche efficace lors de l'inférence, surpassant GPT-5 en tant que modèle du monde. Au-delà de la simulation web, WebWorld présente une généralisation transdomaine aux environnements de code, d'interface graphique et de jeux, offrant une méthodologie reproductible pour la construction de modèles du monde.
Les modèles de langage multimodaux (MLLM), dotés de capacités de planification et d'utilisation d'outils de plus en plus avancées, évoluent vers des agents autonomes capables d'effectuer une navigation web multimodale et une recherche approfondie dans des environnements ouverts. Cependant, les benchmarks existants pour la navigation multimodale restent limités en termes de complexité des tâches, d'accessibilité des preuves et de granularité de l'évaluation, entravant une évaluation complète et reproductible des capacités de recherche approfondie. Pour remédier à ces limitations, nous présentons BrowseComp-V^3, un nouveau benchmark composé de 300 questions soigneusement sélectionnées et difficiles, couvrant divers domaines. Ce benchmark met l'accent sur un raisonnement profond, multi-niveaux et multimodal à sauts multiples, où les preuves critiques sont entrelacées entre les modalités textuelles et visuelles au sein des pages web et entre elles. Toutes les preuves de support doivent impérativement être accessibles publiquement via une recherche, garantissant l'équité et la reproductibilité. Au-delà de la précision de la réponse finale, nous intégrons un mécanisme d'évaluation du processus piloté par des sous-buts et validé par des experts, permettant une analyse fine des comportements de raisonnement intermédiaires et une caractérisation systématique des limites des capacités. De plus, nous proposons OmniSeeker, un cadre unifié d'agent de navigation multimodale intégrant divers outils de recherche web et de perception visuelle. Des expériences complètes démontrent que même les modèles les plus performants n'atteignent qu'une précision de 36 % sur notre benchmark, révélant des goulots d'étranglement critiques dans l'intégration d'informations multimodales et la perception fine. Nos résultats soulignent un écart fondamental entre les capacités actuelles des modèles et une recherche approfondie multimodale robuste dans des contextes réels.
L'exploitation des modèles de langage de grande taille multimodaux (MLLM) est devenue cruciale pour faire progresser les représentations multimodales universelles (UME) dans la résolution de diverses tâches intermodales. Des études récentes démontrent que l'intégration d'un raisonnement génératif de type chaîne de pensée (CoT) peut considérablement améliorer les représentations spécifiques aux tâches par rapport aux méthodes discriminatives. Cependant, les chaînes de pensée générées par les méthodes de représentation génératives existantes se limitent à l'analyse textuelle des requêtes et ne sont pas pertinentes pour la récupération des cibles. Pour remédier à ces limitations, nous proposons un cadre UME piloté par le raisonnement qui intègre un apprentissage par renforcement guidé par l'encodeur (EG-RL) afin d'optimiser le Raisonneur pour produire une chaîne de pensée traçable et probante (T-CoT). Nos contributions principales sont triples : (1) Nous concevons un cadre EG-RL dans lequel l'Encodeur fournit une supervision explicite au Raisonneur, garantissant que les traces CoT générées sont alignées sur les tâches de représentation. (2) Nous introduisons la T-CoT, qui extrait des indices multimodaux critiques pour se concentrer sur les éléments pertinents pour la recherche et fournit des entrées multimodales à l'Encodeur. (3) Avec des ressources computationnelles limitées, notre cadre surpasse le modèle de représentation pionnier sur les benchmarks MMEB-V2 et UVRB. L'intégration de preuves multimodales dans un raisonnement structuré, couplée à un alignement orienté récupération, renforce efficacement la cohérence sémantique intermodale et améliore la capacité d'appariement fin du modèle ainsi que sa généralisation à des scénarios complexes. Notre travail démontre qu'une optimisation ciblée du raisonnement peut significativement améliorer la qualité des représentations multimodales, offrant une solution pratique et efficace pour le développement d'UME piloté par le raisonnement.
Les modèles de langage par diffusion (dLLM) sont récemment apparus comme une alternative prometteuse aux LLM auto-régressifs. Les travaux les plus récents les ont étendus aux tâches de compréhension et de génération multimodales. Dans cette étude, nous proposons LaViDa-R1, un dLLM multimodal et polyvalent pour le raisonnement. Contrairement aux approches existantes qui construisent des dLLM de raisonnement via un apprentissage par renforcement spécifique aux tâches, LaViDa-R1 intègre de manière unifiée diverses tâches de compréhension et de génération multimodales. Plus précisément, LaViDa-R1 est développé avec un nouveau cadre d'entraînement postérieur unifié qui intègre de manière transparente le fine-tuning supervisé (SFT) et l'apprentissage par renforcement multi-tâches (RL). Il emploie plusieurs techniques d'entraînement novatrices, incluant le forçage de réponse, la recherche arborescente et l'estimation de vraisemblance complémentaire, pour améliorer l'efficacité et l'évolutivité. Des expérimentations approfondies démontrent les performances solides de LaViDa-R1 sur un large éventail de tâches multimodales, incluant le raisonnement mathématique visuel, l'ancrage raisonné intensif et l'édition d'images.
La préservation de la cohérence spatiale du monde sur de longues séquences reste un défi majeur pour la génération de vidéos contrôlables par caméra. Les approches existantes basées sur la mémoire conditionnent souvent la génération sur des scènes 3D reconstruites globalement en rendant des vidéos d'ancrage à partir de la géométrie reconstruite de l'historique. Cependant, la reconstruction d'une scène 3D globale à partir de vues multiples introduit inévitablement des défauts d'alignement inter-vues, car les erreurs d'estimation de pose et de profondeur entraînent la reconstruction des mêmes surfaces à des positions 3D légèrement différentes selon les vues. Lors de leur fusion, ces incohérences s'accumulent en une géométrie bruitée qui altère les signaux de conditionnement et dégrade la qualité de génération. Nous présentons AnchorWeave, un cadre de génération vidéo augmenté par mémoire qui remplace une mémoire globale unique et mal alignée par plusieurs mémoires géométriques locales propres et apprend à réconcilier leurs incohérences inter-vues. Pour ce faire, AnchorWeave effectue une récupération de mémoire locale pilotée par la couverture, alignée sur la trajectoire cible, et intègre les mémoires locales sélectionnées via un contrôleur de tissage multi-ancres durant la génération. Des expériences approfondies démontrent qu'AnchorWeave améliore significativement la cohérence scénique à long terme tout en maintenant une forte qualité visuelle, avec des études d'ablation et d'analyse validant en outre l'efficacité du conditionnement géométrique local, du contrôle multi-ancres et de la récupération pilotée par couverture.
La segmentation d'images conversationnelle ancre des concepts abstraits et intentionnels dans des masques à précision pixel. Les travaux antérieurs sur l'ancrage d'images par référence se concentrent sur des requêtes catégorielles et spatiales (par exemple, "la pomme la plus à gauche") et négligent le raisonnement fonctionnel et physique (par exemple, "où puis-je ranger le couteau en toute sécurité ?"). Nous comblons cette lacune en introduisant la segmentation d'images conversationnelle (CIS) et ConverSeg, un benchmark couvrant les entités, les relations spatiales, l'intention, les affordances, les fonctions, la sécurité et le raisonnement physique. Nous présentons également ConverSeg-Net, qui fusionne de solides prérequis en segmentation avec la compréhension du langage, ainsi qu'un moteur de données alimenté par l'IA qui génère des paires invite-masque sans supervision humaine. Nous démontrons que les modèles actuels de segmentation guidée par le langage sont inadéquats pour la CIS, tandis que ConverSeg-Net entraîné sur notre moteur de données obtient des gains significatifs sur ConverSeg et maintient des performances solides sur les benchmarks existants de segmentation guidée par le langage. Page web du projet : https://glab-caltech.github.io/converseg/
La compréhension et la génération du mouvement humain sont cruciales pour la vision et la robotique, mais leurs capacités de raisonnement et de planification en temps de test restent limitées. Nous proposons MoRL, un modèle de mouvement multimodal unifié entraîné par fine-tuning supervisé et apprentissage par renforcement avec des récompenses vérifiables. Notre conception de récompenses spécifique aux tâches combine l'alignement sémantique et la cohérence du raisonnement pour la compréhension, avec la plausibilité physique et la cohérence texte-mouvement pour la génération, améliorant à la fois le raisonnement logique et le réalisme perceptuel. Pour renforcer davantage l'inférence, nous introduisons Chain-of-Motion (CoM), une méthode de raisonnement en temps de test permettant une planification et une réflexion étape par étape. Nous construisons également deux jeux de données CoT à grande échelle, MoUnd-CoT-140K et MoGen-CoT-140K, pour aligner les séquences de mouvement avec les traces de raisonnement et les descriptions d'actions. Les expériences sur HumanML3D et KIT-ML montrent que MoRL obtient des gains significatifs par rapport à l'état de l'art. Code : https://github.com/AIGeeksGroup/MoRL. Site web : https://aigeeksgroup.github.io/MoRL.
Nous présentons FireRed-Image-Edit, un transformeur de diffusion pour l'édition d'images basée sur des instructions qui atteint des performances de pointe grâce à une optimisation systématique de la curation des données, de la méthodologie d'entraînement et de la conception de l'évaluation. Nous avons constitué un corpus d'entraînement de 1,6 milliard d'échantillons, comprenant 900 millions de paires texte-image et 700 millions de paires d'édition d'images provenant de sources diverses. Après un nettoyage rigoureux, une stratification, un étiquetage automatique et un filtrage en deux étapes, nous avons conservé plus de 100 millions d'échantillons de haute qualité, équilibrés entre génération et édition, garantissant une couverture sémantique robuste et un alignement précis sur les instructions. Notre pipeline d'entraînement multi-étapes développe progressivement la capacité d'édition via un pré-entraînement, un affinage supervisé et un apprentissage par renforcement. Pour améliorer l'efficacité des données, nous introduisons un échantillonneur par compartiment Multi-Condition Aware pour le traitement par lots à résolution variable et un Stochastic Instruction Alignment avec ré-indexation dynamique des invites. Pour stabiliser l'optimisation et renforcer la contrôlabilité, nous proposons une Optimisation de Gradient Asymétrique pour DPO, DiffusionNFT avec récompenses OCR sensibles à la mise en page pour l'édition de texte, et une Loss de Différentiabilité de Consistance pour la préservation de l'identité. Nous établissons également REDEdit-Bench, un benchmark complet couvrant 15 catégories d'édition, incluant des tâches nouvellement introduites de beautification et d'amélioration de bas niveau. Des expériences approfondies sur REDEdit-Bench et des benchmarks publics (ImgEdit et GEdit) démontrent des performances compétitives ou supérieures à celles des systèmes open-source et propriétaires. Nous publions le code, les modèles et la suite de benchmarks pour soutenir la recherche future.
Les agents d'IA de codage transforment rapidement l'ingénierie logicielle en réalisant des tâches telles que le développement de fonctionnalités, le débogage et les tests. Malgré leur impact croissant, la communauté de recherche manque d'un ensemble de données complet capturant l'utilisation de ces agents dans des projets réels. Pour combler cette lacune, nous présentons AIDev, un jeu de données à grande échelle centré sur les demandes de tirage (pull requests) rédigées par des agents (Agentic-PRs) dans des dépôts GitHub réels. AIDev agrège 932 791 Agentic-PRs produites par cinq agents : OpenAI Codex, Devin, GitHub Copilot, Cursor et Claude Code. Ces PR couvrent 116 211 dépôts et impliquent 72 189 développeurs. De plus, AIDev inclut un sous-ensemble sélectionné de 33 596 Agentic-PRs provenant de 2 807 dépôts ayant plus de 100 étoiles, fournissant des informations supplémentaires telles que les commentaires, les revues, les commits et les problèmes associés. Ce jeu de données offre une base pour les recherches futures sur l'adoption de l'IA, la productivité des développeurs et la collaboration humain-IA dans la nouvelle ère de l'ingénierie logicielle.
Nous présentons LM-Lexicon, une approche innovante de modélisation de définitions qui intègre le clustering de données, l'apprentissage d'experts sémantiques et la fusion de modèles via une architecture éparse de mélange d'experts. En décomposant la tâche de modélisation de définitions en domaines sémantiques spécialisés, où de petits modèles de langage sont entraînés comme experts de domaine, LM-Lexicon obtient des améliorations substantielles (+7% de score BLEU par rapport au modèle précédent de l'état de l'art) sur cinq benchmarks largement utilisés. Empiriquement, nous démontrons que 1) la stratégie de clustering permet une spécialisation fine des experts avec une amélioration de près de 10% de la qualité des définitions ; 2) le mécanisme de routage au niveau des domaines sémantiques atteint une efficacité d'expert supérieure (+1%) au routage conventionnel au niveau des tokens ; et 3) des gains de performance supplémentaires peuvent être obtenus via le calcul au moment du test et la mise à l'échelle des experts sémantiques. Notre travail fait progresser la modélisation des définitions tout en fournissant des insights pour le développement de modèles de langage efficaces pour les applications sémantiques intensives.
La sonification – la conversion de données en signaux audio non vocaux – offre un canal encore peu exploré pour représenter des systèmes dynamiques complexes. Nous traitons l'oscillation australe El Niño (ENSO), exemple canonique de chaos climatique de basse dimension, comme étude de cas pour une sonification culturellement située évaluée via des diagnostics de systèmes complexes. En utilisant une sonification par paramétrisation de l’indice d’anomalie de température de surface de la mer Niño 3.4 (1870–2024), nous encodons la variabilité de l’ENSO dans deux systèmes pentatoniques traditionnels du gamelan javanais (pelog et slendro) selon quatre stratégies compositionnelles, puis analysons les résultats audio comme des trajectoires dans un espace des phases acoustique à deux dimensions. Les diagnostics basés sur la récurrence, la géométrie de l’enveloppe convexe et l’analyse de couplage révèlent que la chaîne de sonification préserve des signatures dynamiques clés : les modes alternants produisent les taux de récurrence de trajectoire les plus élevés, reflétant la quasi-périodicité de l’ENSO ; les modes polyphoniques superposés explorent les régions les plus étendues de l’espace des phases ; et les deux familles d’échelles induisent des régimes de couplage qualitativement distincts entre la brillance spectrale et l’énergie – principalement en opposition de phase pour le pelog, mais quasi-indépendants pour le slendro. L’analyse des trajectoires dans l’espace des phases fournit un cadre géométrique rigoureux pour comparer les conceptions de sonification dans un contexte de systèmes complexes. Une validation perceptuelle reste nécessaire ; nous contribuons ici la méthodologie des systèmes dynamiques pour évaluer de telles conversions.
L'édition générative vidéo haute fidélité a connu des améliorations significatives de qualité grâce à l'exploitation de modèles de fond pré-entraînés pour la vidéo. Cependant, leur coût computationnel constitue un goulot d'étranglement majeur, car ils sont souvent conçus pour traiter de manière inefficace l'intégralité du contexte vidéo, indépendamment de la taille du masque d'inpainting, même pour des modifications localisées et éparses. Dans cet article, nous présentons EditCtrl, un cadre de contrôle efficace pour l'inpainting vidéo qui concentre les calculs uniquement là où c'est nécessaire. Notre approche intègre un nouveau module de contexte vidéo local qui opère exclusivement sur les tokens masqués, engendrant un coût computationnel proportionnel à la taille de l'édition. Cette génération axée sur le local est ensuite guidée par un encodeur de contexte global temporel léger, qui assure la cohérence contextuelle à l'échelle de la vidéo avec une surcharge minimale. Non seulement EditCtrl est 10 fois plus efficace en calcul que les méthodes génératives d'édition de pointe, mais il améliore même la qualité de l'édition par rapport aux méthodes conçues avec une attention complète. Enfin, nous démontrons comment EditCtrl ouvre de nouvelles capacités, incluant l'édition multi-région avec des invites textuelles et la propagation de contenu auto-régressive.
Bien que le décodage par planification et remplissage dans les modèles de diffusion masquée (MDM) montre des résultats prometteurs pour le raisonnement mathématique et la génération de code, les performances restent très sensibles à l'ordre de remplissage des emplacements, produisant souvent une variance substantielle des sorties. Nous présentons McDiffuSE, un cadre qui formule la sélection des emplacements comme un processus décisionnel et optimise les ordres de remplissage par une recherche arborescente de Monte Carlo (MCTS). McDiffuSE utilise des simulations prospectives pour évaluer les complétions partielles avant engagement, explorant systématiquement l'espace combinatoire des ordres de génération. Les expériences montrent une amélioration moyenne de 3,2 % par rapport aux modèles autorégressifs de référence et de 8,0 % par rapport à la méthode planification-remplissage de base, avec des gains notables de 19,5 % sur MBPP et 4,9 % sur MATH500. Notre analyse révèle que si McDiffuSE suit principalement un ordre séquentiel, l'incorporation d'une génération non séquentielle est essentielle pour maximiser les performances. Nous observons que des constantes d'exploration plus grandes, plutôt qu'un nombre accru de simulations, sont nécessaires pour surmonter les biais de confiance du modèle et découvrir des ordonnancements efficaces. Ces résultats établissent la planification basée sur MCTS comme une approche efficace pour améliorer la qualité de génération dans les MDM.
Le séquençage de l'ARN à l'échelle monocellulaire (scRNA-seq) permet un profilage à l'échelle d'atlas des tissus complexes, révélant des lignées rares et des états transitoires. Pourtant, l'attribution d'identités cellulaires biologiquement valides reste un goulot d'étranglement car les marqueurs sont dépendants du tissu et de l'état, et les états nouveaux manquent de références. Nous présentons CellMaster, un agent IA qui imite la pratique experte pour l'annotation de types cellulaires en zero-shot. Contrairement aux outils automatisés existants, CellMaster exploite les connaissances encodées dans les LLM (par exemple, GPT-4o) pour effectuer une annotation à la volée avec des justifications interprétables, sans pré-entraînement ou base de données de marqueurs fixe. Sur 9 jeux de données couvrant 8 tissus, CellMaster a amélioré la précision de 7,1 % par rapport aux meilleures méthodes de référence (incluant CellTypist et scTab) en mode automatique. Avec un affinage en boucle humaine, cet avantage est passé à 18,6 %, avec un gain de 22,1 % sur les populations de sous-types. Le système démontre une force particulière pour les états cellulaires rares et nouveaux où les méthodes de référence échouent souvent. Le code source et l'application web sont disponibles à l'adresse https://github.com/AnonymousGym/CellMaster.
Dans cet article de ressource, nous présentons DHPLT, une collection ouverte de corpus diachroniques dans 41 langues diverses. DHPLT est basé sur les ensembles de données HPLT issus du web ; nous utilisons les horodatages des collectes web comme signal approximatif de la date de création des documents. La collection couvre trois périodes : 2011-2015, 2020-2021 et 2024 à aujourd'hui (un million de documents par période pour chaque langue). Nous fournissons également des plongements lexicaux (types et tokens) précalculés et des substitutions lexicales pour nos mots cibles choisis, tout en laissant la possibilité à d'autres chercheurs de proposer leurs propres mots cibles en utilisant les mêmes jeux de données. DHPLT vise à combler le manque actuel de corpus diachroniques multilingues pour la modélisation du changement sémantique (au-delà d'une douzaine de langues riches en ressources). Il ouvre la voie à une variété de nouveaux dispositifs expérimentaux dans ce domaine. Toutes les ressources décrites dans cet article sont disponibles à l'adresse https://data.hplt-project.org/three/diachronic/, triées par langue.
L'analyse acoustique des salles joue un rôle central dans la conception architecturale, l'ingénierie du son, l'évaluation de l'intelligibilité de la parole et la recherche auditive. Malgré la disponibilité de métriques standardisées telles que le temps de réverbération, la clarté et l'indice de transmission de la parole, les outils accessibles alliant un traitement du signal rigoureux à une visualisation intuitive restent rares. Cet article présente AcoustiVision Pro, une plateforme web open-source pour l'analyse complète des réponses impulsionnelles de salle (RIR). Le système calcule douze paramètres acoustiques distincts à partir de RIR téléchargées ou issues de jeux de données, fournit des visualisations 3D interactives des premières réflexions, génère des caractéristiques de décroissance fréquentielle via des diagrammes waterfall, et vérifie la conformité aux normes internationales incluant l'ANSI S12.60 et l'ISO 3382. Nous présentons les jeux de données accompagnateurs RIRMega et RIRMega Speech hébergés sur Hugging Face, contenant des milliers de réponses impulsionnelles de salle simulées avec des métadonnées complètes. La plateforme prend en charge l'auralisation en temps réel par convolution basée sur FFT, exporte des rapports PDF détaillés adaptés à la documentation technique, et permet l'exportation des données au format CSV pour une analyse ultérieure. Nous décrivons les fondements mathématiques sous-jacents à chaque mesure acoustique, détaillons l'architecture du système et présentons des études de cas préliminaires démontrant l'utilité de la plateforme dans divers domaines d'application, incluant l'acoustique des salles de classe, la conception d'établissements de santé et l'évaluation de studios d'enregistrement.
La génération augmentée par récupération (RAG) est devenue une pierre angulaire des applications intensives en connaissances, incluant les chatbots d'entreprise, les assistants de santé et la gestion de mémoire agentique. Cependant, des études récentes montrent que les attaques par extraction de connaissances peuvent récupérer le contenu sensible d'une base de connaissances via des requêtes malveillamment conçues, soulevant de sérieuses préoccupations concernant le vol de propriété intellectuelle et la fuite de données. Bien que les travaux antérieurs aient exploré des techniques individuelles d'attaque et de défense, le paysage de la recherche reste fragmenté, couvrant des plongements lexicaux hétérogènes, des modèles de génération divers et des évaluations basées sur des métriques non standardisées et des jeux de données incohérents. Pour combler cette lacune, nous présentons le premier benchmark systématique pour les attaques par extraction de connaissances sur les systèmes RAG. Notre benchmark couvre un large éventail de stratégies d'attaque et de défense, des modèles de plongements lexicaux représentatifs, ainsi que des générateurs open source et propriétaires, le tout évalué dans un cadre expérimental unifié avec des protocoles standardisés sur plusieurs jeux de données. En consolidant le paysage expérimental et en permettant une évaluation reproductible et comparable, ce benchmark fournit des perspectives exploitables et une base pratique pour développer des systèmes RAG préservant la vie privée face aux menaces émergentes d'extraction de connaissances. Notre code est disponible ici.
Les modèles de langage de grande taille (LLM) utilisés comme juges sont souvent employés parallèlement aux métriques algorithmiques traditionnelles pour des tâches comme la synthèse de texte, car ils capturent mieux l'information sémantique, possèdent de meilleures capacités de raisonnement et sont plus robustes face à la paraphrase. Cependant, les juges LLM présentent des biais en faveur de la longueur et de l'ordre, entre autres, et sont vulnérables à diverses attaques par des invites adverses. Bien que des études récentes aient examiné ces biais, peu les ont analysés à un niveau plus granulaire en relation avec une métrique de chevauchement bien définie. Dans ce travail, nous proposons une analyse des biais des juges LLM en fonction du chevauchement avec des réponses rédigées par des humains dans le domaine de la synthèse. Nous testons 9 LLM récents dont les nombres de paramètres varient de 1 à 12 milliards, incluant des variantes de Gemma 3 et LLaMA 3. Nous constatons que les juges LLM préfèrent de plus en plus les résumés générés par d'autres LLM par rapport à ceux écrits par des humains à mesure que les similarités (mesurées par ROUGE et BLEU) entre les résumés évalués diminuent. Ce schéma s'étend à tous les modèles testés sauf un, et persiste indépendamment des biais de position propres aux modèles. De plus, nous observons que les modèles ont des difficultés à évaluer même des résumés présentant des chevauchements limités, ce qui suggère que l'utilisation des LLM comme juges dans le domaine de la synthèse devrait reposer sur des techniques dépassant une simple comparaison.
Alors que les capacités des grands modèles de langage continuent de progresser, leur potentiel de détournement augmente également. Si les modèles fermés reposent généralement sur des défenses externes, les modèles à poids ouverts doivent principalement compter sur des mécanismes de protection internes pour atténuer les comportements nuisibles. Les recherches antérieures en ingénierie offensive se sont largement concentrées sur les contournements basés sur l'entrée et les manipulations au niveau des paramètres. Cependant, les modèles à poids ouverts prennent également nativement en charge le préremplissage, ce qui permet à un attaquant de prédéfinir les premiers jetons de réponse avant le début de la génération. Malgré son potentiel, ce vecteur d'attaque a reçu peu d'attention systématique. Nous présentons la plus grande étude empirique à ce jour sur les attaques par préremplissage, évaluant plus de 20 stratégies existantes et nouvelles sur plusieurs familles de modèles et les modèles à poids ouverts les plus avancés. Nos résultats montrent que les attaques par préremplissage sont systématiquement efficaces contre tous les principaux modèles à poids ouverts contemporains, révélant une vulnérabilité critique et précédemment sous-explorée, avec des implications significatives pour le déploiement. Bien que certains grands modèles de raisonnement démontrent une certaine robustesse contre le préremplissage générique, ils restent vulnérables à des stratégies spécifiques et adaptées. Nos conclusions soulignent le besoin urgent pour les développeurs de modèles de prioriser les défenses contre les attaques par préremplissage dans les LLM à poids ouverts.
Les agents pilotés par LLM commencent à automatiser les tâches des utilisateurs sur le web ouvert, souvent avec un accès à leurs ressources telles que les e-mails et les agendas. Contrairement aux LLM standards qui répondent à des questions dans un environnement de chatbot contrôlé, les agents web agissent « en milieu naturel », interagissant avec des tiers et laissant derrière eux une trace d'actions. Par conséquent, nous posons la question suivante : comment les agents web gèrent-ils les ressources des utilisateurs lorsqu'ils accomplissent des tâches en leur nom sur des sites web en direct ? Dans cet article, nous formalisons le *Natural Agentic Oversharing* – la divulgation non intentionnelle d'informations utilisateur non pertinentes pour la tâche via une trace d'actions de l'agent sur le web. Nous présentons SPILLage, un cadre qui caractérise le partage excessif selon deux dimensions : le canal (contenu vs comportement) et le caractère direct (explicite vs implicite). Cette taxonomie révèle un angle mort critique : alors que les travaux antérieurs se concentrent sur les fuites de texte, les agents web divulguent également des informations par leur comportement via des clics, défilements et motifs de navigation qui peuvent être surveillés. Nous évaluons 180 tâches sur des sites e-commerce en direct avec des annotations de vérité terrain séparant les attributs pertinents des attributs non pertinents pour la tâche. Sur 1 080 exécutions couvrant deux frameworks agentiques et trois LLMs de base, nous démontrons que le partage excessif est omniprésent, le partage comportemental dominant le partage de contenu par un facteur de 5. Cet effet persiste – et peut même s'aggraver – avec des atténuations au niveau de l'invite. Cependant, supprimer les informations non pertinentes avant l'exécution améliore le succès des tâches jusqu'à 17,9 %, démontrant que réduire le partage excessif améliore les performances. Nos résultats soulignent que la protection de la vie privée dans les agents web est un défi fondamental, nécessitant une vision élargie de la « sortie » qui tient compte de ce que les agents *font* sur le web, et pas seulement de ce qu'ils *tapent*. Nos jeux de données et notre code sont disponibles à l'adresse https://github.com/jrohsc/SPILLage.
L'apprentissage par renforcement (RL) est devenu un paradigme dominant pour la conduite autonome de bout en bout. Cependant, le RL souffre d'une inefficacité en termes d'échantillons et d'un manque d'interprétabilité sémantique dans les scénarios complexes. Les modèles fondateurs, en particulier les modèles vision-langage (VLM), peuvent atténuer ce problème en offrant des connaissances riches et sensibles au contexte, mais leur latence d'inférence élevée entrave leur déploiement dans les boucles d'entraînement RL haute fréquence. Pour combler cette lacune, nous présentons Found-RL, une plateforme conçue pour améliorer efficacement le RL pour la conduite autonome en utilisant des modèles fondateurs. Une innovation clé est le cadre d'inférence par lots asynchrone, qui découple le raisonnement lourd des VLM de la boucle de simulation, résolvant efficacement les goulots d'étranglement de latence pour supporter un apprentissage en temps réel. Nous introduisons divers mécanismes de supervision : la Régularisation par Marge de Valeur (VMR) et le Guidage d'Action Pondéré par l'Avantage (AWAG) pour distiller efficacement des suggestions d'action expertes similaires à celles d'un VLM dans la politique de RL. De plus, nous adoptons CLIP à haut débit pour le façonnage de récompenses denses. Nous adressons la cécité dynamique de CLIP via un Alignement d'Action Contrastif Conditionnel, qui conditionne les prompts sur la vitesse/commande discrétisée et produit un bonus normalisé, basé sur une marge, à partir d'un score action-ancre spécifique au contexte. Found-RL fournit un pipeline de bout en bout pour l'intégration de VLM affinés et montre qu'un modèle RL léger peut atteindre des performances proches de celles d'un VLM par rapport à des VLM de milliards de paramètres tout en maintenant une inférence en temps réel (environ 500 FPS). Le code, les données et les modèles seront publiquement disponibles à l'adresse https://github.com/ys-qu/found-rl.
Le réglage fin par instructions des grands modèles de langage (LLM) implique souvent la sélection d'un sous-ensemble de données d'entraînement à partir d'un vaste pool de candidats, en utilisant un petit ensemble de requêtes représentatif de la tâche cible. Malgré un intérêt croissant, la littérature sur la sélection ciblée d'instructions reste fragmentée et opaque : les méthodes varient considérablement en termes de budget de sélection, omettent souvent les lignes de base en mode "zéro-shot", et entremêlent fréquemment les contributions des composants clés. En conséquence, les praticiens manquent de conseils pratiques pour sélectionner des instructions adaptées à leurs tâches cibles. Dans ce travail, nous visons à clarifier ce paysage en démêlant et en analysant systématiquement les deux ingrédients fondamentaux : la représentation des données et les algorithmes de sélection. Notre cadre permet des comparaisons contrôlées entre modèles, tâches et budgets. Nous constatons que seules les représentations de données basées sur les gradients sélectionnent des sous-ensembles dont la similarité avec la requête prédit systématiquement les performances sur différents jeux de données et modèles. Bien qu'aucune méthode ne domine universellement, les représentations basées sur les gradients associées à un algorithme de sélection glouton par tour de rôle tendent à offrir les meilleures performances en moyenne pour les petits budgets, mais ces avantages s'estompent avec des budgets plus importants. Enfin, nous unifions plusieurs algorithmes de sélection existants en les présentant comme des formes de minimisation approximative de la distance entre le sous-ensemble sélectionné et l'ensemble de requêtes, et étayons cette perspective par de nouvelles bornes de généralisation. Plus largement, nos résultats fournissent des insights critiques et jettent les bases d'une sélection de données plus princiée pour le réglage fin des LLM. Le code est disponible à l'adresse https://github.com/dcml-lab/targeted-instruction-selection.
Les agents d'IA générative assimilent la compréhension à la résolution de requêtes explicites, un postulat qui confine l'interaction à ce que les utilisateurs peuvent formuler. Ce postulat s'effondre lorsque les utilisateurs eux-mêmes n'ont pas conscience de ce qui manque, de ce qui est risqué ou mérite d'être considéré. Dans de telles conditions, la proactivité n'est pas seulement une amélioration de l'efficacité, mais une nécessité épistémique. Nous qualifions cette situation d'**incomplétude épistémique** : un état où le progrès dépend de la capacité à appréhender les « inconnus inconnus » pour établir un partenariat efficace. Les approches existantes de la proactivité restent étroitement anticipatrices, extrapolant à partir des comportements passés et présumant que les objectifs sont déjà bien définis, échouant ainsi à soutenir les utilisateurs de manière significative. Cependant, révéler des possibilités au-delà de la conscience immédiate de l'utilisateur n'est pas intrinsèquement bénéfique. Des interventions proactives non contraintes peuvent détourner l'attention, submerger les utilisateurs ou causer des préjudices. Les agents proactifs nécessitent donc un **ancrage comportemental** : des contraintes de principe sur le moment, la manière et la mesure dans laquelle un agent doit intervenir. Nous défendons la position que la proactivité générative doit être ancrée à la fois épistémiquement et comportementalement. En nous appuyant sur la philosophie de l'ignorance et la recherche sur le comportement proactif, nous soutenons que ces théories offrent des orientations essentielles pour concevoir des agents capables d'interagir de manière responsable et de favoriser des partenariats constructifs.