Articles de recherche IA sélectionnés quotidiennement avec traductions
Malgré les progrès rapides récents dans les capacités des grands modèles de langage pour les terminaux, les stratégies de données d'entraînement derrière les agents de pointe restent largement non divulguées. Nous comblons cette lacune par une étude systématique des pratiques d'ingénierie des données pour les agents de terminal, en apportant deux contributions principales : (1) Terminal-Task-Gen, un pipeline léger de génération synthétique de tâches qui prend en charge la construction de tâches basée sur des amorces et sur des compétences, et (2) une analyse complète des stratégies de données et d'entraînement, incluant le filtrage, l'apprentissage curriculaire, l'entraînement en contexte long et le comportement à l'échelle. Notre pipeline produit Terminal-Corpus, un jeu de données open-source à grande échelle pour les tâches de terminal. En utilisant ce jeu de données, nous entraînons Nemotron-Terminal, une famille de modèles initialisés à partir de Qwen3(8B, 14B, 32B) qui obtiennent des gains substantiels sur Terminal-Bench 2.0 : Nemotron-Terminal-8B passe de 2,5 % à 13,0 %, Nemotron-Terminal-14B passe de 4,0 % à 20,2 %, et Nemotron-Terminal-32B passe de 3,4 % à 27,4 %, égalant ainsi les performances de modèles nettement plus grands. Pour accélérer la recherche dans ce domaine, nous ouvrons en accès libre nos points de contrôle de modèles et la majeure partie de nos jeux de données synthétiques à l'adresse https://huggingface.co/collections/nvidia/nemotron-terminal.
Fondée sur l'analyse existante des têtes d'attention de récupération dans les grands modèles de langage, nous proposons un cadre alternatif de reranking qui entraîne des modèles à estimer la pertinence passage-requête en utilisant les scores d'attention de têtes sélectionnées. Cette approche fournit une solution listwise qui exploite l'information holistique au sein de la liste restreinte entière de candidats pendant le classement. Simultanément, elle produit naturellement des scores de pertinence continus, permettant un entraînement sur des jeux de données de récupération arbitraires sans nécessiter de supervision par échelle de Likert. Notre cadre est léger et efficace, ne nécessitant que des modèles à petite échelle (par exemple, 4 milliards de paramètres) pour atteindre de solides performances. Des expériences approfondies démontrent que notre méthode surpasse les rerankeurs pointwise et listwise état de l'art existants dans de multiples domaines, incluant Wikipédia et des jeux de données narratifs longs. Elle établit en outre un nouvel état de l'art sur le benchmark LoCoMo qui évalue les capacités de compréhension du dialogue et d'utilisation de la mémoire. Nous démontrons en outre que notre cadre supporte des extensions flexibles. Par exemple, l'augmentation des passages candidats avec des informations contextuelles améliore encore la précision du classement, tandis que l'entraînement de têtes d'attention provenant de couches intermédiaires améliore l'efficacité sans sacrifier les performances.
L'apprentissage par renforcement pour les modèles multimodaux agentiques souffre souvent d'un effondrement de l'interaction, où les modèles apprennent à réduire l'utilisation d'outils et le raisonnement multi-tours, limitant ainsi les bénéfices du comportement agentique. Nous présentons PyVision-RL, un cadre d'apprentissage par renforcement pour les modèles multimodaux à poids ouverts qui stabilise l'entraînement et maintient l'interaction. Notre approche combine une stratégie de déploiement par suréchantillonnage-filtrage-classement avec une récompense d'outil cumulative pour prévenir l'effondrement et encourager l'utilisation multi-tours des outils. En utilisant un pipeline d'entraînement unifié, nous développons PyVision-Image et PyVision-Video pour la compréhension d'images et de vidéos. Pour le raisonnement vidéo, PyVision-Video utilise une construction de contexte à la demande, échantillonnant sélectivement les images pertinentes pour la tâche durant le raisonnement afin de réduire significativement l'utilisation de tokens visuels. Les expériences montrent de solides performances et une efficacité améliorée, démontrant que l'interaction soutenue et le traitement visuel à la demande sont essentiels pour des agents multimodaux évolutifs.
L'apprentissage au moment du test (TTT) avec liaison clé-valeur comme couche de modélisation séquentielle est communément interprété comme une forme de méta-apprentissage en ligne qui mémorise un mapping clé-valeur lors du test. Cependant, notre analyse révèle plusieurs phénomènes qui contredisent cette interprétation basée sur la mémorisation. Motivés par ces découvertes, nous revisitons la formulation du TTT et montrons qu'une large classe d'architectures TTT peut s'exprimer comme une forme d'opérateur d'attention linéaire appris. Au-delà d'expliquer des comportements de modèles auparavant déroutants, cette perspective offre plusieurs avantages pratiques : elle permet des simplifications architecturales fondées, admet des formulations entièrement parallèles qui préservent les performances tout en améliorant l'efficacité, et fournit une réduction systématique de diverses variantes de TTT à une forme standard d'attention linéaire. Globalement, nos résultats recadrent le TTT non pas comme une mémorisation au moment du test, mais comme une attention linéaire apprise avec une capacité représentationnelle accrue.
Comprendre la structure physique est essentiel pour des applications concrètes telles que les agents incarnés, la conception interactive et la manipulation à long terme. Pourtant, les évaluations prédominantes des modèles vision-langage (VLM) se concentrent encore sur des configurations agnostiques à la structure et en un seul tour (par exemple, VQA), qui ne parviennent pas à évaluer la capacité des agents à raisonner sur la manière dont la géométrie, les contacts et les relations de support contraignent conjointement les actions possibles dans un environnement dynamique. Pour combler cette lacune, nous présentons le benchmark CHAIN (Causal Hierarchy of Actions and Interactions), un banc d'essai interactif 3D et piloté par la physique conçu pour évaluer si les modèles peuvent comprendre, planifier et exécuter des séquences d'actions structurées fondées sur des contraintes physiques. CHAIN fait passer l'évaluation de la perception passive à la résolution active de problèmes, couvrant des tâches telles que l'assemblage de puzzles mécaniques imbriqués et l'empilement et le rangement en 3D. Nous menons une étude complète des VLM et des modèles basés sur la diffusion les plus performants dans des paramètres interactifs unifiés. Nos résultats montrent que les modèles les plus performants peinent encore à internaliser la structure physique et les contraintes causales, échouant souvent à produire des plans fiables à long terme et n'arrivant pas à traduire robustement la structure perçue en actions efficaces. Le projet est disponible à l'adresse https://social-ai-studio.github.io/CHAIN/.
Nous étudions la récupération efficace de multi-vecteurs pour l'interaction tardive dans toute modalité. L'interaction tardive est devenue un paradigme dominant pour la recherche d'informations dans le texte, les images, les documents visuels et les vidéos, mais ses coûts de calcul et de stockage croissent linéairement avec la longueur des documents, ce qui la rend coûteuse pour les corpus riches en images, vidéos et contenu audio. Pour remédier à cette limitation, nous explorons des méthodes agnostiques à la requête pour compresser les représentations documentaires multi-vecteurs sous un budget vectoriel constant. Nous présentons quatre approches pour la compression d'index : le redimensionnement de séquence, les tokens de mémoire, le regroupement hiérarchique et un nouveau regroupement guidé par l'attention (AGC). L'AGC utilise un mécanisme guidé par l'attention pour identifier les régions sémantiquement les plus saillantes d'un document comme centroïdes de clusters et pour pondérer l'agrégation des tokens. En évaluant ces méthodes sur des tâches de récupération couvrant le texte (BEIR), les documents visuels (ViDoRe) et la vidéo (MSR-VTT, MultiVENT 2.0), nous montrons que le regroupement guidé par l'attention surpasse constamment les autres méthodes de compression paramétrées (redimensionnement de séquence et tokens de mémoire), offre une plus grande flexibilité dans la taille de l'index que le regroupement hiérarchique non paramétrique, et atteint des performances compétitives ou améliorées par rapport à un index complet non compressé. Le code source est disponible à l'adresse : github.com/hanxiangqin/omni-col-press.
Les modèles vision-langage-action (VLA) unifient la perception, le langage et le contrôle pour les agents embodiés, mais rencontrent des défis majeurs lors du déploiement pratique en raison de l'augmentation rapide des besoins en calcul et en mémoire, particulièrement lorsque les modèles passent à des horizons temporels plus longs et des architectures principales plus grandes. Pour résoudre ces goulots d'étranglement, nous présentons QuantVLA, un cadre de quantification post-entraînement (PTQ) sans entraînement supplémentaire qui, à notre connaissance, est la première approche PTQ pour les systèmes VLA et la première à quantifier avec succès une tête d'action à transformeur de diffusion (DiT). QuantVLA intègre trois composants à échelle calibrée : (1) une disposition de quantification sélective qui entierise toutes les couches linéaires de l'architecture langagière principale et du DiT tout en conservant les projections d'attention en virgule flottante pour préserver le calendrier opératoire d'origine ; (2) un appariement de température d'attention, un mécanisme d'échelle léger par tête qui stabilise les logits d'attention et est intégré aux échelles de déquantification lors de l'inférence ; et (3) un équilibrage de tête de sortie, une calibration d'interface résiduelle par couche qui atténue la dérive énergétique post-projection. Le cadre ne nécessite aucun entraînement supplémentaire, n'utilise qu'un petit tampon de calibration non étiqueté, et prend en charge les noyaux entiers pour les poids et activations en basse précision tout en laissant l'architecture inchangée. Sur des modèles VLA représentatifs évalués sur LIBERO, QuantVLA dépasse les taux de réussite des lignes de base en pleine précision, réalise environ 70 % d'économie de mémoire relative sur les composants quantifiés, et offre une accélération de 1,22x de la latence d'inférence de bout en bout, offrant ainsi une voie pratique vers une intelligence embodiée scalable en basse précision sous des contraintes strictes de calcul, de mémoire et de puissance.
Les agents de recherche approfondie génèrent des rapports de qualité analytique, mais leur évaluation reste difficile en raison de l'absence d'une vérité terrain unique et de la nature multidimensionnelle de la qualité de la recherche. Les benchmarks récents proposent des méthodologies distinctes, mais ils souffrent du Mirage de la Synthèse, où une forte fluidité de surface et un alignement des citations peuvent masquer des défauts factuels et raisonnés sous-jacents. Nous caractérisons cet écart en introduisant une taxonomie sur quatre axes qui expose un décalage critique des capacités : les évaluateurs statiques manquent intrinsèquement des capacités d'utilisation d'outils nécessaires pour évaluer la validité temporelle et l'exactitude factuelle. Pour résoudre ce problème, nous proposons DREAM (Évaluation Approfondie de la Recherche avec des Métriques Agentiques), un cadre qui matérialise le principe de parité des capacités en rendant l'évaluation elle-même agentique. DREAM structure l'évaluation via un protocole combinant des métriques agnostiques de la requête avec des métriques adaptatives générées par un agent utilisant des outils, permettant une couverture temporellement consciente, une vérification fondée et des sondages raisonnés systématiques. Des évaluations contrôlées démontrent que DREAM est significativement plus sensible à la dégradation factuelle et temporelle que les benchmarks existants, offrant un paradigme d'évaluation évolutif et sans référence.
Malgré les progrès récents des modèles de diffusion, les images générées par IA contiennent souvent des artefacts visuels qui compromettent le réalisme. Bien qu'un pré-entraînement plus approfondi et des modèles plus volumineux puissent réduire ces artefacts, rien ne garantit leur élimination complète, ce qui fait de l'atténuation des artefacts un domaine de recherche crucial. Les méthodologies antérieures, conscientes des artefacts, dépendent de jeux de données d'artefacts annotés manuellement, ce qui est coûteux et difficile à mettre à l'échelle, soulignant le besoin d'une approche automatisée pour acquérir de manière fiable des jeux de données annotés. Dans cet article, nous proposons ArtiAgent, qui crée efficacement des paires d'images réelles et d'images injectées avec des artefacts. Il comprend trois agents : un agent de perception qui reconnaît et localise les entités et sous-entités dans les images réelles, un agent de synthèse qui introduit des artefacts via des outils d'injection grâce à une nouvelle manipulation par patchs des embeddings au sein d'un transformeur de diffusion, et un agent de curation qui filtre les artefacts synthétisés et génère des explications locales et globales pour chaque instance. En utilisant ArtiAgent, nous synthétisons 100 000 images avec de riches annotations d'artefacts et démontrons à la fois l'efficacité et la polyvalence de notre approche dans diverses applications. Le code est disponible à l'adresse suivante : lien.
Les progrès récents en programmation assistée par l'IA ont permis à des agents d'exécuter des workflows complexes via des interfaces en ligne de commande. Cependant, les benchmarks existants présentent des limites : des horizons de tâches trop courts, une contamination des données due au scraping de GitHub, et un manque de métriques d'évaluation granulaires, ce qui les rend incapables d'évaluer rigoureusement les capacités de planification et d'exécution à long terme essentielles pour l'ingénierie logicielle réaliste. Pour combler ces lacunes, nous présentons LongCLI-Bench, un benchmark complet conçu pour évaluer les capacités des agents sur des tâches réalistes et à long horizon. Nous avons sélectionné 20 tâches de haute qualité et à long horizon parmi plus de 1 000 travaux pratiques en informatique et workflows réels, couvrant quatre catégories d'ingénierie : développement à partir de zéro, ajout de fonctionnalités, correction de bugs et refactorisation. Nous proposons un protocole de test à double entrée pour LongCLI-Bench, qui mesure la satisfaction des exigences (échec-vers-réussite) et l'évitement des régressions (réussite-vers-réussite), et intègre un scoring étape par étape pour identifier précisément les échecs d'exécution. Des expériences approfondies révèlent que même les agents les plus avancés obtiennent des taux de réussite inférieurs à 20 % sur LongCLI-Bench. L'analyse étape par étape indique en outre que la majorité des tâches stagnent à moins de 30 % d'avancement, soulignant que les échecs critiques surviennent souvent dès les premières phases. Bien que l'auto-correction apporte des gains marginaux, la collaboration humain-agent via l'injection de plans et le guidage interactif permet des améliorations significativement plus importantes. Ces résultats soulignent que les recherches futures doivent accentuer le développement de workflows synergiques humain-agent parallèlement aux progrès dans les capacités de planification et d'exécution des agents pour surmonter les défis clés de la performance sur des tâches à long horizon.
La plupart des benchmarks de recommandation évaluent la capacité d'un modèle à imiter le comportement des utilisateurs. Cependant, dans le conseil financier, les actions observées peuvent être bruitées ou myopes en période de volatilité des marchés et peuvent entrer en conflit avec les objectifs à long terme de l'utilisateur. Considérer les choix des utilisateurs comme la seule vérité de référence confond donc l'imitation comportementale avec la qualité décisionnelle. Nous présentons Conv-FinRe, un benchmark conversationnel et longitudinal pour la recommandation d'actions qui évalue les LLMs au-delà de l'adéquation comportementale. Sur la base d'un entretien d'intégration, d'un contexte de marché séquentiel et de dialogues de conseil, les modèles doivent générer des classements sur un horizon d'investissement fixe. Fait crucial, Conv-FinRe fournit des références multi-angles qui distinguent le comportement descriptif de l'utilité normative fondée sur les préférences de risque spécifiques à l'investisseur, permettant de diagnostiquer si un LLM suit une analyse rationnelle, imite le bruit utilisateur ou est influencé par le momentum du marché. Nous construisons le benchmark à partir de données de marché réelles et de trajectoires décisionnelles humaines, matérialisons des conversations de conseil contrôlées et évaluons une série de LLMs de pointe. Les résultats révèlent une tension persistante entre la qualité décisionnelle rationnelle et l'alignement comportemental : les modèles performants sur le classement basé sur l'utilité échouent souvent à correspondre aux choix des utilisateurs, tandis que les modèles alignés comportementalement peuvent surajuster le bruit à court terme. Le jeu de données est publiquement disponible sur Hugging Face, et le code source est accessible sur GitHub.
Les agents LLM sont de plus en plus appelés à fonctionner comme des systèmes polyvalents capables de résoudre des requêtes utilisateur ouvertes. Si les benchmarks existants se concentrent sur des environnements spécialisés pour développer des agents experts, l'évaluation d'agents polyvalents nécessite des cadres plus réalistes qui les mettent au défi d'opérer à travers plusieurs compétences et outils dans un environnement unifié. Nous présentons General AgentBench, un benchmark fournissant un tel cadre unifié pour évaluer les agents LLM généraux dans les domaines de la recherche, du codage, du raisonnement et de l'utilisation d'outils. En utilisant General AgentBench, nous étudions systématiquement les comportements de mise à l'échelle au moment du test sous l'échelle séquentielle (interaction itérative) et l'échelle parallèle (échantillonnage de multiples trajectoires). L'évaluation de dix agents LLM leaders révèle une dégradation substantielle des performances lors du passage d'évaluations spécialisées à ce cadre d'agent général. De plus, nous constatons qu'aucune méthodologie de mise à l'échelle ne produit d'améliorations efficaces des performances en pratique, en raison de deux limitations fondamentales : le plafond contextuel dans l'échelle séquentielle et le déficit de vérification dans l'échelle parallèle. Le code est disponible publiquement à l'adresse https://github.com/cxcscmu/General-AgentBench.
L'ajustement à l'inférence peut améliorer les performances du modèle en agrégeant des trajectoires de raisonnement stochastiques. Cependant, atteindre une auto-cohérence à l'inférence efficace en échantillons sous un budget limité reste un défi non résolu. Nous présentons PETS (Principled and Efficient Test-Time Self-Consistency), qui initie une étude principielle de l'allocation des trajectoires via un cadre d'optimisation. Au cœur de notre approche se trouve le taux d'auto-cohérence, une nouvelle mesure définie comme l'accord avec le vote majoritaire à budget infini. Cette formulation donne une base théorique à l'allocation efficace en échantillons à l'inférence et la rend propice à une analyse rigoureuse. Nous étudions les régimes hors-ligne et en-ligne. Dans le régime hors-ligne, où toutes les questions sont connues à l'avance, nous relions l'allocation des trajectoires au crowdsourcing, un domaine classique et bien développé, en modélisant les traces de raisonnement comme des travailleurs. Cette perspective nous permet de tirer parti d'une théorie existante riche, produisant des garanties théoriques et un algorithme d'allocation efficace basé sur le vote majoritaire. Dans le régime de flux en-ligne, où les questions arrivent séquentiellement et les allocations doivent être faites à la volée, nous proposons une nouvelle méthode inspirée par le cadre hors-ligne. Notre approche adapte les budgets à la difficulté des questions tout en préservant de solides garanties théoriques et une efficacité computationnelle. Les expériences montrent que PETS surpasse constamment l'allocation uniforme. Sur GPQA, PETS atteint une auto-cohérence parfaite dans les deux régimes tout en réduisant le budget d'échantillonnage jusqu'à 75% (hors-ligne) et 55% (en-ligne) par rapport à l'allocation uniforme. Le code est disponible à l'adresse https://github.com/ZDCSlab/PETS.
Les agents de modèles de langage (LM) ont démontré des capacités remarquables pour résoudre des tâches nécessitant de multiples interactions avec l'environnement. Cependant, ils restent vulnérables dans des environnements où une seule erreur conduit souvent à un échec irrécupérable, particulièrement sous des contraintes de faisabilité strictes. Nous analysons systématiquement les cadres d'agents existants, identifiant la planification imparfaite et l'exécution stochastique comme causes principales. Pour relever ces défis, nous proposons la Planification Adaptative Guidée par les Outils avec Exécution Contrainte (TAPE). TAPE améliore la capacité de planification en agrégeant plusieurs plans en un graphe et en utilisant un solveur externe pour identifier un chemin réalisable. Durant l'exécution, TAPE utilise un décodage contraint pour réduire le bruit d'échantillonnage, tout en replanifiant de manière adaptive dès que la rétroaction environnementale s'écarte de l'état souhaité. Les expériences sur Sokoban, ALFWorld, MuSiQue et GSM8K-Hard démontrent que TAPE surpasse constamment les cadres existants, avec des gains particulièrement importants sur les configurations difficiles, améliorant les taux de réussite de 21,0 points de pourcentage en moyenne sur les configurations difficiles, et de 20,0 points de pourcentage en moyenne pour les modèles de base plus faibles. Code et données disponibles ici.
Les grands modèles de langage (LLM) bénéficient systématiquement d'un raisonnement en chaîne de pensée (CoT) mis à l'échelle, mais souffrent également de lourdes surcharges computationnelles. Pour résoudre ce problème, le raisonnement efficace vise à encourager des trajectoires de pensée courtes mais précises, généralement par le biais d'un façonnage de récompense avec l'apprentissage par renforcement (RL). Dans cet article, nous étudions systématiquement les mécanismes du raisonnement efficace pour les LLM. Pour une évaluation complète, nous préconisons des métriques plus granulaires, incluant la distribution des longueurs conditionnée par la justesse et les performances sur un large spectre de budgets en tokens allant de 2k à 32k. Premièrement, nous révélons que le processus d'entraînement suit un paradigme en deux étapes : l'adaptation de la longueur et l'affinage du raisonnement. Ensuite, nous menons des expériences approfondies (environ 0,2 million d'heures GPU) dans un protocole unifié, en déconstruisant les invites d'entraînement et les déroulements, le façonnage des récompenses et les stratégies d'optimisation. Une découverte clé est notamment la nécessité de s'entraîner sur des invites relativement plus simples, garantissant ainsi la densité des signaux de récompense positifs et évitant l'effondrement de la longueur. Parallèlement, le biais de longueur appris peut être généralisé à travers différents domaines. Nous condensons toutes ces découvertes en insights précieux et en directives pratiques, et les validons ensuite à travers la série Qwen3, allant de 0,6B à 30B, démontrant ainsi la robustesse et la généralisation.
Des algorithmes de récupération comme BM25 et le modèle de vraisemblance de requête avec lissage de Dirichlet demeurent des classificateurs de première étape solides et efficaces, mais les améliorations ont surtout reposé sur le réglage des paramètres et l'intuition humaine. Nous étudions si un grand modèle de langage, guidé par un évaluateur et une recherche évolutive, peut découvrir automatiquement des algorithmes de récupération lexicale améliorés. Nous présentons RankEvolve, un cadre d'évolution de programmes basé sur AlphaEvolve, dans lequel les algorithmes de classement candidats sont représentés sous forme de code exécutable et sont mutés, recombinés et sélectionnés itérativement sur la base de leurs performances de récupération sur 12 jeux de données RI issus de BEIR et BRIGHT. RankEvolve part de deux programmes de base : BM25 et le modèle de vraisemblance de requête avec lissage de Dirichlet. Les algorithmes évolués sont nouveaux, efficaces et montrent un transfert prometteur vers les benchmarks complets de BEIR et BRIGHT, ainsi que vers TREC DL 19 et 20. Nos résultats suggèrent que l'évolution de programmes par grands modèles de langage guidée par un évaluateur est une voie pratique vers la découverte automatique de nouveaux algorithmes de classement.
Nous rapportons les performances d'Aletheia (Feng et al., 2026b), un agent de recherche mathématique reposant sur Gemini 3 Deep Think, lors du premier défi FirstProof. Dans le temps imparti par le défi, Aletheia a résolu de manière autonome 6 problèmes (2, 5, 7, 8, 9, 10) sur 10 selon l'évaluation majoritaire d'experts ; nous notons que les experts n'ont pas été unanimes uniquement pour le problème 8. Pour une transparence totale, nous expliquons notre interprétation du défi FirstProof et divulguons les détails de nos expériences ainsi que de notre évaluation. Les invites brutes et les sorties sont disponibles à l'adresse https://github.com/google-deepmind/superhuman/tree/main/aletheia.
Le traitement efficace de longues séquences avec les modèles Transformer nécessite généralement une répartition des calculs sur plusieurs accélérateurs via le parallélisme de contexte. Les approches dominantes de cette famille de méthodes, telles que Ring Attention ou DeepSpeed Ulysses, permettent une mise à l'échelle selon la dimension contextuelle mais ne se concentrent pas sur l'efficacité mémoire, ce qui limite les longueurs de séquence qu'elles peuvent supporter. Des techniques plus avancées, comme le Transformer Distribué Entièrement Pipeline ou le déchargement des activations, peuvent encore étendre la longueur contextuelle possible au détriment du débit d'entraînement. Dans cet article, nous présentons UPipe, une technique de parallélisme de contexte simple mais efficace qui effectue un découpage fin au niveau des têtes d'attention. Cette technique réduit significativement l'utilisation de mémoire des activations dans l'auto-attention, brisant la barrière mémoire des activations et permettant d'atteindre des longueurs contextuelles bien supérieures. Notre approche réduit l'utilisation mémoire des tenseurs intermédiaires dans la couche d'attention jusqu'à 87,5 % pour des Transformers de 32 milliards de paramètres, tout en égalant les techniques de parallélisme de contexte précédentes en termes de vitesse d'entraînement. UPipe peut supporter une longueur contextuelle de 5 millions de tokens lors de l'entraînement de Llama3-8B sur un seul nœud 8×H100, améliorant les méthodes antérieures de plus de 25 %.
Les modèles de langage basés sur la diffusion discrète ont suscité un intérêt considérable pour leur potentiel à générer du texte plus rapidement que les modèles autorégressifs. Cependant, en pratique, ils présentent une dégradation marquée de la qualité des échantillons dans un régime à faible nombre d'étapes, ne permettant pas de concrétiser cette promesse. Nous démontrons ici que les modèles de langage exploitant le dé-bruitage continu basé sur les flux peuvent surpasser la diffusion discrète à la fois en qualité et en vitesse. En revisitant les fondamentaux des flux pour les modalités discrètes, nous construisons un modèle de langage à flux (FLM) qui effectue un dé-bruitage Euclidien sur des encodages one-hot de tokens. Nous montrons que le modèle peut être entraîné en prédisant les données propres via un objectif d'entropie croisée, pour lequel nous introduisons une reparamétrisation temporelle simple qui améliore considérablement la stabilité de l'entraînement et la qualité de la génération. En distillant le FLM dans sa carte de flux associée, nous obtenons un modèle de langage à carte de flux distillée (FMLM) capable de génération en peu d'étapes. Sur les ensembles de données linguistiques LM1B et OWT, le FLM atteint une qualité de génération équivalente aux modèles de diffusion discrets de pointe. Avec le FMLM, notre approche surpasse systématiquement les modèles de langage récents à faible nombre d'étapes, la génération en une seule étape dépassant leur qualité en 8 étapes. Notre travail remet en question l'hypothèse largement répandue que les processus de diffusion discrets sont nécessaires pour la modélisation générative sur des modalités discrètes, et ouvre la voie vers une modélisation du langage basée sur les flux à grande échelle et accélérée. Le code est disponible à l'adresse https://github.com/david3684/flm.
Les requêtes réelles adressées aux agents d'IA sont fondamentalement sous-spécifiées. La communication humaine naturelle s'appuie sur un contexte partagé et des contraintes implicites que les locuteurs s'attendent à voir inférées par leurs interlocuteurs. Les benchmarks actuels pour agents évaluent la capacité à suivre des instructions explicites, mais n'évaluent pas si les agents peuvent raisonner sur des exigences implicites couvrant les besoins d'accessibilité, les limites de confidentialité, les risques catastrophiques et les contraintes contextuelles. Nous présentons Implicit Intelligence, un cadre d'évaluation testant si les agents d'IA peuvent dépasser l'exécution littérale de requêtes pour devenir de véritables pourvoyeurs de buts, couplé à Agent-as-a-World (AaW), un environnement où des mondes interactifs sont définis dans des fichiers YAML lisibles par l'homme et simulés par des modèles de langage. Nos scénarios présentent une simplicité apparente dans les requêtes utilisateur, une complexité cachée dans les solutions correctes, et une découvrabilité des contraintes via l'exploration environnementale. L'évaluation de 16 modèles de pointe et open-weight sur 205 scénarios révèle que même le modèle le plus performant n'atteint qu'un taux de réussite de 48,3%, montrant qu'il reste une marge d'amélioration substantielle pour combler l'écart entre le suivi littéral d'instructions et le raisonnement contextuel de type humain.
Les LLM incarnés dotent les robots d'une capacité de raisonnement avancée pour les tâches, mais ils ne peuvent pas réfléchir à ce qui a mal fonctionné ou pourquoi, transformant le déploiement en une série d'essais indépendants où les erreurs se répètent plutôt que de s'accumuler en expérience. En nous inspirant des praticiens réflexifs humains, nous introduisons la Planification Réflexive en Temps Réel, qui intègre deux modes de réflexion : la réflexion-en-action, où l'agent utilise une mise à l'échelle en temps réel pour générer et évaluer plusieurs actions candidates via des réflexions internes avant exécution ; et la réflexion-sur-l'action, qui utilise l'apprentissage en temps réel pour mettre à jour à la fois son modèle de réflexion interne et sa politique d'action sur la base de réflexions externes après exécution. Nous incluons également la réflexion rétrospective, permettant à l'agent de réévaluer ses décisions antérieures et d'effectuer des mises à jour du modèle a posteriori pour une attribution correcte des crédits sur le long terme. Les expériences sur notre nouveau benchmark Long-Horizon Household et sur le benchmark MuJoCo Cupboard Fitting montrent des gains significatifs par rapport aux modèles de référence, avec des études ablatives validant les rôles complémentaires de la réflexion-en-action et de la réflexion-sur-l'action. Les analyses qualitatives, incluant des essais sur robots réels, mettent en évidence les corrections comportementales permises par la réflexion.
Les tokeniseurs d'images discrets sont devenus un composant clé des systèmes modernes de vision et multimodaux, fournissant une interface séquentielle pour les architectures basées sur des transformateurs. Cependant, la plupart des approches existantes restent principalement optimisées pour la reconstruction et la compression, produisant souvent des tokens qui capturent des textures locales plutôt qu'une structure sémantique au niveau des objets. Inspirés par la nature incrémentale et compositionnelle de la communication humaine, nous présentons COMmunication inspired Tokenization (COMiT), un cadre d'apprentissage pour des séquences de tokens visuels discrets structurées. COMiT construit un message latent dans un budget de tokens fixe en observant itérativement des régions localisées de l'image et en mettant à jour de manière récurrente sa représentation discrète. À chaque étape, le modèle intègre de nouvelles informations visuelles tout en affinant et réorganisant la séquence de tokens existante. Après plusieurs itérations d'encodage, le message final conditionne un décodeur à appariement de flux qui reconstruit l'image complète. L'encodage et le décodage sont implémentés au sein d'un unique modèle transformeur et entraînés de bout en bout en utilisant une combinaison de pertes de reconstruction par appariement de flux et d'alignement de représentation sémantique. Nos expériences démontrent que si l'alignement sémantique fournit un ancrage, une tokenisation séquentielle attentive est cruciale pour induire une structure de tokens interprétable et centrée sur les objets, améliorant substantiellement la généralisation compositionnelle et le raisonnement relationnel par rapport aux méthodes antérieures.
La prédiction du temps d'immobilisation des conteneurs à l'importation (TICI) est une tâche clé pour améliorer la productivité des terminaux portuaires, car des prévisions précises permettent de réduire les opérations de réarrangement des conteneurs par les grues de parc. Atteindre cet objectif nécessite de prédire avec précision le temps d'immobilisation de chaque conteneur. Cependant, les principaux déterminants de ce temps – les informations sur le propriétaire et la cargaison – sont enregistrés sous forme de texte non structuré, ce qui limite leur utilisation efficace dans les modèles d'apprentissage automatique. Cette étude résout cette limitation en proposant un cadre collaboratif intégrant l'intelligence artificielle générative (IA générative) à l'apprentissage automatique. Le cadre proposé utilise l'IA générative pour standardiser les informations non structurées en codes internationaux standard, avec une re-prédiction dynamique déclenchée par les mises à jour de l'échange de données informatisé, permettant au modèle d'apprentissage automatique de prédire le TICI avec précision. Des expériences approfondies sur des données réelles de terminal portuaire démontrent que la méthodologie proposée améliore l'erreur absolue moyenne de 13,88 % par rapport aux modèles conventionnels n'utilisant pas d'informations standardisées. De plus, l'application des prévisions améliorées aux stratégies d'empilage des conteneurs permet de réduire jusqu'à 14,68 % le nombre de réallocations, validant ainsi empiriquement le potentiel de l'IA générative pour améliorer la productivité des opérations terminalières. Globalement, cette étude offre des perspectives techniques et méthodologiques sur l'adoption de l'IA générative dans la logistique portuaire et son efficacité.
La modélisation du mouvement rachidien est fondamentale pour comprendre la biomécanique humaine, mais reste sous-explorée en vision par ordinateur en raison de la cinématique multi-articulaire complexe de la colonne vertébrale et du manque d'annotations 3D à grande échelle. Nous présentons un cadre de simulation de points-clés conscient de la biomécanique qui enrichit les ensembles de données de pose humaine existants avec des points-clés rachidiens 3D anatomiquement cohérents, dérivés de la modélisation musculosquelettique. En utilisant ce cadre, nous créons le premier ensemble de données ouvert, nommé SIMSPINE, qui fournit des annotations rachidiennes 3D éparses au niveau vertébral pour des mouvements corporels complets naturels, capturés en intérieur par multicaméra sans contraintes externes. Avec 2,14 millions d'images, cela permet l'apprentissage basé sur les données de la cinématique vertébrale à partir de variations posturales subtiles et comble le fossé entre la simulation musculosquelettique et la vision par ordinateur. De plus, nous publions des modèles de référence pré-entraînés couvrant des détecteurs 2D affinés, des modèles de relèvement de pose 3D monoculaires et des pipelines de reconstruction multi-vues, établissant ainsi un benchmark unifié pour l'estimation biomécaniquement valide du mouvement rachidien. Concrètement, nos modèles de référence 2D pour la colonne améliorent l'état de l'art de 0,63 à 0,80 AUC en environnements contrôlés, et de 0,91 à 0,93 AP pour le suivi rachidien en conditions réelles. Ensemble, le cadre de simulation et l'ensemble de données SIMSPINE font progresser la recherche en biomécanique basée sur la vision, l'analyse du mouvement et la modélisation humaine numérique en permettant une estimation rachidienne 3D reproductible et anatomiquement fondée dans des conditions naturelles.
Les modèles de diffusion discrets à états uniformes excellent dans la génération en peu d'étapes et le guidage grâce à leur capacité d'auto-correction, ce qui les rend préférables aux modèles autogressifs ou de diffusion masquée dans ces contextes. Cependant, leur qualité d'échantillonnage plafonne avec les échantillonneurs ancestraux lorsque le nombre d'étapes augmente. Nous introduisons une famille d'échantillonneurs Prédicteur-Correcteur (PC) pour la diffusion discrète qui généralise les méthodes antérieures et s'applique à des processus de bruit arbitraires. Associés à la diffusion à états uniformes, nos échantillonneurs surpassent l'échantillonnage ancestral à la fois en modélisation du langage et d'images, obtenant une perplexité générative plus faible à entropie unigramme équivalente sur OpenWebText et de meilleurs scores FID/IS sur CIFAR10. Fait crucial, contrairement aux échantillonneurs conventionnels, nos méthodes PC continuent de s'améliorer avec davantage d'étapes d'échantillonnage. Ensemble, ces résultats remettent en question l'hypothèse selon laquelle la diffusion masquée est l'avenir inévitable de la modélisation du langage par diffusion. Au-delà de l'échantillonnage, nous développons un curriculum économe en mémoire pour la phase d'entraînement par relaxation gaussienne, réduisant le temps d'entraînement de 25% et la mémoire de 33% par rapport à Duo tout en maintenant une perplexité comparable sur OpenWebText et LM1B et de solides performances en aval. Nous publions le code, les points de contrôle et un tutoriel vidéo sur : https://s-sahoo.com/duo-ch2
La reconnaissance optique de caractères (OCR) a progressé rapidement grâce à l'apprentissage profond et aux modèles multimodaux, mais la plupart des méthodes se concentrent sur des écritures bien dotées en ressources comme le latin et le chinois. Les langues des minorités ethniques restent sous-étudiées en raison de systèmes d'écriture complexes, d'annotations rares et de formes historiques et modernes variées, ce qui rend la généralisation dans des contextes à faibles ressources ou en zero-shot difficile. Pour relever ces défis, nous présentons OmniOCR, un cadre universel pour les écritures des minorités ethniques. OmniOCR introduit l'Adaptation Dynamique de Bas Rang (Dynamic LoRA) pour allouer la capacité du modèle entre les couches et les écritures, permettant une adaptation efficace tout en préservant les connaissances. Une régularisation de parcimonie élimine les mises à jour redondantes, garantissant une adaptation compacte et efficace sans coût d'inférence supplémentaire. Les évaluations sur TibetanMNIST, Shui, Yi ancien et Dongba montrent qu'OmniOCR surpasse les modèles de base en zero-shot et l'apprentissage postérieur standard, atteignant une précision de pointe avec une efficacité paramétrique supérieure, et comparé aux modèles de référence actuels, il améliore la précision de 39% à 66% sur ces quatre jeux de données. Code : https://github.com/AIGeeksGroup/OmniOCR.
Les grands modèles de vision et langage (VLM) ont démontré un potentiel significatif pour les tâches complexes de compréhension visuelle grâce à des méthodes d'optimisation itératives. Cependant, ces modèles manquent généralement de mécanismes efficaces d'auto-correction, ce qui les empêche de rectifier indépendamment leurs biais cognitifs. Par conséquent, lors de révisions multi-tours, ils tombent souvent dans des tentatives répétitives et inefficaces, ne parvenant pas à réaliser des améliorations stables de la qualité des réponses. Pour résoudre ce problème, nous proposons un nouveau cadre d'auto-correction itératif dotant les modèles de deux capacités clés : la Réflexion sur les Capacités et la Réflexion sur la Mémoire. Ce cadre guide le modèle pour d'abord diagnostiquer les erreurs et générer un plan de correction via la Réflexion sur les Capacités, puis exploiter la Réflexion sur la Mémoire pour examiner les tentatives passées afin d'éviter la répétition et d'explorer de nouvelles solutions, et enfin, optimiser la réponse par un raisonnement rigoureux. Les expériences sur le benchmark exigeant OCRBench v2 montrent qu'OCR-Agent surpasse le modèle SOTA open-source actuel InternVL3-8B de +2,0 sur les sous-ensembles anglais et de +1,2 sur les sous-ensembles chinois, tout en obtenant des résultats state-of-the-art en Compréhension Visuelle (79,9) et Raisonnement (66,5) - dépassant même des modèles plus grands et fine-tunés. Notre méthode démontre qu'une réflexion structurée et consciente d'elle-même peut significativement améliorer la robustesse du raisonnement des VLM sans apprentissage supplémentaire. Code : https://github.com/AIGeeksGroup/OCR-Agent.
L'anonymisation de documents textuels est un problème hautement sensible au contexte : l'équilibre approprié entre la protection de la vie privée et la préservation de l'utilité varie selon le domaine des données, les objectifs de confidentialité et l'application en aval. Cependant, les méthodes d'anonymisation existantes reposent sur des stratégies statiques, conçues manuellement, qui manquent de flexibilité pour s'adapter à des exigences diverses et échouent souvent à généraliser entre les domaines. Nous introduisons l'anonymisation de texte adaptative, une nouvelle formulation de tâche dans laquelle les stratégies d'anonymisation sont automatiquement adaptées à des exigences spécifiques de confidentialité-utilité. Nous proposons un cadre d'optimisation d'invites spécifique à la tâche qui construit automatiquement des instructions d'anonymisation pour les modèles de langage, permettant une adaptation à différents objectifs de confidentialité, domaines et modes d'utilisation en aval. Pour évaluer notre approche, nous présentons un benchmark couvrant cinq jeux de données avec des domaines, des contraintes de confidentialité et des objectifs d'utilité variés. Dans tous les scénarios évalués, notre cadre atteint constamment un meilleur compromis confidentialité-utilité que les bases de référence existantes, tout en restant efficace sur le plan computationnel et performant sur les modèles de langage open source, avec une performance comparable à des modèles fermés plus volumineux. De plus, nous montrons que notre méthode peut découvrir de nouvelles stratégies d'anonymisation qui explorent différents points le long de la frontière des compromis confidentialité-utilité.
La restitution visuelle de texte (VRT) reste un défi majeur dans la génération d'images à partir de texte, où même les modèles avancés produisent fréquemment du texte présentant des anomalies structurelles telles que des distorsions, des flous et des désalignements. Cependant, nous constatons que les MLLM leaders et les modèles spécialisés en OCR échouent largement à percevoir ces anomalies structurelles, créant un goulot d'étranglement critique pour l'évaluation de la VRT et l'optimisation par apprentissage par renforcement. Par conséquent, même les générateurs les plus performants (par exemple, SeedDream4.0, Qwen-Image) peinent encore à restituer un texte structurellement fidèle. Pour remédier à cela, nous proposons TextPecker, une stratégie d'AR plug-and-play, perceptive aux anomalies structurelles, qui atténue les signaux de récompense bruités et fonctionne avec n'importe quel générateur texte-image. Pour permettre cette capacité, nous avons constitué un jeu de données de reconnaissance avec des annotations d'anomalies structurelles au niveau des caractères et développé un moteur de synthèse par édition de traits pour étendre la couverture des erreurs structurelles. Les expériences montrent que TextPecker améliore constamment divers modèles de génération texte-image ; même sur Qwen-Image pourtant bien optimisé, il permet des gains moyens significatifs de 4 % en fidélité structurelle et de 8,7 % en alignement sémantique pour la restitution de texte chinois, établissant un nouvel état de l'art en VRT haute fidélité. Notre travail comble une lacune dans l'optimisation de la VRT, constituant une étape fondamentale vers une génération de texte visuel fiable et structurellement fidèle.
Ce papier présente LaS-Comp, une approche zero-shot et agnostique aux catégories qui exploite les riches préconnaissances géométriques des modèles de fondation 3D pour permettre la complétion de formes 3D sur divers types d'observations partielles. Nos contributions sont triples : Premièrement, elle exploite ces puissants a priori génératifs pour la complétion via une conception en deux étapes complémentaires : (i) une étape de remplacement explicite qui préserve la géométrie de l'observation partielle pour assurer une complétion fidèle ; et (ii) une étape de raffinement implicite qui garantit des frontières homogènes entre les régions observées et synthétisées. Deuxièmement, notre cadre est exempt d'apprentissage et compatible avec différents modèles de fondation 3D. Troisièmement, nous introduisons Omni-Comp, un benchmark complet combinant des données réelles et synthétiques avec des motifs partiaux diversifiés et exigeants, permettant une évaluation plus approfondie et réaliste. Les expériences quantitatives et qualitatives démontrent que notre approche surpasse les méthodes de l'état de l'art précédentes. Notre code et nos données seront disponibles à l'adresse https://github.com/DavidYan2001/LaS-Comp.
La demande croissante pour les grands modèles de langage (LLM) exige des systèmes de service qu'ils gèrent de nombreuses requêtes concurrentes avec des objectifs de niveau de service (SLO) diversifiés. Cela exacerbe le blocage en tête de ligne (HoL) pendant la phase de pré-remplissage intensive en calcul, où les requêtes de longue durée monopolisent les ressources et retardent celles de priorité plus élevée, entraînant des violations généralisées des SLO sur le temps jusqu'au premier jeton (TTFT). Bien que le pré-remplissage par blocs permette l'interruptibilité, il introduit un compromis inhérent entre la réactivité et le débit : réduire la taille des blocs améliore la latence de réponse mais dégrade l'efficacité computationnelle, tandis qu'augmenter la taille des blocs maximise le débit mais aggrave le blocage. Cela nécessite un mécanisme de préemption adaptatif. Cependant, équilibrer dynamiquement la granularité de l'exécution avec les surcharges d'ordonnancement reste un défi majeur. Dans cet article, nous proposons FlowPrefill, un système de service optimisé pour le TTFT et le bon débit qui résout ce conflit en découplant la granularité de la préemption de la fréquence d'ordonnancement. Pour parvenir à un ordonnancement de pré-remplissage adaptatif, FlowPrefill introduit deux innovations clés : 1) La Préemption au Niveau de l'Opérateur, qui exploite les limites des opérateurs pour permettre une interruption fine de l'exécution sans la perte d'efficacité associée au découpage fixe en petits blocs ; et 2) l'Ordonnancement Piloté par les Événements, qui déclenche les décisions d'ordonnancement uniquement lors des événements d'arrivée ou d'achèvement des requêtes, supportant ainsi une réactivité de préemption efficace tout en minimisant la surcharge du plan de contrôle. L'évaluation sur des traces de production réelles montre que FlowPrefill améliore le bon débit maximal jusqu'à 5,6 fois par rapport aux systèmes de l'état de l'art tout en satisfaisant des SLO hétérogènes.
La détection des données d'entraînement des LLM est généralement abordée comme un problème d'attaque par inférence d'appartenance (MIA). Cependant, les MIA conventionnelles opèrent passivement sur des poids de modèle fixes, en utilisant les log-vraisemblances ou les générations de texte. Dans ce travail, nous présentons l'Attaque Active par Reconstruction des Données (ADRA), une famille de MIA qui amène activement un modèle à reconstruire un texte donné via un entraînement. Nous faisons l'hypothèse que les données d'entraînement sont plus reconstructibles que les non-membres, et que la différence de reconstructibilité peut être exploitée pour l'inférence d'appartenance. Motivés par les résultats montrant que l'apprentissage par renforcement (RL) accentue les comportements déjà encodés dans les poids, nous utilisons du RL sur-politique pour provoquer activement la reconstruction des données en affinant une politique initialisée à partir du modèle cible. Pour utiliser efficacement le RL dans le cadre des MIA, nous concevons des métriques de reconstruction et des récompenses contrastives. Les algorithmes résultants, ADRA et sa variante adaptive ADRA+, améliorent à la fois la reconstruction et la détection étant donné un ensemble de données candidates. Les expériences montrent que nos méthodes surpassent constamment les MIA existantes pour détecter les données de pré-entraînement, de post-entraînement et de distillation, avec une amélioration moyenne de 10,7 % par rapport au précédent finaliste. En particulier, ADRA+ améliore Min-K%++ de 18,8 % sur BookMIA pour la détection en pré-entraînement et de 7,6 % sur AIME pour la détection en post-entraînement.