HuggingFace Daily Papers

Articles du Jour

Articles de recherche IA sélectionnés quotidiennement avec traductions

Sélectionner une date

18 papers found

VESPO : Optimisation Variationnelle de Politique Douce au Niveau Séquentiel pour un Entraînement Stable de LLM Hors-Politique
VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Feb 11

ByGuobin Shen, Chenxiao Zhao, Xiang Cheng, Lei Huang, Xing Yu

158

La stabilité de l'entraînement demeure un défi central dans l'apprentissage par renforcement (RL) pour les grands modèles de langage (LLM). La vétusté des politiques, l'entraînement asynchrone et les décalages entre les moteurs d'entraînement et d'inférence provoquent tous une divergence entre la politique comportementale et la politique actuelle, risquant un effondrement de l'entraînement. L'échantillonnage par importance fournit une correction théorique à ce décalage de distribution mais souffre d'une variance élevée ; les remèdes existants tels que le clipping au niveau des tokens et la normalisation au niveau des séquences manquent d'une fondation théorique unifiée. Nous proposons l'Optimisation Variationnelle des Politiques Douces au Niveau des Séquences (VESPO). En intégrant la réduction de variance dans une formulation variationnelle sur les distributions de proposition, VESPO dérive un noyau de remodelage en forme close qui opère directement sur les poids d'importance au niveau des séquences sans normalisation de longueur. Les expériences sur des benchmarks de raisonnement mathématique montrent que VESPO maintient un entraînement stable avec des ratios de vétusté allant jusqu'à 64x et une exécution totalement asynchrone, et offre des gains constants à la fois pour les modèles denses et les modèles Mixture-of-Experts. Le code est disponible à l'adresse https://github.com/FloyedShen/VESPO

Votre modèle de raisonnement sait-il implicitement quand arrêter de réfléchir ?
Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Feb 9

ByZixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang, Zhixia Zhang, Hongyan Xie, Songshi Liang, Zehao Chen, Xuefeng Xiao, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang

Les récentes avancées des grands modèles de raisonnement (LRM) ont considérablement amélioré leurs capacités sur les tâches de raisonnement complexe grâce aux longues chaînes de raisonnement (CoT). Cependant, cette approche génère souvent une redondance substantielle, nuisant à l'efficacité computationnelle et causant des délais significatifs dans les applications en temps réel. Des études récentes montrent que des chaînes de raisonnement plus longues sont souvent non corrélées avec l'exactitude et peuvent même nuire à la précision. Dans une analyse plus approfondie de ce phénomène, nous découvrons et vérifions empiriquement, de manière surprenante, que les LRM savent implicitement quand il est approprié d'arrêter de réfléchir, bien que cette capacité soit masquée par les paradigmes d'échantillonnage actuels. Motivés par cette constatation, nous introduisons SAGE (Raisonnement Efficace Guidé par Auto-conscience), un nouveau paradigme d'échantillonnage qui libère ce potentiel de raisonnement efficace. De plus, l'intégration de SAGE en tant qu'échantillonnage mixte dans l'apprentissage par renforcement par groupes (SAGE-RL) permet à SAGE-RL d'incorporer efficacement les schémas de raisonnement efficaces découverts par SAGE dans l'inférence standard pass@1, améliorant ainsi notablement à la fois la précision du raisonnement et l'efficacité des LRM sur plusieurs benchmarks mathématiques exigeants.

Réalité Générée : Simulation du Monde Centrée sur l'Humain par la Génération Interactive de Vidéo avec Contrôle Manuel et Caméra
Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Feb 20

ByLinxi Xie, Lisong C. Sun, Ashley Neall, Tong Wu, Shengqu Cai, Gordon Wetzstein

La réalité étendue (XR) nécessite des modèles génératifs qui répondent aux mouvements du monde réel suivis des utilisateurs. Pourtant, les modèles vidéo mondiaux actuels n'acceptent que des signaux de contrôle grossiers tels que du texte ou une entrée clavier, limitant ainsi leur utilité pour l'interaction incarnée. Nous présentons un modèle vidéo mondial centré sur l'humain qui est conditionné à la fois par la pose de la tête suivie et par les poses des mains au niveau articulaire. À cette fin, nous évaluons les stratégies de conditionnement existantes pour les transformeurs à diffusion et proposons un mécanisme efficace pour le contrôle tridimensionnel de la tête et des mains, permettant des interactions habiles main-objet. Nous entraînons un enseignant modèle de diffusion vidéo bidirectionnel en utilisant cette stratégie et le distillons en un système interactif causal qui génère des environnements virtuels égocentriques. Nous évaluons ce système de réalité générée avec des sujets humains et démontrons une amélioration des performances des tâches ainsi qu'un niveau significativement plus élevé de sentiment de contrôle perçu sur les actions effectuées par rapport à des bases de référence pertinentes.

Parcourir l'espace d'analogie visuelle avec une base pondérée de LoRAs
Spanning the Visual Analogy Space with a Weight Basis of LoRAs

Feb 17

ByHila Manor, Rinon Gal, Haggai Maron, Tomer Michaeli, Gal Chechik

L'apprentissage par analogie visuelle permet la manipulation d'images par démonstration plutôt que par description textuelle, permettant aux utilisateurs de spécifier des transformations complexes difficiles à articuler verbalement. Étant donné un triplet {a, a', b}, l'objectif est de générer b' tel que a : a' :: b : b'. Les méthodes récentes adaptent les modèles texte-image à cette tâche en utilisant un unique module d'adaptation bas rang (LoRA), mais elles rencontrent une limitation fondamentale : tenter de capturer l'espace diversifié des transformations visuelles au sein d'un module d'adaptation fixe contraint les capacités de généralisation. Inspirés par des travaux récents montrant que les LoRAs dans des domaines contraints couvrent des espaces sémantiques significatifs et interpolables, nous proposons LoRWeB, une nouvelle approche qui spécialise le modèle pour chaque tâche analogique au moment de l'inférence via une composition dynamique de primitives de transformation apprises, informellement, en choisissant un point dans un « espace de LoRAs ». Nous introduisons deux composants clés : (1) une base apprenable de modules LoRA, pour couvrir l'espace des différentes transformations visuelles, et (2) un encodeur léger qui sélectionne et pondère dynamiquement ces LoRAs de base en fonction de la paire analogique d'entrée. Des évaluations exhaustives démontrent que notre approche atteint des performances à l'état de l'art et améliore significativement la généralisation à des transformations visuelles non vues. Nos résultats suggèrent que les décompositions en base de LoRAs sont une direction prometteuse pour la manipulation visuelle flexible. Le code et les données sont disponibles sur https://research.nvidia.com/labs/par/lorweb

Décodage comme optimisation sur le simplexe de probabilité : des échantillonneurs Top-K aux Top-P (Nucleus) et Best-of-K
Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers

Feb 20

ByXiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou-Ammar

Le décodage se situe entre un modèle de langage et tout ce que nous en faisons, pourtant il est encore traité comme un simple réglage heuristique de paramètres. Nous soutenons que le décodage doit être compris comme une couche d'optimisation fondée sur des principes : à chaque token, nous résolvons un problème régularisé sur le simplexe de probabilité qui équilibre le score du modèle avec des préférences et contraintes structurelles. Ce modèle unique retrouve comme cas particuliers le décodage glouton, l'échantillonnage Softmax, Top-K, Top-P, et la parcimonie de type Sparsemax, et explique leur structure commune via des conditions d'optimalité. Plus important encore, ce cadre permet d'inventer facilement de nouveaux décodeurs sans recourir à des méthodes empiriques. Nous le démontrons en concevant Best-of-K (BoK), un objectif de couverture ancré par la divergence KL visant les pipelines multi-échantillons (autocohérence, reranking, sélection par vérificateur). BoK cible la probabilité de couvrir de bonnes alternatives avec un budget fixe de K échantillons et améliore les performances empiriques. Nous montrons que de tels échantillons peuvent améliorer la précision, par exemple de +18,6 % pour Qwen2.5-Math-7B sur MATH500 à des températures d'échantillonnage élevées.

EgoPush : Apprentissage de la réorganisation multi-objets égocentrique de bout en bout pour robots mobiles
EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Feb 20

ByBoyuan An, Zhexiong Wang, Yipeng Wang, Jiaqi Li, Sihang Li, Jing Zhang, Chen Feng

Les humains peuvent réorganiser des objets dans des environnements encombrés en utilisant une perception égocentrique, en naviguant les occlusions sans coordonnées globales. Inspirés par cette capacité, nous étudions la réorganisation multi-objet non préhensile à long terme pour les robots mobiles en utilisant une seule caméra égocentrique. Nous présentons EgoPush, un cadre d'apprentissage par politiques qui permet une réorganisation égocentrique et pilotée par la perception sans dépendre d'une estimation explicite de l'état global qui échoue souvent dans les scènes dynamiques. EgoPush conçoit un espace latent centré sur les objets pour encoder les relations spatiales relatives entre les objets, plutôt que les poses absolues. Cette conception permet à un enseignant en apprentissage par renforcement (RL) privilégié d'apprendre conjointement les états latents et les actions mobiles à partir de points clés épars, qui sont ensuite distillés en une politique étudiante purement visuelle. Pour réduire l'écart de supervision entre l'enseignant omniscient et l'étudiant partiellement observé, nous restreignons les observations de l'enseignant aux indices visuellement accessibles. Cela induit des comportements de perception active qui sont récupérables du point de vue de l'étudiant. Pour adresser l'attribution de crédit à long terme, nous décomposons la réorganisation en sous-problèmes au niveau des étapes en utilisant des récompenses de complétion locales à l'étape et temporellement décomposées. Des expériences de simulation approfondies démontrent qu'EgoPush surpasse significativement les bases de référence RL de bout en bout en taux de succès, avec des études d'ablation validant chaque choix de conception. Nous démontrons en outre un transfert sim-to-real en zero-shot sur une plateforme mobile dans le monde réel. Le code et les vidéos sont disponibles à l'adresse https://ai4ce.github.io/EgoPush/.

SARAH : Agents Humains Spatiaux en Temps Réel
SARAH: Spatially Aware Real-time Agentic Humans

Feb 20

ByEvonne Ng, Siwei Zhang, Zhang Chen, Michael Zollhoefer, Alexander Richard

Alors que les agents incarnés deviennent centraux dans les applications de réalité virtuelle, de téléprésence et d’humains numériques, leurs mouvements doivent dépasser les gestes synchronisés avec la parole : les agents doivent se tourner vers les utilisateurs, répondre à leurs déplacements et maintenir un regard naturel. Les méthodes actuelles manquent de cette conscience spatiale. Nous comblons cette lacune avec la première méthode temps réel entièrement causale pour un mouvement conversationnel spatialement conscient, déployable sur un casque VR en streaming. À partir de la position d’un utilisateur et d’un signal audio dyadique, notre approche génère un mouvement corporel complet qui synchronise les gestes avec la parole tout en orientant l’agent en fonction de l’utilisateur. Notre architecture combine un VAE à base de transformateur causal avec des tokens latents entrelacés pour l’inférence en flux continu, et un modèle de *flow matching* conditionné par la trajectoire de l’utilisateur et l’audio. Pour prendre en compte différentes préférences de regard, nous introduisons un mécanisme de score du regard avec guidage *classifier-free* afin de découpler l’apprentissage du contrôle : le modèle capture l’alignement spatial naturel à partir des données, tandis que les utilisateurs peuvent ajuster l’intensité du contact visuel au moment de l’inférence. Sur le jeu de données Embody 3D, notre méthode atteint une qualité de mouvement à l’état de l’art à plus de 300 FPS — soit 3 fois plus rapide que les méthodes de référence non causales — tout en capturant la dynamique spatiale subtile des conversations naturelles. Nous validons notre approche sur un système VR en direct, permettant le déploiement en temps réel d’agents conversationnels spatialement conscients. Pour plus de détails, consultez https://evonneng.github.io/sarah/.

Avey-B
Avey-B

Feb 17

ByDevang Acharya, Mohammad Hammoud

Les encodeurs bidirectionnels préentraînés et compacts constituent l'épine dorsale du TAL industriel sous contrainte stricte de calcul et de mémoire. Leur efficacité découle de la capacité de l'auto-attention à fournir une contextualisation bidirectionnelle de haute qualité avec un parallélisme au niveau de la séquence, popularisée par les architectures de type BERT. Récemment, Avey a été introduit comme alternative autoregressive sans attention, admettant naturellement une adaptation en encodeur seul. Dans cet article, nous reformulons Avey pour le paradigme encodeur seul et proposons plusieurs innovations architecturales, incluant des paramétrisations statique et dynamique découplées, une normalisation axée sur la stabilité et une compression neuronale. Les résultats montrent que cette architecture reformulée se compare favorablement à quatre encodeurs basés sur les Transformers largement utilisés, les surpassant systématiquement sur des benchmarks standards de classification de tokens et de recherche d'information, tout en s'adaptant plus efficacement aux contextes longs.

DeepVision-103K : un ensemble de données mathématique visuellement diversifié, à large couverture et vérifiable pour le raisonnement multimodal
DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

Feb 18

ByHaoxiang Sun, Lizhen Xu, Bing Zhao, Wotao Yin, Wei Wang, Boyu Yang, Rui Wang, Hu Wei

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) s'est avéré efficace pour améliorer les capacités de réflexion visuelle et de raisonnement des modèles multimodaux de grande taille (LMM). Cependant, les ensembles de données existants proviennent principalement soit d'une construction manuelle à petite échelle, soit d'une recombinaison de ressources antérieures, ce qui limite la diversité et la couverture des données, entravant ainsi les gains supplémentaires de performance des modèles. Pour pallier cela, nous présentons DeepVision-103K, un ensemble de données complet pour l'entraînement RLVR qui couvre divers sujets mathématiques du primaire au secondaire (K12), de nombreux points de connaissance et des éléments visuels riches. Les modèles entraînés sur DeepVision obtiennent de solides performances sur des benchmarks mathématiques multimodaux et généralisent efficacement à des tâches de raisonnement multimodal général. Une analyse plus poussée révèle des capacités accrues de perception visuelle, de réflexion et de raisonnement chez les modèles entraînés, validant ainsi l'efficacité de DeepVision pour faire progresser le raisonnement multimodal. Données : https://huggingface.co/datasets/skylenage/DeepVision-103K{ce lien}.

VidEoMT : Votre ViT est secrètement aussi un modèle de segmentation vidéo
VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

Feb 19

ByNarges Norouzi, Idil Esen Zulfikar, Niccol`o Cavagnero, Tommie Kerssies, Bastian Leibe, Gijs Dubbelman, Daan de Geus

Les modèles de segmentation vidéo en ligne existants combinent généralement un segmenteur par image avec des modules de suivi spécialisés complexes. Bien qu'efficaces, ces modules introduisent une complexité architecturale et une charge computationnelle importantes. Des études récentes suggèrent que les encodeurs Vision Transformer (ViT) standard, lorsqu'ils sont dimensionnés avec une capacité suffisante et un pré-entraînement à grande échelle, peuvent réaliser une segmentation d'image précise sans nécessiter de modules spécialisés. Motivés par cette observation, nous proposons le VidEoMT (Video Encoder-only Mask Transformer), un modèle de segmentation vidéo simple à encodeur unique qui élimine le besoin de modules de suivi dédiés. Pour permettre la modélisation temporelle dans un ViT à encodeur unique, VidEoMT introduit un mécanisme de propagation de requêtes léger qui transporte l'information entre les images en réutilisant les requêtes de l'image précédente. Pour équilibrer cela avec l'adaptabilité au nouveau contenu, il utilise une stratégie de fusion de requêtes qui combine les requêtes propagées avec un ensemble de requêtes apprises agnostiques au temps. Ainsi, VidEoMT obtient les avantages d'un tracker sans complexité ajoutée, atteignant une précision compétitive tout en étant 5 à 10 fois plus rapide, fonctionnant jusqu'à 160 IPS avec un backbone ViT-L. Code : https://www.tue-mps.org/videomt/

4RC : Reconstruction 4D par requête conditionnelle à tout moment et en tout lieu
4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere

Feb 10

ByYihang Luo, Shangchen Zhou, Yushi Lan, Xingang Pan, Chen Change Loy

Nous présentons 4RC, un cadre unifié feed-forward pour la reconstruction 4D à partir de vidéos monoculaires. Contrairement aux approches existantes qui découplent généralement le mouvement de la géométrie ou ne produisent que des attributs 4D limités, tels que des trajectoires éparses ou un flot de scène bi-vues, 4RC apprend une représentation 4D holistique qui capture conjointement la géométrie dense de la scène et la dynamique du mouvement. Au cœur de 4RC se trouve un nouveau paradigme « encoder une fois, interroger n'importe où et n'importe quand » : un transformateur encode la vidéo entière dans un espace latent spatio-temporel compact, à partir duquel un décodeur conditionnel peut interroger efficacement la géométrie 3D et le mouvement pour n'importe quelle image de requête et à n'importe quel instant cible. Pour faciliter l'apprentissage, nous représentons les attributs 4D par vue sous une forme minimalement factorisée en les décomposant en une géométrie de base et un mouvement relatif dépendant du temps. Des expériences approfondies démontrent que 4RC surpasse les méthodes antérieures et concurrentes sur un large éventail de tâches de reconstruction 4D.

Apprentissage de politiques linéaires temporellement lisses avec une pénalité sur le jacobien de l’action
Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

Feb 20

ByZhaoming Xie, Kevin Karol, Jessica Hodgins

L'apprentissage par renforcement fournit un cadre pour apprendre des politiques de contrôle capables de reproduire des mouvements divers pour des personnages simulés. Cependant, ces politiques exploitent souvent des signaux haute fréquence non naturels, inatteignables par des humains ou des robots physiques, ce qui en fait de mauvaises représentations des comportements du monde réel. Les travaux existants abordent ce problème en ajoutant un terme de récompense qui pénalise un changement important des actions dans le temps. Ce terme nécessite souvent des efforts de réglage considérables. Nous proposons d'utiliser la pénalité du Jacobien de l'action, qui pénalise directement les variations de l'action par rapport aux changements d'état simulé via la différenciation automatique. Cela élimine efficacement les signaux de contrôle haute fréquence irréalistes sans réglage spécifique à la tâche. Bien qu'efficace, la pénalité du Jacobien de l'action introduit une surcharge computationnelle significative lorsqu'elle est utilisée avec les architectures de réseaux de neurones entièrement connectés traditionnels. Pour atténuer ceci, nous introduisons une nouvelle architecture appelée Réseau de Politique Linéaire (Linear Policy Net, LPN) qui réduit considérablement la charge computationnelle pour calculer la pénalité du Jacobien de l'action pendant l'entraînement. De plus, un LPN ne nécessite aucun réglage de paramètre, présente une convergence d'apprentissage plus rapide que les méthodes de référence, et peut être interrogé plus efficacement pendant l'inférence comparé à un réseau de neurones entièrement connecté. Nous démontrons qu'un Réseau de Politique Linéaire, combiné à la pénalité du Jacobien de l'action, est capable d'apprendre des politiques qui génèrent des signaux lisses tout en résolvant un certain nombre de tâches d'imitation de mouvement avec des caractéristiques différentes, y compris des mouvements dynamiques tels qu'un salto arrière et diverses compétences de parkour exigeantes. Enfin, nous appliquons cette approche pour créer des politiques pour des mouvements dynamiques sur un robot quadrupède physique équipé d'un bras.

Élagage conscient de l'effondrement pour les modèles de langage par diffusion
Sink-Aware Pruning for Diffusion Language Models

Feb 19

ByAidar Myrzakhan, Tianyi Li, Bowei Guo, Shengkun Tang, Zhiqiang Shen

Les modèles de langage par diffusion (DLM) entraînent un coût d'inférence élevé en raison du débruîtage itératif, ce qui motive l'élagage efficace. Les heuristiques d'élagage existantes, largement héritées des grands modèles de langage (LLM) autorégressifs (AR), préservent généralement les tokens "puits d'attention" car les puits AR servent d'ancres globales stables. Nous montrons que cette hypothèse ne tient pas pour les DLM : la position du puits d'attention présente une variance substantiellement plus élevée sur l'ensemble de la trajectoire de génération (mesurée par la façon dont les emplacements dominants des puits se déplacent au fil des pas de temps), indiquant que les puits sont souvent transitoires et moins structurellement essentiels que dans les modèles AR. Sur la base de cette observation, nous proposons l'**Élagage Conscient des Puits**, qui identifie et élague automatiquement les puits instables dans les DLM (les études antérieures conservent généralement les puits pour les LLM AR). Sans réentraînement, notre méthode atteint un meilleur compromis qualité-efficacité et surpasse les solides bases d'élagage antérieures pour une puissance de calcul équivalente. Notre code est disponible à l'adresse https://github.com/VILA-Lab/Sink-Aware-Pruning.

Entraînement sélectif pour les grands modèles de vision et de langage via le gain d'information visuelle
Selective Training for Large Vision Language Models via Visual Information Gain

Feb 19

BySeulbi Lee, Sangheum Hwang

Les grands modèles de vision et langage (LVLM) ont réalisé des progrès remarquables, mais ils souffrent souvent d'un biais linguistique, produisant des réponses sans s'appuyer sur des preuves visuelles. Si les travaux antérieurs tentent d'atténuer ce problème par des stratégies de décodage, des modifications architecturales ou des données d'instruction sélectionnées, ils manquent généralement d'une mesure quantitative de la façon dont les échantillons d'entraînement individuels ou les tokens bénéficient réellement de l'image. Dans ce travail, nous introduisons le gain d'information visuelle (VIG), une métrique basée sur la perplexité qui mesure la réduction de l'incertitude de prédiction fournie par l'entrée visuelle. Le VIG permet une analyse fine aux niveaux de l'échantillon et du token, mettant efficacement en évidence les éléments visuellement ancrés tels que les couleurs, les relations spatiales et les attributs. En tirant parti de cela, nous proposons un schéma d'entraînement sélectif guidé par le VIG qui priorise les échantillons et les tokens à VIG élevé. Cette approche améliore l'ancrage visuel et atténue le biais linguistique, obtenant des performances supérieures avec une supervision considérablement réduite en se concentrant exclusivement sur les échantillons et les tokens visuellement informatifs.

ReIn : Récupération d'erreurs conversationnelles par raisonnement inception
ReIn: Conversational Error Recovery with Reasoning Inception

Feb 19

ByTakyoung Kim, Jinseok Nam, Chandrayee Basu, Xing Fan, Chengyuan Ma, Heng Ji, Gokhan Tur, Dilek Hakkani-Tür

Les agents conversationnels alimentés par de grands modèles de langage (LLM) avec intégration d'outils obtiennent des performances solides sur des ensembles de données de dialogue orienté tâche fixes, mais restent vulnérables aux erreurs imprévues induites par l'utilisateur. Plutôt que de se concentrer sur la prévention des erreurs, ce travail se concentre sur la récupération après erreur, ce qui nécessite un diagnostic précis des contextes de dialogue erronés et l'exécution de plans de récupération appropriés. Sous des contraintes réalistes empêchant le fine-tuning du modèle ou la modification des prompts en raison de coûts et de délais importants, nous explorons si les agents peuvent récupérer après des interactions contextuellement défectueuses et comment leur comportement peut être adapté sans modifier les paramètres du modèle ni les prompts. À cette fin, nous proposons Reasoning Inception (ReIn), une méthode d'intervention au moment du test qui intègre un raisonnement initial dans le processus décisionnel de l'agent. Concrètement, un module d'inception externe identifie des erreurs prédéfinies dans le contexte du dialogue et génère des plans de récupération, qui sont ensuite intégrés au processus de raisonnement interne de l'agent pour guider les actions correctives, sans modifier ses paramètres ou ses prompts système. Nous évaluons ReIn en simulant systématiquement des scénarios d'échec conversationnel qui entravent directement la réalisation des objectifs de l'utilisateur : les requêtes ambiguës et non prises en charge de l'utilisateur. Sur diverses combinaisons de modèles d'agents et de modules d'inception, ReIn améliore considérablement le succès des tâches et se généralise à des types d'erreurs non vus. De plus, il surpasse constamment les approches explicites de modification des prompts, soulignant son utilité comme méthode efficace et immédiate. Une analyse approfondie de son mécanisme opérationnel, notamment en relation avec la hiérarchie des instructions, indique que la définition conjointe d'outils de récupération avec ReIn peut constituer une stratégie sûre et efficace pour améliorer la résilience des agents conversationnels sans modifier les modèles de base ni les prompts système.

Adam améliore Muon : Estimation adaptative des moments avec momentum orthogonalisé
Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum

Feb 19

ByMinxin Zhang, Yuxuan Liu, Hayden Scheaffer

L'optimisation stochastique efficace intègre typiquement une direction de mise à jour performante en régime déterministe avec un mécanisme s'adaptant aux perturbations stochastiques. Si Adam utilise des estimateurs de moments adaptatifs pour assurer la stabilité, Muon exploite la structure matricielle des couches de poids via un momentum orthogonalisé, démontrant des performances supérieures pour l'entraînement de grands modèles de langage. Nous proposons un nouvel optimiseur et son extension diagonale, NAMO et NAMO-D, offrant la première intégration principlée du momentum orthogonalisé avec l'adaptation au bruit de type Adam basée sur la norme. NAMO met à l'échelle le momentum orthogonalisé en utilisant un unique pas d'apprentissage adaptatif, préservant l'orthogonalité tout en surpassant Muon à un coût additionnel négligeable. NAMO-D multiplie plutôt à droite le momentum orthogonalisé par une matrice diagonale à entrées tronquées. Cette conception permet une adaptation au bruit par neurone et s'aligne avec la structure hessienne commune quasi-bloc-diagonale. Sous des hypothèses standard, nous établissons des taux de convergence optimaux pour les deux algorithmes en cadre déterministe et montrons qu'en cadre stochastique, leurs garanties de convergence s'adaptent au niveau de bruit des gradients stochastiques. Les expériences sur le pré-entraînement de modèles GPT-2 démontrent une amélioration des performances de NAMO et NAMO-D par rapport aux bases de référence AdamW et Muon, avec NAMO-D obtenant des gains supplémentaires grâce à un hyperparamètre de troncature additionnel qui équilibre les objectifs concurrents de maintien d'une direction de mise à jour bien conditionnée et d'exploitation d'une adaptation fine au bruit.

Rubriques comme surface d'attaque : Dérive insidieuse des préférences chez les juges LLM
Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges

Feb 14

ByRuomeng Ding, Yifei Pang, He Sun, Yizhong Wang, Zhiwei Steven Wu, Zhun Deng

Les pipelines d'évaluation et d'alignement des grands modèles de langage reposent de plus en plus sur des évaluateurs basés sur LLM, dont le comportement est guidé par des grilles d'évaluation en langage naturel et validé sur des benchmarks. Nous identifions une vulnérabilité précédemment sous-estimée dans ce flux de travail, que nous nommons la Dérive des Préférences Induite par les Grilles (RIPD). Même lorsque des modifications de grille passent la validation sur benchmark, elles peuvent néanmoins produire des décalages systématiques et directionnels dans les préférences d'un évaluateur sur les domaines cibles. Parce que les grilles servent d'interface décisionnelle de haut niveau, une telle dérive peut émerger de modifications apparemment naturelles et préservant les critères, et rester difficile à détecter via des métriques agrégées de benchmark ou une vérification ponctuelle limitée. Nous montrons en outre que cette vulnérabilité peut être exploitée via des attaques de préférence basées sur les grilles, où des modifications de grille conformes au benchmark détournent les jugements d'une référence humaine fixe ou de confiance sur les domaines cibles, induisant systématiquement la RIPD et réduisant la précision sur le domaine cible jusqu'à 9,5 % (utilité) et 27,9 % (innocuité). Lorsque ces jugements sont utilisés pour générer des étiquettes de préférence pour un post-entraînement en aval, le biais induit se propage à travers les pipelines d'alignement et est internalisé dans les politiques entraînées. Cela conduit à une dérive persistante et systématique du comportement du modèle. Globalement, nos résultats soulignent les grilles d'évaluation comme une interface de contrôle sensible et manipulable, révélant un risque d'alignement au niveau du système qui va au-delà de la seule fiabilité de l'évaluateur. Le code est disponible à l'adresse : https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Avertissement : Certaines sections peuvent contenir un contenu potentiellement préjudiciable qui pourrait ne pas convenir à tous les lecteurs.

À qui demander quoi : Élicitation adaptative de groupe via des interactions multi-tours avec des LLM
Whom to Query for What: Adaptive Group Elicitation via Multi-Turn LLM Interactions

Feb 15

ByRuomeng Ding, Tianwei Gao, Thomas P. Zollo, Eitan Bachmat, Richard Zemel, Zhun Deng

L'obtention d'informations pour réduire l'incertitude concernant les propriétés latentes au niveau d'un groupe à partir d'enquêtes et d'autres évaluations collectives nécessite d'allouer un effort limité d'interrogation dans un contexte de coûts réels et de données manquantes. Bien que les grands modèles de langage permettent des interactions adaptatives et multi-tours en langage naturel, la plupart des méthodes d'élicitation existantes optimisent le choix des questions avec un panel de répondants fixe, sans adapter la sélection des répondants ni exploiter la structure de la population lorsque les réponses sont partielles ou incomplètes. Pour combler cette lacune, nous étudions l'élicitation adaptative de groupe, un cadre multi-tours où un agent sélectionne de manière adaptative à la fois les questions et les répondants sous contrainte explicite de budgets d'interrogation et de participation. Nous proposons un cadre théoriquement fondé qui combine (i) un objectif d'espérance de gain d'information basé sur un LLM pour évaluer les questions candidates avec (ii) une propagation par réseau de neurones à graphe hétérogène qui agrège les réponses observées et les attributs des participants pour imputer les réponses manquantes et guider la sélection des répondants à chaque tour. Cette procédure en boucle fermée interroge un petit sous-ensemble informatif d'individus tout en inférant les réponses au niveau de la population via une similarité structurée. Sur trois jeux de données d'opinion du monde réel, notre méthode améliore constamment la prédiction des réponses au niveau populationnel sous contrainte budgétaire, incluant un gain relatif de >12% sur le CES avec un budget de répondants de 10%.

ReIn : Récupération d'erreurs conversationnelles par raisonnement inception
ReIn: Conversational Error Recovery with Reasoning Inception

Feb 19

ByTakyoung Kim, Jinseok Nam, Chandrayee Basu, Xing Fan, Chengyuan Ma, Heng Ji, Gokhan Tur, Dilek Hakkani-Tür