papers.description
Nous présentons Seed Diffusion Preview, un modèle de langage à grande échelle basé sur la diffusion à états discrets, offrant une vitesse d'inférence remarquablement rapide. Grâce à une génération non séquentielle et parallèle, les modèles de diffusion discrets permettent une accélération notable pour atténuer la latence inhérente au décodage token par token, comme démontré récemment (par exemple, Mercury Coder, Gemini Diffusion). Seed Diffusion Preview atteint une vitesse d'inférence de 2 146 tokens/s sur des GPU H20 tout en maintenant des performances compétitives sur une série de benchmarks standard d'évaluation de code, surpassant significativement les modèles contemporains Mercury et Gemini Diffusion, établissant ainsi un nouvel état de l'art sur le front de Pareto vitesse-qualité pour les modèles de code.
Nous présentons Skywork UniPic, un modèle autorégressif de 1,5 milliard de paramètres qui unifie la compréhension d'images, la génération de texte à image et l'édition d'images au sein d'une architecture unique, éliminant ainsi le besoin d'adaptateurs spécifiques à chaque tâche ou de connecteurs inter-modules. Nous démontrons que des systèmes multimodaux compacts peuvent atteindre des performances de pointe sur du matériel grand public. Skywork UniPic obtient un score GenEval de 0,86, surpassant la plupart des modèles unifiés existants ; établit un nouveau record de génération complexe sur DPG-Bench avec 85,5 ; atteint 5,83 sur GEditBench-EN et 3,49 sur ImgEdit-Bench pour l'édition d'images ; et génère des images de 1024 x 1024 avec moins de 15 Go de mémoire GPU (par exemple, RTX 4090). (1) Une stratégie de codage découplée qui exploite un encodeur autorégressif masqué pour la synthèse et un encodeur SigLIP2 pour la compréhension, tous alimentant un décodeur autorégressif partagé ; (2) un plan d'entraînement progressif et conscient de la résolution, passant de 256 x 256 à 1024 x 1024 tout en dégelant dynamiquement les paramètres pour équilibrer capacité et stabilité ; et (3) des ensembles de données soigneusement sélectionnés, à l'échelle de 100 millions, enrichis de modèles de récompense spécifiques à chaque tâche pour affiner les objectifs de génération et d'édition. En démontrant qu'une intégration multimodale de haute fidélité ne nécessite pas des ressources prohibitives, Skywork UniPic établit un paradigme pratique pour une IA multimodale déployable et de haute fidélité. Le code et les poids sont disponibles publiquement à l'adresse https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
La génération contrôlée de vidéos ultra-longues est une tâche fondamentale mais complexe. Bien que les méthodes existantes soient efficaces pour des clips courts, elles peinent à s'adapter à des durées plus longues en raison de problèmes tels que l'incohérence temporelle et la dégradation visuelle. Dans cet article, nous étudions et identifions initialement trois facteurs clés : l'initialisation séparée du bruit, la normalisation indépendante des signaux de contrôle, et les limitations des guidages unimodaux. Pour résoudre ces problèmes, nous proposons LongVie, un framework autoregressif de bout en bout pour la génération contrôlée de vidéos longues. LongVie introduit deux conceptions principales pour assurer la cohérence temporelle : 1) une stratégie unifiée d'initialisation du bruit qui maintient une génération cohérente entre les clips, et 2) une normalisation globale des signaux de contrôle qui garantit un alignement dans l'espace de contrôle tout au long de la vidéo. Pour atténuer la dégradation visuelle, LongVie utilise 3) un framework de contrôle multimodal qui intègre à la fois des signaux de contrôle denses (par exemple, des cartes de profondeur) et épars (par exemple, des points clés), complété par 4) une stratégie d'entraînement sensible à la dégradation qui équilibre de manière adaptative les contributions des modalités au fil du temps pour préserver la qualité visuelle. Nous introduisons également LongVGenBench, un benchmark complet composé de 100 vidéos haute résolution couvrant divers environnements réels et synthétiques, chacune durant plus d'une minute. Des expériences approfondies montrent que LongVie atteint des performances de pointe en termes de contrôlabilité à long terme, de cohérence et de qualité.
La vérification des réponses est cruciale non seulement pour évaluer les grands modèles de langage (LLMs) en comparant leurs sorties non structurées à des réponses standard, mais elle sert également de modèle de récompense pour guider l'optimisation des LLMs. La plupart des cadres d'évaluation reposent sur des correspondances régularisées ou utilisent des LLMs généraux pour la vérification des réponses, ce qui nécessite une personnalisation extensive et répétitive des règles regex ou des prompts d'évaluation. Deux limitations fondamentales persistent dans les méthodologies actuelles : 1) l'absence de benchmarks complets qui évaluent systématiquement les capacités de vérification à travers différents LLMs ; et 2) le stade naissant du développement des vérificateurs, où les approches existantes manquent à la fois de robustesse pour gérer des cas limites complexes et de généralisabilité à travers différents domaines. Dans ce travail, nous développons CompassVerifier, un modèle de vérification léger, précis et robuste pour l'évaluation et la récompense des résultats. Il démontre une compétence multi-domaines couvrant les mathématiques, les connaissances et diverses tâches de raisonnement, avec la capacité de traiter différents types de réponses, y compris les sous-problèmes multiples, les formules et les séquences de réponses, tout en identifiant efficacement les réponses anormales/invalides. Nous introduisons le benchmark VerifierBench, composé de sorties de modèles collectées à partir de multiples sources de données, enrichies par une analyse manuelle des patterns de méta-erreurs pour améliorer CompassVerifier. Nous anticipons que CompassVerifier et VerifierBench faciliteront la vérification des réponses, les protocoles d'évaluation et la recherche en apprentissage par renforcement. Le code et le jeu de données sont disponibles à l'adresse https://github.com/open-compass/CompassVerifier.
La localisation des problèmes, processus consistant à identifier les emplacements de code nécessitant des modifications pour résoudre des problèmes logiciels, est une tâche cruciale mais complexe dans le développement de logiciels. Le fossé sémantique entre les descriptions de problèmes en langage naturel et le code défectueux nécessite un raisonnement multi-étape complexe à travers les dépendances du code. Les agents basés sur des modèles de langage (LLM) existants tentent de résoudre ce problème en intégrant des outils de récupération de référentiels. Cependant, cela transforme la localisation des problèmes en une tâche exigeante que nous appelons Repo Deep Search, qui nécessite que le LLM utilise efficacement divers outils de récupération de référentiels tout au long d'un processus de raisonnement et de navigation en plusieurs étapes. Pour relever ce défi, nous présentons ToolTrain, un cadre de formation en deux étapes intégrant des outils, combinant un réglage supervisé par échantillonnage de rejet et un apprentissage par renforcement intégrant des outils pour améliorer la capacité des LLM à utiliser des outils de récupération pour la localisation des problèmes. Les résultats expérimentaux montrent que les modèles formés avec ToolTrain atteignent des performances de pointe, avec notre modèle de 32B surpassant même Claude-3.7 en localisation au niveau des fonctions. Les résultats montrent également qu'une amélioration des performances de localisation se traduit par de meilleures performances de résolution de problèmes de bout en bout. Cela démontre en outre que la formation pour la localisation des problèmes est une stratégie viable et efficace pour améliorer le développement logiciel automatisé.
Les Transformers ont démontré un succès remarquable dans les domaines de la vision, du langage et de la vidéo. Cependant, l'augmentation de la complexité des tâches a conduit à des modèles plus volumineux et à un plus grand nombre de tokens, ce qui a accru le coût quadratique de l'auto-attention et la surcharge d'accès à la mémoire GPU. Pour réduire le coût de calcul de l'auto-attention, des travaux antérieurs ont proposé des techniques de compression de tokens qui éliminent les tokens redondants ou moins informatifs. Parallèlement, des noyaux d'attention fusionnés tels que FlashAttention ont été développés pour atténuer la surcharge mémoire en évitant la construction de cartes d'attention et les E/S associées vers la HBM. Cela rend cependant ces méthodes incompatibles avec la plupart des techniques de compression de tokens sans entraînement, qui s'appuient sur les cartes d'attention pour déterminer l'importance des tokens. Nous proposons ici le *Representation Shift*, une métrique sans entraînement et indépendante du modèle, qui mesure le degré de changement dans la représentation de chaque token. Cela permet d'intégrer de manière transparente la compression de tokens avec FlashAttention, sans nécessiter de cartes d'attention ni de réentraînement. Notre méthode se généralise également au-delà des Transformers aux CNN et aux modèles à espace d'états. Des expériences approfondies montrent que le *Representation Shift* permet une compression efficace des tokens compatible avec FlashAttention, offrant des accélérations significatives allant jusqu'à 5,5 % et 4,4 % dans la recherche vidéo-texte et les Q&A vidéo, respectivement. Le code est disponible à l'adresse suivante : https://github.com/mlvlab/Representation-Shift.
Les algorithmes de recherche approximative des plus proches voisins (ANNS) sont devenus de plus en plus critiques pour les applications récentes de l'IA, en particulier dans la génération augmentée par la recherche (RAG) et les applications d'agents basés sur des LLM. Dans cet article, nous présentons CRINN, un nouveau paradigme pour les algorithmes ANNS. CRINN traite l'optimisation ANNS comme un problème d'apprentissage par renforcement où la vitesse d'exécution sert de signal de récompense. Cette approche permet la génération automatique d'implémentations ANNS progressivement plus rapides tout en respectant les contraintes de précision. Notre évaluation expérimentale démontre l'efficacité de CRINN sur six ensembles de données de référence NNS largement utilisés. Par rapport aux algorithmes ANNS open-source de pointe, CRINN obtient les meilleures performances sur trois d'entre eux (GIST-960-Euclidean, MNIST-784-Euclidean et GloVe-25-angular), et se classe à égalité en première place sur deux d'entre eux (SIFT-128-Euclidean et GloVe-25-angular). Les implications du succès de CRINN vont bien au-delà de l'optimisation ANNS : il valide que les LLM augmentés par l'apprentissage par renforcement peuvent fonctionner comme un outil efficace pour automatiser des optimisations algorithmiques sophistiquées qui nécessitent des connaissances spécialisées et un affinement manuel laborieux. Le code est disponible à l'adresse suivante : https://github.com/deepreinforce-ai/CRINN
Avec le développement rapide du protocole de contexte de modèle (MCP), le nombre de serveurs MCP a dépassé les 10 000. Cependant, les benchmarks MCP existants se limitent à des configurations mono-serveur avec seulement quelques outils, entravant l'évaluation efficace des capacités des agents dans des scénarios réels à grande échelle. Pour pallier cette limitation, nous présentons LiveMCPBench, le premier benchmark complet comprenant 95 tâches réelles ancrées dans l'écosystème MCP, conçu pour évaluer les agents LLM à grande échelle sur divers serveurs. Pour soutenir un pipeline d'évaluation scalable et reproductible dans des environnements MCP à grande échelle, nous avons constitué LiveMCPTool, une collection diversifiée et facilement déployable de 70 serveurs MCP et 527 outils. De plus, nous introduisons LiveMCPEval, un framework LLM-as-a-Judge qui permet une évaluation automatisée et adaptative dans des environnements de tâches dynamiques et variables dans le temps, atteignant un accord de 81 % avec les évaluateurs humains. Enfin, nous proposons le MCP Copilot Agent, un agent multi-étapes qui achemine les outils pour une planification dynamique et exécute les outils pour l'interaction API à travers l'ensemble de la suite LiveMCPTool. Notre évaluation couvre 10 modèles leaders, le meilleur modèle (Claude-Sonnet-4) atteignant un taux de réussite de 78,95 %. Cependant, nous observons une grande variance de performance entre les modèles, et plusieurs modèles largement utilisés obtiennent de mauvais résultats dans les environnements complexes et riches en outils de LiveMCPBench. Globalement, LiveMCPBench offre le premier cadre unifié pour benchmarker les agents LLM dans des environnements MCP réalistes, riches en outils et dynamiques, posant une base solide pour une recherche scalable et reproductible sur les capacités des agents. Notre code et nos données seront disponibles publiquement à l'adresse https://icip-cas.github.io/LiveMCPBench.
Nous explorons trois stratégies pour améliorer les performances sur un large éventail de tâches de retouche d'images : le fine-tuning supervisé (SFT), l'apprentissage par renforcement (RL) et le raisonnement en chaîne de pensée (CoT). Afin d'étudier tous ces composants dans un cadre cohérent, nous adoptons un modèle multimodal autorégressif qui traite les tokens textuels et visuels de manière unifiée. Nous constatons que l'apprentissage par renforcement combiné à un vérificateur LLM multimodal de grande taille est la stratégie la plus efficace. En conséquence, nous proposons EARL : Editing with Autoregression and RL, un modèle de retouche d'images basé sur l'apprentissage par renforcement qui rivalise avec des modèles de référence sur une diversité de retouches, malgré l'utilisation de beaucoup moins de données d'entraînement. Ainsi, EARL repousse les limites des modèles multimodaux autorégressifs dans le domaine de la retouche d'images. Nous mettons à disposition notre code, nos données d'entraînement et nos modèles entraînés à l'adresse suivante : https://github.com/mair-lab/EARL.
Nous présentons Goedel-Prover-V2, une série de modèles de langage open-source qui établissent un nouvel état de l'art en démonstration automatique de théorèmes. Construit sur le pipeline standard d'itération experte et d'apprentissage par renforcement, notre approche intègre trois innovations clés : (1) Synthèse de données échafaudée : Nous générons des tâches synthétiques de difficulté croissante pour entraîner le modèle à maîtriser des théorèmes de plus en plus complexes ; (2) Auto-correction guidée par vérificateur : Nous permettons au modèle de réviser itérativement ses preuves en exploitant les retours du compilateur Lean ; (3) Moyennage de modèles : Nous fusionnons des points de contrôle de modèles pour atténuer la diminution de la diversité des sorties du modèle aux stades avancés de l'entraînement. Notre petit modèle, Goedel-Prover-V2-8B, atteint 84,6 % de réussite à pass@32 sur MiniF2F et surpasse DeepSeek-Prover-V2-671B selon la même métrique, malgré une taille 80 fois plus petite. Notre modèle phare, Goedel-Prover-V2-32B, atteint 88,1 % sur MiniF2F à pass@32 en mode standard et 90,4 % en mode auto-correction, surpassant largement les précédents SOTA. De plus, notre modèle phare résout 86 problèmes sur PutnamBench à pass@184, se classant premier parmi les modèles open-source sur le leaderboard, dépassant le record de DeepSeek-Prover-V2-671B qui résolvait 47 problèmes à pass@1024, avec une taille de modèle et un budget de calcul nettement inférieurs. Au moment de sa sortie (juillet-août 2025), Goedel-Prover-V2 atteint les performances globales les plus élevées parmi tous les démonstrateurs de théorèmes open-source. Il se classe également parmi les modèles les plus performants—y compris les systèmes fermés avec des performances publiquement rapportées—sous un budget de calcul limité en phase de test. Nos modèles, code et données sont disponibles à l'adresse https://github.com/Goedel-LM/Goedel-Prover-V2.
Les études existantes sur la génération de vidéos parlantes se sont principalement concentrées sur des monologues à une seule personne ou des animations faciales isolées, limitant ainsi leur applicabilité à des interactions réalistes entre plusieurs individus. Pour combler cette lacune, nous introduisons MIT, un ensemble de données à grande échelle spécifiquement conçu pour la génération de vidéos parlantes impliquant plusieurs personnes. À cette fin, nous avons développé un pipeline automatique qui collecte et annote des vidéos de conversations impliquant plusieurs personnes. L'ensemble de données résultant comprend 12 heures de séquences en haute résolution, chacune mettant en scène deux à quatre locuteurs, avec des annotations détaillées des poses corporelles et des interactions vocales. Il capture les dynamiques naturelles des conversations dans des scénarios multi-locuteurs, offrant ainsi une ressource riche pour l'étude des comportements visuels interactifs. Pour démontrer le potentiel de MIT, nous proposons en outre CovOG, un modèle de référence pour cette nouvelle tâche. Il intègre un Encodeur de Poses Multi-Humaines (MPE) pour gérer un nombre variable de locuteurs en agrégeant les embeddings de poses individuelles, et un Pilote Audio Interactif (IAD) pour moduler les dynamiques de la tête en fonction des caractéristiques audio spécifiques à chaque locuteur. Ensemble, ces composants illustrent la faisabilité et les défis de la génération de vidéos parlantes réalistes impliquant plusieurs personnes, établissant MIT comme un benchmark précieux pour les recherches futures. Le code est disponible à l'adresse suivante : https://github.com/showlab/Multi-human-Talking-Video-Dataset.
Dans la synthèse d'images contrôlée, la génération d'images cohérentes et consistantes à partir de multiples références avec une conscience de la disposition spatiale reste un défi ouvert. Nous présentons LAMIC, un cadre de composition multi-images conscient de la disposition (Layout-Aware Multi-Image Composition) qui, pour la première fois, étend les modèles de diffusion à référence unique aux scénarios multi-références sans nécessiter d'entraînement. Basé sur le modèle MMDiT, LAMIC introduit deux mécanismes d'attention plug-and-play : 1) l'Attention par Isolation de Groupe (Group Isolation Attention, GIA) pour améliorer la séparation des entités ; et 2) l'Attention Modulée par Région (Region-Modulated Attention, RMA) pour permettre une génération consciente de la disposition. Pour évaluer de manière exhaustive les capacités du modèle, nous introduisons également trois métriques : 1) le Taux d'Inclusion (Inclusion Ratio, IN-R) et le Taux de Remplissage (Fill Ratio, FI-R) pour évaluer le contrôle de la disposition ; et 2) la Similarité de Fond (Background Similarity, BG-S) pour mesurer la cohérence du fond. Des expériences approfondies montrent que LAMIC atteint des performances de pointe sur la plupart des métriques principales : il surpasse systématiquement les références multi-images existantes en termes de ID-S, BG-S, IN-R et scores AVG dans tous les paramètres, et obtient le meilleur DPG dans les tâches de composition complexes. Ces résultats démontrent les capacités supérieures de LAMIC en matière de préservation de l'identité, de conservation du fond, de contrôle de la disposition et de suivi des instructions, le tout sans aucun entraînement ou ajustement, mettant en avant une forte capacité de généralisation en mode zéro-shot. En héritant des forces des modèles avancés à référence unique et en permettant une extension fluide aux scénarios multi-images, LAMIC établit un nouveau paradigme sans entraînement pour la composition multi-images contrôlée. À mesure que les modèles de base continuent d'évoluer, les performances de LAMIC devraient s'améliorer en conséquence. Notre implémentation est disponible à l'adresse suivante : https://github.com/Suchenl/LAMIC.
La génération de légendes précises, informatives et exemptes d’hallucinations pour les graphiques reste un défi pour les modèles de langage visuel, principalement en raison du manque de jeux de données à grande échelle et de haute qualité sur les graphiques du monde réel. Cependant, les jeux de données existants sur les graphiques réels souffrent de l’inclusion d’informations superflues qui ne peuvent pas être déduites du graphique, ainsi que de l’incapacité à capturer suffisamment les éléments structurels et les insights clés. Par conséquent, nous introduisons ChartCap, un jeu de données à grande échelle comprenant 565 000 images de graphiques réels associées à des légendes denses spécifiques au type, excluant les informations superflues et mettant en avant à la fois les éléments structurels et les insights clés de manière détaillée. Pour construire ChartCap, nous avons conçu un pipeline en quatre étapes qui génère des légendes en utilisant uniquement les données discernables du graphique, et nous avons mis en place une vérification humaine basée sur la cohérence cyclique, ce qui accélère le contrôle qualité sans sacrifier la précision. De plus, nous proposons une nouvelle métrique, le Score de Cohérence Visuelle, qui évalue la qualité des légendes en mesurant la similarité entre le graphique régénéré à partir d’une légende et le graphique original, indépendamment des légendes de référence. Des expériences approfondies confirment que les modèles affinés sur ChartCap génèrent systématiquement des légendes plus précises et informatives avec moins d’hallucinations, surpassant à la fois les modèles open-source et propriétaires, ainsi que les légendes annotées par des humains.
Les récentes avancées dans les modèles de langage multimodaux de grande envergure (MLLMs) ont permis un ancrage perceptuel plus riche pour la génération de politiques de code dans les agents incarnés. Cependant, la plupart des systèmes existants manquent de mécanismes efficaces pour surveiller de manière adaptative l'exécution des politiques et réparer les codes lors de l'accomplissement des tâches. Dans ce travail, nous présentons HyCodePolicy, un cadre de contrôle hybride basé sur le langage qui intègre systématiquement la synthèse de code, l'ancrage géométrique, la surveillance perceptuelle et la réparation itérative dans un cycle de programmation en boucle fermée pour les agents incarnés. Techniquement, étant donné une instruction en langage naturel, notre système la décompose d'abord en sous-objectifs et génère un programme exécutable initial ancré dans des primitives géométriques centrées sur les objets. Le programme est ensuite exécuté en simulation, tandis qu'un modèle vision-langage (VLM) observe des points de contrôle sélectionnés pour détecter et localiser les échecs d'exécution et en déduire les raisons. En fusionnant les traces d'exécution structurées capturant les événements au niveau du programme avec les retours perceptuels basés sur le VLM, HyCodePolicy infère les causes des échecs et répare les programmes. Ce mécanisme de double rétroaction hybride permet une synthèse de programmes auto-correctrice avec une supervision humaine minimale. Nos résultats démontrent que HyCodePolicy améliore significativement la robustesse et l'efficacité d'échantillonnage des politiques de manipulation robotique, offrant une stratégie évolutive pour intégrer le raisonnement multimodal dans les pipelines de prise de décision autonome.
Les places de marché en ligne seront transformées par des agents d’IA autonomes agissant au nom des consommateurs. Plutôt que des humains naviguant et cliquant, des agents basés sur des modèles vision-langage (VLM) peuvent analyser des pages web, évaluer des produits et effectuer des transactions. Cela soulève une question fondamentale : qu’achètent les agents d’IA, et pourquoi ? Nous développons ACES, un environnement de test qui associe un agent VLM indépendant de la plateforme à une place de marché simulée entièrement programmable pour étudier cette question. Nous commençons par effectuer des vérifications de rationalité de base dans le cadre de tâches simples, puis, en randomisant les positions des produits, les prix, les notes, les avis, les tags sponsorisés et les recommandations de la plateforme, nous obtenons des estimations causales sur la manière dont les VLMs de pointe effectuent réellement leurs achats. Les modèles montrent des effets de position forts mais hétérogènes : tous privilégient la rangée du haut, mais différents modèles préfèrent différentes colonnes, remettant en cause l’hypothèse d’un classement universel « en tête ». Ils pénalisent les tags sponsorisés et récompensent les recommandations. Les sensibilités au prix, aux notes et aux avis sont globalement similaires à celles des humains, mais varient fortement en intensité selon les modèles. Motivés par des scénarios où les vendeurs utilisent des agents d’IA pour optimiser leurs fiches produits, nous montrons qu’un agent côté vendeur apportant des ajustements mineurs aux descriptions de produits, ciblant les préférences des acheteurs IA, peut engendrer des gains substantiels de parts de marché si les achats médiés par l’IA dominent. Nous constatons également que les choix modaux de produits peuvent différer selon les modèles et, dans certains cas, la demande peut se concentrer sur quelques produits sélectionnés, soulevant des questions de concurrence. Ensemble, nos résultats éclairent le comportement potentiel des agents d’IA dans les contextes de commerce électronique et mettent en lumière des questions concrètes de stratégie des vendeurs, de conception des plateformes et de régulation dans un écosystème médié par l’IA.
La génération et la prévision de mouvements humains égocentriques avec contexte de scène sont essentielles pour améliorer les expériences AR/VR, optimiser l'interaction humain-robot, faire progresser les technologies d'assistance et permettre des solutions de santé adaptatives en prédisant et en simulant avec précision les mouvements à partir d'une perspective à la première personne. Cependant, les méthodes existantes se concentrent principalement sur la synthèse de mouvements en troisième personne avec des contextes de scène 3D structurés, limitant ainsi leur efficacité dans des environnements égocentriques réels où le champ de vision restreint, les occlusions fréquentes et les caméras dynamiques entravent la perception de la scène. Pour combler cette lacune, nous introduisons la Génération de Mouvement Égocentrique et la Prévision de Mouvement Égocentrique, deux nouvelles tâches qui utilisent des images à la première personne pour la synthèse de mouvements conscients de la scène sans dépendre d'une scène 3D explicite. Nous proposons UniEgoMotion, un modèle de diffusion de mouvement conditionnel unifié avec une nouvelle représentation de mouvement centrée sur la tête, conçue pour les dispositifs égocentriques. La conception simple mais efficace d'UniEgoMotion prend en charge la reconstruction, la prévision et la génération de mouvements égocentriques à partir d'entrées visuelles à la première personne dans un cadre unifié. Contrairement aux travaux précédents qui négligent la sémantique de la scène, notre modèle extrait efficacement le contexte de la scène basé sur l'image pour déduire un mouvement 3D plausible. Pour faciliter l'entraînement, nous introduisons EE4D-Motion, un jeu de données à grande échelle dérivé de EgoExo4D, enrichi d'annotations de mouvement 3D pseudo-géoréférencées. UniEgoMotion atteint des performances de pointe en reconstruction de mouvement égocentrique et est le premier à générer du mouvement à partir d'une seule image égocentrique. Des évaluations approfondies démontrent l'efficacité de notre cadre unifié, établissant un nouveau standard pour la modélisation de mouvement égocentrique et ouvrant de nouvelles possibilités pour les applications égocentriques.
La recherche texte-vidéo vise à identifier le candidat texte (ou vidéo) le plus pertinent étant donné une requête vidéo (ou texte) parmi de vastes bases de données en ligne. Les travaux récents exploitent des modèles de langage multi-modaux de grande taille (MLLMs) pour améliorer la recherche, en particulier pour les paires requête-candidat longues ou complexes. Cependant, nous observons que l'application naïve des MLLMs, c'est-à-dire la recherche basée sur la vraisemblance des candidats, introduit un biais de priorité des candidats, favorisant ceux ayant des priorités intrinsèquement plus élevées par rapport à ceux plus pertinents pour la requête. À cette fin, nous proposons un nouveau cadre de recherche, l'Estimation Bidirectionnelle de la Vraisemblance avec MLLM (BLiM), qui exploite à la fois les vraisemblances de la requête et des candidats en entraînant le modèle à générer du texte à partir d'une vidéo donnée ainsi que des caractéristiques vidéo à partir d'un texte donné. De plus, nous introduisons la Normalisation des Priorités des Candidats (CPN), un module de calibration de score simple mais efficace ne nécessitant pas d'entraînement, conçu pour atténuer le biais de priorité des candidats dans la vraisemblance des candidats. Sur quatre benchmarks de recherche texte-vidéo, notre BLiM équipé de CPN surpasse les modèles précédents de pointe par une moyenne de 6,4 R@1, atténuant efficacement le biais de priorité des candidats et mettant l'accent sur la pertinence requête-candidat. Notre analyse approfondie sur diverses tâches multi-modales au-delà de la recherche met en lumière l'applicabilité large de CPN, qui améliore la compréhension visuelle en réduisant la dépendance aux priorités textuelles. Le code est disponible à l'adresse https://github.com/mlvlab/BLiM.
Les modèles de langage à grand contexte (LLMs), tels que Gemini-2.5-Pro et Claude-Sonnet-4, sont de plus en plus utilisés pour renforcer les systèmes d'IA avancés, y compris les pipelines de génération augmentée par récupération (RAG) et les agents autonomes. Dans ces systèmes, un LLM reçoit une instruction accompagnée d'un contexte—souvent composé de textes extraits d'une base de connaissances ou d'une mémoire—et génère une réponse contextualisée en suivant l'instruction. Des études récentes ont conçu des solutions pour retracer un sous-ensemble de textes dans le contexte qui contribuent le plus à la réponse générée par le LLM. Ces solutions ont de nombreuses applications pratiques, notamment l'analyse médico-légale post-attaque et l'amélioration de l'interprétabilité et de la fiabilité des sorties des LLM. Bien que des efforts significatifs aient été déployés, les solutions de pointe comme TracLLM entraînent souvent un coût de calcul élevé, par exemple, il faut à TracLLM des centaines de secondes pour effectuer un retraçage pour une seule paire réponse-contexte. Dans ce travail, nous proposons AttnTrace, une nouvelle méthode de retraçage de contexte basée sur les poids d'attention produits par un LLM pour une invite. Pour utiliser efficacement les poids d'attention, nous introduisons deux techniques conçues pour améliorer l'efficacité d'AttnTrace, et nous fournissons des insights théoriques pour notre choix de conception. Nous effectuons également une évaluation systématique d'AttnTrace. Les résultats démontrent qu'AttnTrace est plus précis et efficace que les méthodes de retraçage de contexte existantes de pointe. Nous montrons également qu'AttnTrace peut améliorer les méthodes de pointe dans la détection d'injection d'invites dans des contextes longs grâce au paradigme d'attribution avant détection. Comme application pratique, nous démontrons qu'AttnTrace peut identifier efficacement les instructions injectées dans un article conçu pour manipuler les critiques générées par un LLM. Le code est disponible à l'adresse https://github.com/Wang-Yanting/AttnTrace.
L'adaptation à faible rang (LoRA) est devenue un outil standard pour le réglage fin efficace des grands modèles de langage (LLM). Cependant, même des mises à jour mineures de LoRA peuvent induire une dérive d'alignement, affaiblissant les contraintes de sécurité et de comportement par des modifications de paramètres entrelacées. Pour résoudre ce problème, nous proposons AlignGuard-LoRA (AGL), un cadre méthodologique pour préserver l'alignement lors du réglage fin. AGL introduit plusieurs composants clés : une fonction de perte principale pour la supervision, une régularisation basée sur la matrice d'information de Fisher pour limiter les mises à jour dans les sous-espaces sensibles à l'alignement, et une régularisation spécifique à la tâche pour stabiliser l'intégration de nouvelles connaissances. Nous introduisons également une régularisation consciente des collisions, combinant le chevauchement riemannien -- qui pénalise les interférences coordonnée par coordonnée -- et la séparation géodésique -- qui encourage une géométrie de mise à jour disjointe. Nous avons conçu DriftCaps, un benchmark de diagnostic ciblé composé de prompts sûrs et non sûrs, conçu pour quantifier la dérive d'alignement et la dégradation de la sécurité. Les évaluations empiriques montrent qu'AGL réduit la dérive d'alignement jusqu'à 50 % sur des benchmarks critiques pour la sécurité sans dégrader les performances des tâches en aval. Une ablation complète confirme que chaque composant contribue distinctement à la préservation des comportements de sécurité latents. Enfin, nous dérivons et validons une loi d'échelle pour l'oubli catastrophique, révélant qu'AGL aplanit l'escalade de la perte post-réglage fin tout en préservant la dynamique d'adaptation. AGL est un raffinement structurellement fondé de LoRA, garantissant la préservation de l'alignement avec des compromis minimaux. Pour encourager l'exploration et le développement ultérieurs, nous rendons notre implémentation open-source.
La complétion de code au niveau des tokens est l'une des fonctionnalités les plus critiques des environnements de développement intégrés (IDE) modernes. Elle aide les développeurs en suggérant des identifiants et des API pertinents pendant la phase de codage. Bien que les suggestions soient généralement dérivées d'une analyse statique, leur utilité dépend fortement de la manière dont elles sont classées, car les prédictions correctes enfouies profondément dans la liste sont rarement vues par les utilisateurs. La plupart des systèmes actuels reposent sur des heuristiques conçues manuellement ou sur des modèles d'apprentissage automatique légers entraînés sur des logs d'utilisateurs, qui peuvent être encore améliorés pour capturer les informations contextuelles et généraliser à travers les projets et les styles de codage. Dans ce travail, nous proposons une nouvelle approche de notation pour classer les complétions statiques en utilisant des modèles de langage de manière légère et indépendante du modèle. Notre méthode organise toutes les complétions valides dans un arbre de préfixes et effectue un seul passage de décodage glouton pour collecter les scores au niveau des tokens à travers l'arbre. Cela permet un classement précis et conscient des tokens sans nécessiter de recherche par faisceau, d'ingénierie de prompts ou d'adaptations de modèles. L'approche est rapide, indépendante de l'architecture et compatible avec les modèles déjà déployés pour la complétion de code. Ces résultats mettent en évidence une voie pratique et efficace pour intégrer des modèles de langage dans les outils déjà existants au sein des IDE, et finalement fournir une assistance aux développeurs plus intelligente et réactive.
Les grands modèles de langage (LLMs) affinés pour s'aligner sur les valeurs humaines présentent souvent une dérive d'alignement, produisant des complétions dangereuses ou violant les politiques lorsqu'ils sont exposés à des invites adverses, des perturbations de décodage ou des paraphrases de contournement. Bien que les travaux antérieurs aient caractérisé comportementalement les échecs d'alignement, peu de choses sont connues sur les sources de croyances pendant l'entraînement qui sous-tendent ces échecs. Nous introduisons TraceAlign, un cadre unifié pour retracer les complétions dangereuses jusqu'à leurs causes profondes dans le corpus d'entraînement du modèle. Au cœur de notre approche se trouve l'indice de conflit de croyance (BCI), qui quantifie l'incohérence sémantique entre les segments générés et les politiques alignées, en s'appuyant sur des documents d'entraînement récupérés via un appariement de tableaux de suffixes. Nous proposons trois interventions complémentaires : (i) TraceShield, un filtre de sécurité en temps d'inférence qui refuse les complétions contenant des segments à BCI élevé, (ii) la perte de déconfliction de croyance contrastive, un objectif d'affinage contrastif pénalisant les continuations à BCI élevé pendant l'optimisation des préférences directes (DPO), et (iii) Prov-Decode, une stratégie de décodage prenant en compte la provenance qui rejette les expansions de faisceau prédites pour produire des segments à BCI élevé. Ensemble, ces défenses réduisent la dérive d'alignement jusqu'à 85 % sur notre benchmark de dérive d'alignement (ADB) tout en préservant l'utilité sur les tâches standard, avec un delta inférieur à 0,2 et une qualité de refus améliorée. Nous dérivons également une borne supérieure théorique sur la probabilité de dérive via les statistiques des segments de tableaux de suffixes, reliant la fréquence de mémorisation et la longueur au risque de réactivation adverse. TraceAlign fournit ainsi le premier ensemble d'outils évolutif, traçable et fondé pour comprendre et atténuer les échecs d'alignement à la source. Pour encourager l'exploration et le développement ultérieurs, nous rendons notre implémentation open-source à l'adresse suivante : https://anonymous.4open.science/r/tracealign-2DA7