papers.description
Nous présentons la Drivelologie, un phénomène linguistique unique caractérisé comme un "non-sens avec profondeur", des énoncés syntaxiquement cohérents mais pragmatiquement paradoxaux, chargés émotionnellement ou rhétoriquement subversifs. Bien que ces expressions puissent ressembler à un non-sens superficiel, elles encodent une signification implicite nécessitant une inférence contextuelle, un raisonnement moral ou une interprétation émotionnelle. Nous constatons que les grands modèles de langage (LLMs) actuels, bien qu'excellant dans de nombreuses tâches de traitement du langage naturel (NLP), échouent systématiquement à saisir la sémantique stratifiée des textes Drivelologiques. Pour étudier cela, nous avons construit un petit ensemble de données de référence diversifié de plus de 1 200 exemples soigneusement sélectionnés, avec des instances en anglais, mandarin, espagnol, français, japonais et coréen. L'annotation a été particulièrement difficile : chaque exemple a nécessité un examen expert minutieux pour vérifier qu'il reflétait véritablement les caractéristiques Drivelologiques. Le processus a impliqué plusieurs tours de discussion et d'arbitrage pour résoudre les désaccords, mettant en évidence la nature subtile et subjective de la Drivelologie. Nous évaluons une gamme de LLMs sur des tâches de classification, de génération et de raisonnement. Nos résultats révèlent des limites claires des LLMs : les modèles confondent souvent la Drivelologie avec un non-sens superficiel, produisent des justifications incohérentes ou manquent complètement la fonction rhétorique implicite. Ces résultats mettent en lumière un déficit de représentation plus profond dans la compréhension pragmatique des LLMs et remettent en question l'hypothèse selon laquelle la fluidité statistique implique une compréhension cognitive. Nous publions notre ensemble de données et notre code pour faciliter des recherches ultérieures sur la modélisation de la profondeur linguistique au-delà de la cohérence superficielle.
L'exploitation des connaissances visuelles préalables issues de modèles génératifs texte-à-image (T2I) pré-entraînés a montré des succès dans les tâches de prédiction dense. Cependant, la prédiction dense est intrinsèquement une tâche image-à-image, suggérant que les modèles d'édition d'images, plutôt que les modèles génératifs T2I, pourraient constituer une base plus adaptée pour le fine-tuning. Motivés par cette observation, nous menons une analyse systématique des comportements de fine-tuning des éditeurs et des générateurs pour l'estimation de géométrie dense. Nos résultats montrent que les modèles d'édition possèdent des connaissances structurelles inhérentes, qui leur permettent de converger plus stablement en « affinant » leurs caractéristiques intrinsèques, et d'atteindre finalement des performances supérieures à celles de leurs homologues génératifs. Sur la base de ces découvertes, nous introduisons FE2E, un cadre qui adapte de manière pionnière un modèle d'édition avancé basé sur l'architecture Diffusion Transformer (DiT) pour la prédiction de géométrie dense. Plus précisément, pour adapter l'éditeur à cette tâche déterministe, nous reformulons la fonction de perte originale de correspondance de flux de l'éditeur en un objectif d'entraînement de « vitesse cohérente ». Nous utilisons également la quantification logarithmique pour résoudre le conflit de précision entre le format natif BFloat16 de l'éditeur et la demande de haute précision de nos tâches. De plus, nous exploitons l'attention globale du DiT pour une estimation conjointe sans coût de la profondeur et des normales en une seule passe avant, permettant à leurs signaux de supervision de s'améliorer mutuellement. Sans augmenter la quantité de données d'entraînement, FE2E réalise des améliorations impressionnantes de performance dans l'estimation de profondeur monoculaire et de normales en zero-shot sur plusieurs jeux de données. Notamment, il atteint des gains de performance de plus de 35 % sur le jeu de données ETH3D et surpasse la série DepthAnything, pourtant entraînée sur 100 fois plus de données. La page du projet est accessible ici : https://amap-ml.github.io/FE2E/.
Deux principales sources de données d'entraînement existent pour le post-entraînement des modèles de langage modernes : les données en ligne (rollouts générés par le modèle) et les données hors ligne (démonstrations humaines ou provenant d'autres modèles). Ces deux types de données sont généralement utilisés respectivement par des approches comme l'apprentissage par renforcement (RL) et le réglage fin supervisé (SFT). Dans cet article, nous montrons que ces approches ne sont pas contradictoires, mais sont des instances d'un processus d'optimisation unique. Nous dérivons un estimateur de gradient de politique unifié et présentons les calculs d'un large spectre d'approches de post-entraînement comme le gradient d'un objectif commun sous différentes hypothèses de distribution de données et divers compromis biais-variance. L'estimateur de gradient est construit avec quatre parties interchangeables : un masque de stabilisation, un dénominateur de politique de référence, une estimation de l'avantage et un gradient de vraisemblance. Motivés par nos découvertes théoriques, nous proposons le Post-Entraînement Hybride (HPT), un algorithme qui sélectionne dynamiquement différents signaux d'entraînement. HPT est conçu pour permettre à la fois une exploitation efficace des démonstrations et une exploration stable sans sacrifier les schémas de raisonnement appris. Nous fournissons des expériences approfondies et des études d'ablation pour vérifier l'efficacité de notre cadre théorique unifié et de HPT. Sur six benchmarks de raisonnement mathématique et deux suites hors distribution, HPT surpasse systématiquement des bases de référence solides à travers des modèles de différentes échelles et familles.
Les grands modèles de langage (LLM) obtiennent des performances solides sur des tâches variées, mais manifestent souvent une inertie cognitive, peinant à suivre des instructions qui entrent en conflit avec les schémas standardisés appris lors du réglage supervisé (SFT). Pour évaluer cette limitation, nous proposons Inverse IFEval, un benchmark qui mesure la capacité contre-intuitive des modèles à surmonter les biais induits par l'entraînement et à se conformer à des instructions adverses. Inverse IFEval introduit huit types de défis, notamment la correction de questions, les défauts textuels intentionnels, le code sans commentaires et les réponses contrefactuelles. En utilisant un pipeline avec intervention humaine, nous construisons un ensemble de données de 1012 questions de haute qualité en chinois et en anglais, couvrant 23 domaines, évaluées dans le cadre d'un système optimisé LLM-as-a-Judge. Les expériences sur les LLM leaders actuels démontrent la nécessité de notre benchmark Inverse IFEval. Nos résultats soulignent que les futurs efforts d'alignement ne devraient pas seulement viser la fluidité et l'exactitude factuelle, mais aussi prendre en compte l'adaptabilité dans des contextes non conventionnels. Nous espérons qu'Inverse IFEval servira à la fois d'outil de diagnostic et de base pour développer des méthodes atténuant l'inertie cognitive, réduisant le surajustement à des schémas étroits et améliorant finalement la fiabilité des LLM à suivre des instructions dans des scénarios réels divers et imprévisibles.
Les agents de recherche approfondie suscitent un intérêt croissant pour leur capacité à orchestrer des workflows de recherche multi-étapes, englobant la synthèse de la littérature, la conception méthodologique et la vérification empirique. Malgré ces avancées, évaluer fidèlement leurs capacités de recherche reste un défi majeur, en raison de la difficulté à collecter des questions de recherche de pointe qui captent véritablement l'attention et la curiosité intellectuelle des chercheurs. Pour combler cette lacune, nous présentons DeepResearch Arena, un benchmark ancré dans des séminaires académiques qui capturent des discours et des interactions riches entre experts, reflétant mieux les environnements de recherche réels et réduisant le risque de fuite de données. Pour construire automatiquement DeepResearch Arena, nous proposons un système de Génération Hiérarchique de Tâches par Agents Multiples (MAHTG) qui extrait des inspirations dignes de recherche à partir de transcriptions de séminaires. Le système MAHTG transforme ensuite ces inspirations en tâches de recherche de haute qualité, garantissant la traçabilité de la formulation des tâches tout en filtrant le bruit. Grâce au système MAHTG, nous avons constitué DeepResearch Arena avec plus de 10 000 tâches de recherche de haute qualité issues de plus de 200 séminaires académiques, couvrant 12 disciplines telles que la littérature, l'histoire et les sciences. Notre évaluation approfondie montre que DeepResearch Arena présente des défis substantiels pour les agents actuels de pointe, avec des écarts de performance clairs observés entre différents modèles.
Nous présentons NER Retriever, un cadre de récupération zero-shot pour la recherche ad-hoc d'entités nommées, une variante de la Reconnaissance d'Entités Nommées (NER), où les types d'intérêt ne sont pas fournis à l'avance, et une description de type définie par l'utilisateur est utilisée pour récupérer les documents mentionnant des entités de ce type. Plutôt que de s'appuyer sur des schémas fixes ou des modèles affinés, notre méthode s'appuie sur les représentations internes des grands modèles de langage (LLMs) pour intégrer à la fois les mentions d'entités et les descriptions de types ouvertes fournies par l'utilisateur dans un espace sémantique partagé. Nous montrons que les représentations internes, en particulier les vecteurs de valeur des blocs transformateurs des couches intermédiaires, encodent des informations de type plus fines que les embeddings couramment utilisés dans les couches supérieures. Pour affiner ces représentations, nous entraînons un réseau de projection contrastif léger qui aligne les entités compatibles tout en séparant les types non liés. Les embeddings d'entités résultants sont compacts, conscients du type et bien adaptés à la recherche des plus proches voisins. Évalué sur trois benchmarks, NER Retriever surpasse significativement les bases de référence lexicales et denses au niveau de la phrase. Nos résultats fournissent un support empirique pour la sélection de représentations au sein des LLMs et démontrent une solution pratique pour la récupération d'entités scalable et sans schéma. Le codebase de NER Retriever est disponible publiquement à l'adresse https://github.com/ShacharOr100/ner_retriever.
Un dilemme fondamental persiste dans la modélisation générative : les modèles de diffusion itérative atteignent une fidélité exceptionnelle, mais à un coût computationnel significatif, tandis que les alternatives efficaces en quelques étapes sont limitées par un plafond de qualité difficile à dépasser. Ce conflit entre le nombre d'étapes de génération et la qualité des résultats découle d'objectifs d'entraînement restrictifs qui se concentrent exclusivement soit sur les dynamiques infinitésimales (PF-ODEs), soit sur la prédiction directe des points finaux. Nous relevons ce défi en introduisant une équation dynamique exacte en temps continu qui définit analytiquement les transitions d'état sur tout intervalle de temps fini. Cela conduit à un nouveau paradigme génératif, les Modèles de Transition (TiM), qui s'adaptent à des transitions arbitraires, parcourant de manière fluide la trajectoire générative, des sauts uniques au raffinement granulaire avec plus d'étapes. Malgré ses 865 millions de paramètres seulement, TiM atteint des performances de pointe, surpassant des modèles leaders tels que SD3.5 (8 milliards de paramètres) et FLUX.1 (12 milliards de paramètres) pour tous les nombres d'étapes évalués. Fait important, contrairement aux générateurs en quelques étapes précédents, TiM démontre une amélioration monotone de la qualité à mesure que le budget d'échantillonnage augmente. De plus, en utilisant notre stratégie de résolution native, TiM offre une fidélité exceptionnelle à des résolutions allant jusqu'à 4096x4096.
Les récents progrès des modèles de langage à grande échelle (LLMs) ont démontré que leurs capacités de raisonnement peuvent être significativement améliorées grâce à l'apprentissage par renforcement avec récompense vérifiable (RLVR), en particulier dans des domaines comme les mathématiques et la programmation, où la justesse des réponses peut être automatiquement évaluée. Cependant, étendre ce succès à d'autres domaines nécessitant un raisonnement approfondi reste un défi en raison de la rareté de jeux de données de haute qualité et vérifiables, ainsi que du coût élevé de la supervision humaine. Dans ce travail, nous présentons le projet Loong : un cadre open-source pour la génération et la vérification de données synthétiques à grande échelle, applicable à une diversité de domaines intensifs en raisonnement. Ce cadre se compose de deux éléments clés : (1) LoongBench, un jeu de données de départ soigneusement sélectionné contenant 8 729 exemples validés par des humains dans 12 domaines (par exemple, Mathématiques Avancées, Chimie, Logique), chacun accompagné de code exécutable et de métadonnées riches ; et (2) LoongEnv, un environnement modulaire de génération de données synthétiques qui prend en charge plusieurs stratégies d'invite pour produire de nouveaux triplets question-réponse-code. Ensemble, ces composants forment une boucle agent-environnement qui permet l'apprentissage par renforcement, où un agent basé sur un LLM est récompensé pour générer des solutions en chaîne de pensée (CoT) qui correspondent aux réponses exécutées par le code. Empiriquement, nous évaluons LoongBench sur un large éventail de LLMs, à la fois open-source et propriétaires, pour mesurer la couverture des domaines et identifier les goulots d'étranglement en termes de performance. De plus, nous menons une analyse approfondie des données synthétiques générées par LoongEnv, en examinant leur exactitude, leur difficulté et leur diversité. Le code et la documentation sont disponibles à l'adresse https://github.com/camel-ai/loong.
La compréhension des vidéos longues, caractérisée par des dépendances temporelles étendues et des événements multiples, reste un défi. Les méthodes existantes reposent souvent sur un raisonnement statique ou sur des modèles visio-linguistiques (VLMs) externes, qui rencontrent des problèmes de complexité et de performances sous-optimales en raison de l'absence d'un apprentissage de bout en bout. Dans cet article, nous proposons Video-MTR, un cadre de raisonnement multi-tours renforcé conçu pour permettre une sélection itérative de segments vidéo clés et une compréhension des questions. Contrairement au pipeline de raisonnement vidéo traditionnel, qui génère des prédictions en un seul tour, Video-MTR effectue un raisonnement en plusieurs tours, sélectionnant progressivement les segments vidéo en fonction de la compréhension évolutive des segments précédemment traités et de la question actuelle. Ce processus itératif permet une analyse plus affinée et contextuellement consciente de la vidéo. Pour garantir un processus de raisonnement intermédiaire, nous introduisons un nouveau système de récompense bi-niveau à verrouillage, combinant des récompenses au niveau de la trajectoire basées sur l'exactitude des réponses et des récompenses au niveau du tour mettant l'accent sur la pertinence entre les images et les requêtes. Ce système optimise à la fois la sélection des segments vidéo et la compréhension des questions, éliminant le besoin de VLMs externes et permettant un apprentissage de bout en bout. Des expériences approfondies sur des benchmarks tels que VideoMME, MLVU et EgoSchema démontrent que Video-MTR surpasse les méthodes existantes en termes de précision et d'efficacité, faisant progresser l'état de l'art dans la compréhension des vidéos longues.
Les modèles de génération 3D basés sur des flux nécessitent généralement des dizaines d'étapes d'échantillonnage lors de l'inférence. Bien que les méthodes de distillation en quelques étapes, en particulier les Modèles de Consistance (CMs), aient réalisé des avancées significatives pour accélérer les modèles de diffusion 2D, elles restent peu explorées pour les tâches de génération 3D plus complexes. Dans cette étude, nous proposons un nouveau cadre, MDT-dist, pour la distillation de flux 3D en quelques étapes. Notre approche repose sur un objectif principal : distiller le modèle pré-entraîné pour apprendre le Transport Marginal des Données. L'apprentissage direct de cet objectif nécessite d'intégrer les champs de vitesse, mais cette intégrale est difficile à mettre en œuvre. Par conséquent, nous proposons deux objectifs optimisables, l'Appariement de Vitesse (VM) et la Distillation de Vitesse (VD), pour convertir de manière équivalente la cible d'optimisation du niveau de transport vers le niveau de vitesse et de distribution respectivement. L'Appariement de Vitesse (VM) apprend à faire correspondre de manière stable les champs de vitesse entre l'élève et le professeur, mais fournit inévitablement des estimations de gradient biaisées. La Distillation de Vitesse (VD) améliore encore le processus d'optimisation en exploitant les champs de vitesse appris pour effectuer une distillation de densité de probabilité. Lorsqu'elle est évaluée sur le cadre de génération 3D pionnier TRELLIS, notre méthode réduit les étapes d'échantillonnage de chaque transformateur de flux de 25 à 1 ou 2, atteignant des latences de 0,68s (1 étape x 2) et 0,94s (2 étapes x 2) avec des accélérations de 9,0x et 6,5x sur A800, tout en préservant une haute fidélité visuelle et géométrique. Des expériences approfondies démontrent que notre méthode surpasse significativement les méthodes de distillation CM existantes et permet à TRELLIS d'atteindre des performances supérieures dans la génération 3D en quelques étapes.
Nous présentons Durian, la première méthode permettant de générer des vidéos d'animation de portraits avec transfert d'attributs faciaux à partir d'une image de référence donnée vers un portrait cible, de manière zero-shot. Pour permettre un transfert d'attributs de haute fidélité et spatialement cohérent entre les images, nous introduisons des réseaux de référence duals qui injectent des caractéristiques spatiales issues à la fois du portrait et des images d'attributs dans le processus de débruitage d'un modèle de diffusion. Nous entraînons le modèle en utilisant une formulation d'auto-reconstruction, où deux images sont extraites d'une même vidéo de portrait : l'une est traitée comme référence d'attribut et l'autre comme portrait cible, et les images restantes sont reconstruites en fonction de ces entrées et de leurs masques correspondants. Pour faciliter le transfert d'attributs de différentes étendues spatiales, nous proposons une stratégie d'expansion de masque utilisant la génération d'images conditionnée par des points clés pour l'entraînement. De plus, nous enrichissons les images d'attributs et de portraits avec des transformations spatiales et au niveau de l'apparence pour améliorer la robustesse aux désalignements de position entre elles. Ces stratégies permettent au modèle de généraliser efficacement à travers divers attributs et combinaisons de références en conditions réelles, bien qu'il soit entraîné sans supervision explicite par triplets. Durian atteint des performances de pointe en animation de portraits avec transfert d'attributs, et, de manière notable, sa conception à référence duale permet la composition multi-attributs en une seule passe de génération sans entraînement supplémentaire.
La modélisation générative assistée par ordinateur (CAO) est à l'origine d'innovations majeures dans diverses applications industrielles. Des travaux récents ont montré des progrès remarquables dans la création de modèles solides à partir de différentes entrées telles que des nuages de points, des maillages et des descriptions textuelles. Cependant, ces méthodes divergent fondamentalement des workflows industriels traditionnels qui commencent par des dessins techniques 2D. La génération automatique de modèles CAO paramétriques à partir de ces dessins vectoriels 2D reste peu explorée, bien qu'elle constitue une étape cruciale dans la conception technique. Pour combler cette lacune, notre idée clé est de reformuler la génération CAO comme un problème d'apprentissage séquence-à-séquence où les primitives vectorielles des dessins informent directement la génération d'opérations CAO paramétriques, préservant ainsi la précision géométrique et l'intention de conception tout au long du processus de transformation. Nous proposons Drawing2CAD, un cadre comprenant trois composants techniques clés : une représentation des primitives vectorielles adaptée aux réseaux de neurones qui préserve les informations géométriques précises, une architecture transformer à double décodeur qui découple la génération des types de commandes et des paramètres tout en maintenant une correspondance précise, et une fonction de perte basée sur une distribution cible souple prenant en compte la flexibilité inhérente des paramètres CAO. Pour entraîner et évaluer Drawing2CAD, nous créons CAD-VGDrawing, un ensemble de données associant des dessins techniques à des modèles CAO paramétriques, et menons des expériences approfondies pour démontrer l'efficacité de notre méthode. Le code et l'ensemble de données sont disponibles à l'adresse https://github.com/lllssc/Drawing2CAD.
Le succès des modèles de langage de grande envergure (LLMs) open source puissants a permis à la communauté de créer une vaste collection de modèles post-entraînés adaptés à des tâches et domaines spécifiques. Cependant, naviguer et comprendre ces modèles reste un défi en raison de métadonnées incohérentes et de dépôts non structurés. Nous introduisons Delta Activations, une méthode pour représenter les modèles affinés sous forme de vecteurs d'embeddings en mesurant les décalages dans leurs activations internes par rapport à un modèle de base. Cette représentation permet un clustering efficace par domaine et tâche, révélant ainsi une structure dans le paysage des modèles. Delta Activations démontre également des propriétés souhaitables : elle est robuste à différents paramètres d'affinage et présente une propriété additive lorsque les ensembles de données d'affinage sont mélangés. De plus, nous montrons que Delta Activations peut intégrer des tâches via un affinage en few-shot, et explorons son utilisation pour la sélection et la fusion de modèles. Nous espérons que Delta Activations pourra faciliter la réutilisation des modèles disponibles publiquement. Le code est disponible à l'adresse https://github.com/OscarXZQ/delta_activations.
Les grands modèles de langage (LLMs) peuvent se conformer à des instructions nuisibles, soulevant de sérieuses préoccupations en matière de sécurité malgré leurs capacités impressionnantes. Des travaux récents ont exploité des approches basées sur le sondage pour étudier la séparabilité des entrées malveillantes et bénignes dans les représentations internes des LLMs, et les chercheurs ont proposé d'utiliser ces méthodes de sondage pour la détection de la sécurité. Nous réexaminons systématiquement ce paradigme. Motivés par les faibles performances hors distribution, nous émettons l'hypothèse que les sondes apprennent des motifs superficiels plutôt que la nocivité sémantique. À travers des expériences contrôlées, nous confirmons cette hypothèse et identifions les motifs spécifiques appris : les motifs d'instruction et les mots déclencheurs. Notre investigation suit une approche systématique, progressant de la démonstration de performances comparables avec des méthodes simples de n-grammes, à des expériences contrôlées avec des ensembles de données sémantiquement nettoyés, jusqu'à une analyse détaillée des dépendances des motifs. Ces résultats révèlent un faux sentiment de sécurité autour des approches actuelles basées sur le sondage et soulignent la nécessité de repenser à la fois les modèles et les protocoles d'évaluation, pour lesquels nous fournissons des discussions supplémentaires dans l'espoir de suggérer des recherches responsables dans cette direction. Nous avons rendu le projet open-source à l'adresse https://github.com/WangCheng0116/Why-Probe-Fails.