ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Rapport Technique de VibeVoice
VibeVoice Technical Report

Aug 26
ByZhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei
18
1

Ce rapport présente VibeVoice, un nouveau modèle conçu pour synthétiser des discours de longue durée avec plusieurs locuteurs en utilisant la diffusion de tokens suivants, une méthode unifiée pour modéliser des données continues en générant de manière autoregressive des vecteurs latents via la diffusion. Pour ce faire, nous introduisons un nouveau tokeniseur de parole continue qui, comparé au modèle Encodec populaire, amliore la compression des données par un facteur de 80 tout en maintenant des performances comparables. Le tokeniseur préserve efficacement la fidélité audio tout en augmentant significativement l'efficacité computationnelle pour le traitement de longues séquences. Ainsi, VibeVoice peut synthétiser des discours de longue durée allant jusqu'à 90 minutes (dans une fenêtre contextuelle de 64K) avec un maximum de 4 locuteurs, capturant l'« ambiance » authentique des conversations et surpassant les modèles de dialogue open-source et propriétaires.

2

Spacer : Vers une inspiration scientifique ingénierisée
Spacer: Towards Engineered Scientific Inspiration

Aug 25
ByMinhyeong Lee, Suyoung Hwang, Seunghyun Moon, Geonho Nah, Donghyun Koh, Youngjun Cho, Johyun Park, Hojin Yoo, Jiho Park, Haneul Choi, Sungbin Moon, Taehoon Hwang, Seungwon Kim, Jaeyeong Kim, Seongjun Kim, Juneau Jung
18
1

Les récentes avancées dans les LLM (modèles de langage de grande envergure) ont placé la recherche scientifique automatisée au premier plan sur la voie de la superintelligence artificielle. Cependant, ces systèmes sont généralement limités à des tâches de portée restreinte ou aux capacités créatives limitées des LLM. Nous proposons Spacer, un système de découverte scientifique qui développe des concepts créatifs et factuellement fondés sans intervention externe. Spacer tente d'y parvenir via la « décontextualisation délibérée », une approche qui décompose l'information en unités atomiques — des mots-clés — et puise la créativité dans des connexions inexplorées entre eux. Spacer se compose de (i) Nuri, un moteur d'inspiration qui construit des ensembles de mots-clés, et (ii) le Pipeline de Manifestation qui affine ces ensembles en énoncés scientifiques élaborés. Nuri extrait des ensembles de mots-clés novateurs et à fort potentiel d'un graphe de mots-clés construit à partir de 180 000 publications académiques dans les domaines biologiques. Le Pipeline de Manifestation établit des liens entre les mots-clés, analyse leur structure logique, valide leur plausibilité et rédige finalement des concepts scientifiques originaux. Selon nos expériences, la métrique d'évaluation de Nuri classe avec précision les publications à fort impact avec un score AUROC de 0,737. Notre Pipeline de Manifestation reconstruit également avec succès les concepts clés des articles les plus récents des meilleures revues uniquement à partir de leurs ensembles de mots-clés. Un système de notation basé sur un LLM estime que cette reconstruction était solide dans plus de 85 % des cas. Enfin, notre analyse de l'espace d'embedding montre que les sorties de Spacer sont significativement plus similaires aux publications de référence par rapport à celles des LLM de pointe (SOTA).

3

CMPhysBench : Un benchmark pour évaluer les modèles de langage de grande taille en physique de la matière condensée
CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

Aug 25
ByWeida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Pu, Yuhan Shui, Qianjia Cheng, Zhihao Dou, Dongfei Cui, Changyong He, Jin Zeng, Zeke Xie, Mao Su, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, Yunqi Cai, Xi Dai, Shufei Zhang, Lei Bai, Jinguang Cheng, Zhong Fang, Hongming Weng
15
1

Nous présentons CMPhysBench, conçu pour évaluer la maîtrise des modèles de langage de grande taille (LLMs) en physique de la matière condensée, en tant que nouveau benchmark. CMPhysBench est composé de plus de 520 questions soigneusement sélectionnées au niveau des études supérieures, couvrant à la fois des sous-domaines représentatifs et des cadres théoriques fondamentaux de la physique de la matière condensée, tels que le magnétisme, la supraconductivité, les systèmes fortement corrélés, etc. Pour garantir une compréhension approfondie du processus de résolution de problèmes, nous nous concentrons exclusivement sur des problèmes de calcul, exigeant que les LLMs génèrent de manière indépendante des solutions complètes. Parallèlement, en exploitant des représentations arborescentes des expressions, nous introduisons le score SEED (Scalable Expression Edit Distance), qui fournit un crédit partiel fin (non binaire) et permet une évaluation plus précise de la similarité entre la prédiction et la vérité de référence. Nos résultats montrent que même les meilleurs modèles, comme Grok-4, n'atteignent qu'un score SEED moyen de 36 et une précision de 28 % sur CMPhysBench, soulignant un écart de capacité significatif, en particulier pour ce domaine pratique et de pointe par rapport à la physique traditionnelle. Le code et le jeu de données sont disponibles publiquement à l'adresse https://github.com/CMPhysBench/CMPhysBench.

4

OmniHuman-1.5 : Instiller un esprit actif dans les avatars via une simulation cognitive
OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

Aug 26
ByJianwen Jiang, Weihong Zeng, Zerong Zheng, Jiaqi Yang, Chao Liang, Wang Liao, Han Liang, Yuan Zhang, Mingyuan Gao
11
1

Les modèles existants d'avatars vidéo peuvent produire des animations humaines fluides, mais ils peinent à dépasser la simple ressemblance physique pour capturer l'essence authentique d'un personnage. Leurs mouvements sont généralement synchronisés avec des indices de bas niveau comme le rythme audio, manquant d'une compréhension sémantique plus profonde des émotions, des intentions ou du contexte. Pour combler cette lacune, nous proposons un cadre conçu pour générer des animations de personnages qui sont non seulement physiquement plausibles, mais aussi sémantiquement cohérentes et expressives. Notre modèle, OmniHuman-1.5, repose sur deux contributions techniques clés. Premièrement, nous exploitons des Modèles de Langage Multimodaux de Grande Taille pour synthétiser une représentation textuelle structurée des conditions qui fournit un guidage sémantique de haut niveau. Ce guidage oriente notre générateur de mouvements au-delà d'une simple synchronisation rythmique, permettant la production d'actions qui résonnent contextuellement et émotionnellement. Deuxièmement, pour assurer la fusion efficace de ces entrées multimodales et atténuer les conflits inter-modaux, nous introduisons une architecture DiT Multimodale spécialisée avec une conception innovante de Pseudo Dernière Image. La synergie de ces composants permet à notre modèle d'interpréter avec précision la sémantique conjointe de l'audio, des images et du texte, générant ainsi des mouvements profondément cohérents avec le personnage, la scène et le contenu linguistique. Des expériences approfondies démontrent que notre modèle atteint des performances de pointe sur un ensemble complet de métriques, incluant la précision de la synchronisation labiale, la qualité vidéo, le naturel des mouvements et la cohérence sémantique avec les invites textuelles. De plus, notre approche montre une extensibilité remarquable à des scénarios complexes, tels que ceux impliquant plusieurs personnes et des sujets non humains. Page d'accueil : https://omnihuman-lab.github.io/v1_5/

5

UltraMemV2 : Réseaux de mémoire évolutifs jusqu'à 120 milliards de paramètres avec un apprentissage de contexte long supérieur
UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning

Aug 26
ByZihao Huang, Yu Bao, Qiyang Min, Siyan Chen, Ran Guo, Hongzhi Huang, Defa Zhu, Yutao Zeng, Banggu Wu, Xun Zhou, Siyuan Qiao
10
1

Bien que les modèles de mélange d'experts (MoE) atteignent une efficacité remarquable en activant uniquement des sous-ensembles de paramètres, ils souffrent de coûts élevés d'accès à la mémoire lors de l'inférence. Les architectures à couches mémoire offrent une alternative attrayante avec très peu d'accès à la mémoire, mais les tentatives précédentes comme UltraMem n'ont égalé que la performance des modèles MoE à 2 experts, restant bien en deçà des configurations de pointe à 8 experts. Nous présentons UltraMemV2, une architecture à couches mémoire repensée qui comble cet écart de performance. Notre approche introduit cinq améliorations clés : l'intégration de couches mémoire dans chaque bloc de transformateur, la simplification de l'expansion des valeurs avec des projections linéaires uniques, l'adoption du traitement des valeurs basé sur FFN de PEER, la mise en œuvre d'une initialisation des paramètres raisonnée, et le rééquilibrage des ratios de calcul mémoire-FFN. Grâce à une évaluation approfondie, nous démontrons qu'UltraMemV2 atteint une parité de performance avec les modèles MoE à 8 experts pour un même calcul et nombre de paramètres, mais avec un accès à la mémoire significativement réduit. Notamment, UltraMemV2 montre une performance supérieure sur les tâches intensives en mémoire, avec des améliorations de +1,6 points sur la mémorisation de contexte long, +6,2 points sur la mémorisation multi-tours, et +7,9 points sur l'apprentissage en contexte. Nous validons notre approche à grande échelle avec des modèles allant jusqu'à 2,5 milliards de paramètres activés sur un total de 120 milliards, et établissons que la densité d'activation a un impact plus important sur la performance que le nombre total de paramètres épars. Notre travail amène les architectures à couches mémoire à une parité de performance avec les modèles MoE de pointe, offrant une alternative convaincante pour le calcul épars efficace.

6

VoxHammer : Édition 3D précise et cohérente sans entraînement dans l'espace 3D natif
VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space

Aug 26
ByLin Li, Zehuan Huang, Haoran Feng, Gengxiong Zhuang, Rui Chen, Chunchao Guo, Lu Sheng
7
1

L'édition locale 3D de régions spécifiées est cruciale pour l'industrie du jeu vidéo et l'interaction robotique. Les méthodes récentes modifient généralement des images multi-vues rendues avant de reconstruire des modèles 3D, mais elles rencontrent des difficultés à préserver précisément les régions non modifiées et la cohérence globale. Inspirés par les modèles génératifs 3D structurés, nous proposons VoxHammer, une nouvelle approche sans apprentissage qui effectue des modifications précises et cohérentes dans l'espace latent 3D. Étant donné un modèle 3D, VoxHammer prédit d'abord sa trajectoire d'inversion et obtient ses latents inversés ainsi que ses tokens clé-valeur à chaque étape temporelle. Ensuite, lors de la phase de débruîtage et d'édition, nous remplaçons les caractéristiques de débruîtage des régions préservées par les latents inversés correspondants et les tokens clé-valeur mis en cache. En conservant ces caractéristiques contextuelles, cette approche garantit une reconstruction cohérente des zones préservées et une intégration harmonieuse des parties modifiées. Pour évaluer la cohérence des régions préservées, nous avons construit Edit3D-Bench, un ensemble de données annoté manuellement comprenant des centaines d'échantillons, chacun avec des régions d'édition 3D soigneusement étiquetées. Les expériences démontrent que VoxHammer surpasse significativement les méthodes existantes en termes de cohérence 3D des régions préservées et de qualité globale. Notre méthode promet de synthétiser des données modifiées appariées de haute qualité, jetant ainsi les bases de données pour la génération 3D contextuelle. Consultez notre page de projet à l'adresse https://huanngzh.github.io/VoxHammer-Page/.

7

TreePO : Combler l'écart entre l'optimisation de politique, l'efficacité et l'efficience de l'inférence grâce à une modélisation heuristique basée sur les arbres
TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

Aug 24
ByYizhi Li, Qingshui Gu, Zhoufutu Wen, Ziniu Li, Tianshun Xing, Shuyue Guo, Tianyu Zheng, Xin Zhou, Xingwei Qu, Wangchunshu Zhou, Zheng Zhang, Wei Shen, Qian Liu, Chenghua Lin, Jian Yang, Ge Zhang, Wenhao Huang
6
1

Les récents progrès dans l'alignement des grands modèles de langage via l'apprentissage par renforcement ont permis des gains remarquables dans la résolution de problèmes de raisonnement complexes, mais au prix de déploiements on-policy coûteux et d'une exploration limitée des chemins de raisonnement diversifiés. Dans ce travail, nous introduisons TreePO, impliquant un algorithme de déploiement auto-guidé qui considère la génération de séquences comme un processus de recherche structuré en arbre. Composé d'une politique d'échantillonnage dynamique d'arbre et d'un décodage de segments de longueur fixe, TreePO exploite l'incertitude locale pour garantir des branches supplémentaires. En amortissant le calcul sur les préfixes communs et en élaguant précocement les chemins de faible valeur, TreePO réduit essentiellement la charge de calcul par mise à jour tout en préservant ou en améliorant la diversité de l'exploration. Les contributions clés incluent : (1) un algorithme d'échantillonnage segmenté qui allège la charge du cache KV grâce à des segments contigus et génère de nouvelles branches avec un mécanisme d'arrêt précoce ; (2) une estimation d'avantage au niveau des segments basée sur l'arbre qui prend en compte à la fois l'optimisation de politique proximale globale et locale ; et (3) une analyse de l'efficacité de la divergence dynamique pilotée par la probabilité et la qualité ainsi que de la stratégie de repli. Nous validons empiriquement le gain de performance de TreePO sur un ensemble de benchmarks de raisonnement et l'économie d'efficacité en heures GPU de 22\% à 43\% pour la conception d'échantillonnage des modèles entraînés, tout en montrant une réduction allant jusqu'à 40\% au niveau des trajectoires et 35\% au niveau des tokens pour les modèles existants. Tout en offrant un gain d'efficacité d'inférence sans coût supplémentaire, TreePO révèle une voie pratique pour mettre à l'échelle le post-entraînement basé sur le RL avec moins d'échantillons et moins de calcul. La page d'accueil se trouve à l'adresse https://m-a-p.ai/TreePO.

8

Pixie : Apprentissage supervisé rapide et généralisable de la physique 3D à partir de pixels
Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels

Aug 20
ByLong Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu
6
1

Déduire les propriétés physiques de scènes 3D à partir d'informations visuelles est une tâche cruciale mais complexe pour créer des mondes virtuels interactifs et réalistes. Alors que les humains perçoivent intuitivement des caractéristiques matérielles telles que l'élasticité ou la rigidité, les méthodes existantes reposent souvent sur une optimisation lente et spécifique à chaque scène, limitant ainsi leur généralisabilité et leur applicabilité. Pour résoudre ce problème, nous présentons PIXIE, une méthode novatrice qui entraîne un réseau neuronal généralisable à prédire les propriétés physiques à travers plusieurs scènes à partir de caractéristiques visuelles 3D, en utilisant uniquement des pertes supervisées. Une fois entraîné, notre réseau feed-forward peut effectuer une inférence rapide de champs matériels plausibles, qui, couplés à une représentation statique apprise de la scène comme le Gaussian Splatting, permet une simulation physique réaliste sous l'effet de forces externes. Pour faciliter cette recherche, nous avons également collecté PIXIEVERSE, l'un des plus grands ensembles de données connus de ressources 3D appariées avec des annotations de matériaux physiques. Des évaluations approfondies démontrent que PIXIE est environ 1,46 à 4,39 fois plus performant et plusieurs ordres de grandeur plus rapide que les méthodes d'optimisation au moment du test. En exploitant des caractéristiques visuelles pré-entraînées comme CLIP, notre méthode peut également généraliser en zero-shot à des scènes du monde réel, bien qu'elle n'ait été entraînée que sur des données synthétiques. https://pixie-3d.github.io/

9

CineScale : Repas gratuit dans la génération visuelle cinématographique haute résolution
CineScale: Free Lunch in High-Resolution Cinematic Visual Generation

Aug 21
ByHaonan Qiu, Ning Yu, Ziqi Huang, Paul Debevec, Ziwei Liu
4
1

Les modèles de diffusion visuelle réalisent des progrès remarquables, mais ils sont généralement entraînés à des résolutions limitées en raison du manque de données haute résolution et de ressources de calcul restreintes, ce qui entrave leur capacité à générer des images ou des vidéos haute fidélité à des résolutions plus élevées. Des efforts récents ont exploré des stratégies sans ajustement pour révéler le potentiel inexploité de génération visuelle à plus haute résolution des modèles pré-entraînés. Cependant, ces méthodes restent sujettes à produire un contenu visuel de faible qualité avec des motifs répétitifs. L'obstacle clé réside dans l'augmentation inévitable des informations haute fréquence lorsque le modèle génère un contenu visuel dépassant sa résolution d'entraînement, conduisant à des motifs répétitifs indésirables découlant des erreurs accumulées. Dans ce travail, nous proposons CineScale, un nouveau paradigme d'inférence pour permettre la génération visuelle à plus haute résolution. Pour résoudre les divers problèmes introduits par les deux types d'architectures de génération vidéo, nous proposons des variantes dédiées adaptées à chacune. Contrairement aux méthodes de référence existantes qui se limitent à la génération haute résolution T2I et T2V, CineScale élargit le champ d'application en permettant la synthèse haute résolution I2V et V2V, construite sur des frameworks de génération vidéo open-source de pointe. Des expériences approfondies valident la supériorité de notre paradigme pour étendre les capacités de génération visuelle à plus haute résolution pour les modèles d'images et de vidéos. De manière remarquable, notre approche permet la génération d'images 8k sans aucun ajustement fin, et atteint la génération de vidéos 4k avec seulement un ajustement fin minimal par LoRA. Des échantillons vidéo générés sont disponibles sur notre site web : https://eyeline-labs.github.io/CineScale/.

10

Wan-S2V : Génération de vidéos cinématiques pilotée par l'audio
Wan-S2V: Audio-Driven Cinematic Video Generation

Aug 26
ByXin Gao, Li Hu, Siqi Hu, Mingyang Huang, Chaonan Ji, Dechao Meng, Jinwei Qi, Penchong Qiao, Zhen Shen, Yafei Song, Ke Sun, Linrui Tian, Guangyuan Wang, Qi Wang, Zhongjian Wang, Jiayu Xiao, Sheng Xu, Bang Zhang, Peng Zhang, Xindi Zhang, Zhe Zhang, Jingren Zhou, Lian Zhuo
2
1

Les méthodes actuelles de pointe (state-of-the-art, SOTA) pour l'animation de personnages pilotée par l'audio démontrent des performances prometteuses dans des scénarios impliquant principalement la parole et le chant. Cependant, elles peinent souvent à répondre aux exigences des productions cinématographiques et télévisuelles plus complexes, qui nécessitent des éléments sophistiqués tels que des interactions nuancées entre personnages, des mouvements corporels réalistes et des mouvements de caméra dynamiques. Pour relever ce défi de longue date consistant à atteindre un niveau cinématographique dans l'animation de personnages, nous proposons un modèle piloté par l'audio, que nous appelons Wan-S2V, construit sur la base de Wan. Notre modèle offre une expressivité et une fidélité nettement améliorées dans des contextes cinématographiques par rapport aux approches existantes. Nous avons mené des expériences approfondies, comparant notre méthode à des modèles de pointe tels que Hunyuan-Avatar et Omnihuman. Les résultats expérimentaux montrent systématiquement que notre approche surpasse significativement ces solutions existantes. Par ailleurs, nous explorons la polyvalence de notre méthode à travers ses applications dans la génération de vidéos longues et l'édition précise de la synchronisation labiale en vidéo.

11

QueryBandits pour l'atténuation des hallucinations : Exploitation des caractéristiques sémantiques pour une réécriture sans regret
QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting

Aug 22
ByNicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso
2
1

Les capacités de raisonnement avancées des modèles de langage à grande échelle (LLMs) ont entraîné une prévalence accrue des hallucinations ; pourtant, la plupart des travaux d'atténuation se concentrent sur le filtrage a posteriori plutôt que sur la formulation des requêtes qui les déclenchent. Nous introduisons QueryBandits, un cadre de bandits qui conçoit des stratégies de reformulation pour maximiser un modèle de récompense, encapsulant la propension aux hallucinations en fonction des sensibilités de 17 caractéristiques linguistiques de la requête d'entrée, et donc, oriente proactivement les LLMs pour éviter la génération d'hallucinations. Sur 13 benchmarks divers de questions-réponses et 1 050 requêtes lexicalement perturbées par jeu de données, notre meilleur QueryBandit contextuel (Thompson Sampling) atteint un taux de réussite de 87,5 % par rapport à une base de référence sans reformulation et surpasse également les incitations statiques sans apprentissage ("paraphrase" ou "expand") respectivement de 42,6 % et 60,3 %. Ainsi, nous validons empiriquement l'efficacité de QueryBandits pour atténuer les hallucinations via une intervention sous forme de reformulation de requête. Fait intéressant, certaines stratégies d'incitation statique, qui constituent une part considérable de la littérature actuelle sur la reformulation de requêtes, présentent un regret cumulatif plus élevé que la base de référence sans reformulation, indiquant que les reformulations statiques peuvent aggraver les hallucinations. De plus, nous découvrons que les vecteurs de poids des caractéristiques de régression convergés par bras confirment qu'il n'existe pas de stratégie de reformulation unique optimale pour toutes les requêtes. Dans ce contexte, la reformulation guidée via l'exploitation de caractéristiques sémantiques avec QueryBandits peut induire des changements significatifs dans le comportement de sortie grâce à des mécanismes de passage avant, évitant ainsi la nécessité d'un réentraînement ou d'une adaptation basée sur le gradient.

12

Modèle Autoregressif Universel de Segmentation Vidéo
Autoregressive Universal Video Segmentation Model

Aug 26
ByMiran Heo, Sukjun Hwang, Min-Hung Chen, Yu-Chiang Frank Wang, Albert Gu, Seon Joo Kim, Ryo Hachiuma
1
1

Les modèles de base vidéo récents tels que SAM2 excellent dans la segmentation vidéo guidée en traitant les masques comme une primitive à usage général. Cependant, de nombreux contextes réels nécessitent une segmentation non guidée visant à détecter et suivre tous les objets dans une vidéo sans indices externes, ce qui laisse le paysage actuel fragmenté entre des modèles et pipelines spécifiques à des tâches. Nous reformulons la segmentation vidéo en flux continu comme une prédiction séquentielle de masques, analogue à la modélisation du langage, et introduisons le Modèle de Segmentation Universelle Autoregressif (AUSM), une architecture unique qui unifie à la fois la segmentation vidéo guidée et non guidée. Basé sur les modèles d'état récents, AUSM maintient un état spatial de taille fixe et s'adapte à des flux vidéo de longueur arbitraire. De plus, tous les composants d'AUSM sont conçus pour un entraînement parallèle sur les images, offrant des accélérations substantielles par rapport à l'entraînement itératif. Sur les benchmarks standards (DAVIS17, YouTube-VOS 2018 & 2019, MOSE, YouTube-VIS 2019 & 2021, et OVIS), AUSM surpasse les méthodes précédentes de segmentation vidéo universelle en flux continu et permet un entraînement jusqu'à 2,5 fois plus rapide sur des séquences de 16 images.

13

MovieCORE : Raisonnement COgnitif dans les Films
MovieCORE: COgnitive REasoning in Movies

Aug 26
ByGueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu
1
1

Cet article présente MovieCORE, un nouveau jeu de données pour la réponse à des questions sur des vidéos (VQA) conçu pour explorer une compréhension cognitive plus approfondie du contenu cinématographique. Contrairement aux jeux de données existants qui se concentrent sur une compréhension superficielle, MovieCORE met l'accent sur des questions qui sollicitent la pensée de type Système 2 tout en restant spécifiques au matériel vidéo. Nous proposons une approche innovante de brainstorming agentique, utilisant plusieurs grands modèles de langage (LLMs) comme agents de pensée pour générer et affiner des paires question-réponse de haute qualité. Pour évaluer la qualité du jeu de données, nous développons une série de tests cognitifs mesurant la profondeur, le potentiel de provocation de la pensée et la complexité syntaxique. Nous proposons également un schéma d'évaluation complet pour mesurer les performances des modèles VQA sur des tâches cognitives plus approfondies. Pour pallier les limites des modèles vidéo-langage (VLMs) existants, nous introduisons un module d'amélioration agentique, Agentic Choice Enhancement (ACE), qui améliore les capacités de raisonnement des modèles après leur entraînement jusqu'à 25 %. Notre travail contribue à faire progresser la compréhension des films dans les systèmes d'IA et offre des insights précieux sur les capacités et les limites des modèles VQA actuels face à des questions plus complexes et nuancées sur le contenu cinématographique. Notre page de projet, le jeu de données et le code sont disponibles à l'adresse suivante : https://joslefaure.github.io/assets/html/moviecore.html.

14

ThinkDial : Une recette ouverte pour contrôler l'effort de raisonnement dans les grands modèles de langage
ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models

Aug 26
ByQianyu He, Siyu Yuan, Xuefeng Li, Mingxuan Wang, Jiangjie Chen
1
2

Les grands modèles de langage (LLMs) dotés de raisonnement en chaîne de pensée ont démontré des capacités remarquables de résolution de problèmes, mais le contrôle de leur effort computationnel reste un défi majeur pour leur déploiement pratique. Les systèmes propriétaires récents comme la série gpt-oss d'OpenAI ont introduit des modes opérationnels discrets pour un contrôle intuitif du raisonnement, mais la communauté open-source a largement échoué à atteindre de telles capacités. Dans cet article, nous présentons ThinkDial, le premier framework open-recipe de bout en bout qui implémente avec succès un raisonnement contrôlable de style gpt-oss grâce à des modes opérationnels discrets. Notre système permet un passage fluide entre trois régimes de raisonnement distincts : le mode Haut (capacité de raisonnement complète), le mode Moyen (réduction de 50 % des tokens avec une dégradation des performances inférieure à 10 %), et le mode Bas (réduction de 75 % des tokens avec une dégradation des performances inférieure à 15 %). Nous y parvenons grâce à un paradigme d'entraînement de bout en bout qui intègre le contrôle des modes budgétaires tout au long du pipeline : un fine-tuning supervisé en mode budgétaire qui intègre directement les capacités de raisonnement contrôlable dans le processus d'apprentissage, et un apprentissage par renforcement en deux phases avec récompense adaptative et prise en compte du budget. Des expériences approfondies démontrent que ThinkDial atteint des compromis ciblés entre compression et performance avec des réductions claires de la longueur des réponses tout en maintenant des seuils de performance. Le framework montre également de solides capacités de généralisation sur des tâches hors distribution.

15

Entraîner des agents de modèles de langage à détecter des vulnérabilités avec CTF-Dojo
Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

Aug 25
ByTerry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang
1
1

Les grands modèles de langage (LLM) ont démontré des capacités exceptionnelles lorsqu'ils sont entraînés dans des environnements d'exécution exécutables, excellant notamment dans les tâches d'ingénierie logicielle grâce à des boucles de rétroaction vérifiées. Cependant, les environnements d'exécution ancrés dans l'exécution, scalables et généralisables, restent rares, limitant les progrès dans l'entraînement d'agents d'apprentissage automatique plus performants. Nous présentons CTF-Dojo, le premier environnement d'exécution à grande échelle conçu pour entraîner des LLM avec une rétroaction vérifiable, comprenant 658 défis de type Capture-The-Flag (CTF) entièrement fonctionnels, conteneurisés dans Docker avec une reproductibilité garantie. Pour permettre une mise à l'échelle rapide sans intervention manuelle, nous avons développé CTF-Forge, un pipeline automatisé qui transforme des artefacts publics en environnements d'exécution prêts à l'emploi en quelques minutes, éliminant ainsi les semaines de configuration experte traditionnellement requises. Nous avons entraîné des agents basés sur LLM avec seulement 486 trajectoires de haute qualité et vérifiées par exécution provenant de CTF-Dojo, obtenant des gains absolus allant jusqu'à 11,6 % par rapport à des bases de référence solides sur trois benchmarks compétitifs : InterCode-CTF, NYU CTF Bench et Cybench. Notre modèle de 32B le plus performant atteint un taux de réussite de 31,9 % pour Pass@1, établissant un nouvel état de l'art en poids ouvert qui rivalise avec des modèles de pointe comme DeepSeek-V3-0324 et Gemini-2.5-Flash. En présentant les tâches de type CTF comme un benchmark pour l'apprentissage d'agents exécutables, CTF-Dojo démontre que les signaux d'entraînement ancrés dans l'exécution sont non seulement efficaces mais également essentiels pour faire progresser les agents d'apprentissage automatique performants sans dépendre de systèmes propriétaires coûteux.

16

FastMesh : Génération efficace de maillages artistiques par découplage des composants
FastMesh:Efficient Artistic Mesh Generation via Component Decoupling

Aug 26
ByJeonghwan Kim, Yushi Lan, Armando Fortes, Yongwei Chen, Xingang Pan
0
1

Les approches récentes de génération de maillages transforment généralement les maillages triangulaires en séquences de tokens et entraînent des modèles autorégressifs pour générer ces tokens de manière séquentielle. Malgré des progrès significatifs, ces séquences de tokens réutilisent inévitablement les sommets plusieurs fois pour représenter entièrement des maillages variétés, car chaque sommet est partagé par plusieurs faces. Cette redondance entraîne des séquences de tokens excessivement longues et des processus de génération inefficaces. Dans cet article, nous proposons un cadre efficace qui génère des maillages artistiques en traitant séparément les sommets et les faces, réduisant ainsi considérablement la redondance. Nous utilisons un modèle autorégressif uniquement pour la génération des sommets, diminuant le nombre de tokens à environ 23 % de celui requis par le tokeniseur existant le plus compact. Ensuite, nous exploitons un transformateur bidirectionnel pour compléter le maillage en une seule étape en capturant les relations inter-sommets et en construisant la matrice d'adjacence qui définit les faces du maillage. Pour améliorer davantage la qualité de génération, nous introduisons un amplificateur de fidélité pour affiner le positionnement des sommets en des arrangements plus naturels et proposons un cadre de post-traitement pour éliminer les connexions d'arêtes indésirables. Les résultats expérimentaux montrent que notre méthode atteint une vitesse de génération de maillages plus de 8 fois supérieure à celle des approches de pointe, tout en produisant une qualité de maillage supérieure.

17

Décrypter les schémas cognitifs des modèles de langage à grande échelle grâce aux communautés de modules
Unraveling the cognitive patterns of Large Language Models through module communities

Aug 25
ByKushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao
0
1

Les modèles de langage de grande taille (LLMs) ont transformé notre monde grâce à des avancées significatives dans les domaines scientifiques, techniques et sociétaux, avec des applications allant des découvertes scientifiques et du diagnostic médical aux chatbots. Malgré leur omniprésence et leur utilité, les mécanismes sous-jacents des LLMs restent dissimulés derrière des milliards de paramètres et des structures complexes, rendant leur architecture interne et leurs processus cognitifs difficiles à appréhender. Nous comblons cette lacune en adoptant des approches visant à comprendre l'émergence de la cognition en biologie et en développant un cadre basé sur les réseaux qui relie les compétences cognitives, les architectures des LLMs et les ensembles de données, inaugurant ainsi un changement de paradigme dans l'analyse des modèles de base. La distribution des compétences au sein des communautés de modules montre que, bien que les LLMs ne reproduisent pas strictement la spécialisation focalisée observée dans certains systèmes biologiques, ils présentent des communautés de modules uniques dont les schémas de compétences émergentes reflètent partiellement l'organisation cognitive distribuée mais interconnectée observée dans les cerveaux des oiseaux et des petits mammifères. Nos résultats numériques mettent en évidence une divergence clé entre les systèmes biologiques et les LLMs, où l'acquisition de compétences bénéficie considérablement d'interactions dynamiques et transrégionales ainsi que de la plasticité neuronale. En intégrant les principes des sciences cognitives à l'apprentissage automatique, notre cadre offre de nouvelles perspectives sur l'interprétabilité des LLMs et suggère que les stratégies de réglage fin efficaces devraient exploiter les dynamiques d'apprentissage distribuées plutôt que des interventions modulaires rigides.

Aug 26
Aug 27