ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Parcours de Réplication O1 - Partie 2 : Dépasser O1-preview grâce à la Distillation Simple, Progrès Majeur ou Leçon Amère ?
O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

Nov 25
ByZhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, Pengfei Liu
47
2

Cet article présente un examen critique des approches actuelles pour reproduire les capacités du modèle O1 d'OpenAI, en mettant particulièrement l'accent sur l'utilisation répandue mais souvent non divulguée des techniques de distillation des connaissances. Alors que notre travail précédent explorait le chemin technique fondamental vers la reproduction d'O1, cette étude révèle comment une distillation simple à partir de l'API d'O1, combinée à un fine-tuning supervisé, peut atteindre des performances supérieures sur des tâches complexes de raisonnement mathématique. À travers des expériences approfondies, nous montrons qu'un modèle de base fine-tuné sur simplement des dizaines de milliers d'échantillons distillés d'O1 surpasse les performances d'O1 sur l'Examen de Mathématiques Invitational Américain (AIME) avec une complexité technique minimale. De plus, notre investigation s'étend au-delà du raisonnement mathématique pour explorer les capacités de généralisation des modèles distillés d'O1 à travers diverses tâches : hallucination, sécurité et QA de domaine ouvert. Notamment, malgré l'entraînement uniquement sur des données de résolution de problèmes mathématiques, nos modèles ont démontré une forte capacité de généralisation aux tâches de QA ouvertes et sont devenus significativement moins susceptibles à la flagornerie après le fine-tuning. Nous rendons délibérément cette découverte publique pour promouvoir la transparence dans la recherche en IA et pour remettre en question la tendance actuelle des affirmations techniques obscurcies dans le domaine. Notre travail comprend : (1) Une exposition technique détaillée du processus de distillation et de son efficacité, (2) Un cadre de référence complet pour évaluer et catégoriser les tentatives de reproduction d'O1 en fonction de leur transparence technique et de leur reproductibilité, (3) Une discussion critique des limitations et des risques potentiels de trop compter sur les approches de distillation, notre analyse aboutit à une leçon amère cruciale : alors que la poursuite de systèmes IA plus capables est importante, le développement de chercheurs ancrés dans une pensée de premiers principes est primordial.

2

De la génération au jugement : opportunités et défis de LLM en tant que juge
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

Nov 25
ByDawei Li, Bohan Jiang, Liangjie Huang, Alimohammad Beigi, Chengshuai Zhao, Zhen Tan, Amrita Bhattacharjee, Yuxuan Jiang, Canyu Chen, Tianhao Wu, Kai Shu, Lu Cheng, Huan Liu
41
2

L'évaluation et l'analyse ont longtemps été des défis critiques en intelligence artificielle (IA) et en traitement du langage naturel (NLP). Cependant, les méthodes traditionnelles, qu'elles soient basées sur la correspondance ou sur l'incorporation, peinent souvent à évaluer des attributs subtils et à fournir des résultats satisfaisants. Les récentes avancées dans les Modèles de Langage de Grande Taille (LLMs) inspirent le paradigme "LLM-comme-juge", où les LLMs sont exploités pour effectuer des évaluations, des classements ou des sélections dans diverses tâches et applications. Cet article propose une étude complète de l'évaluation et de l'analyse basées sur les LLMs, offrant un aperçu approfondi pour faire progresser ce domaine émergent. Nous commençons par donner des définitions détaillées des perspectives d'entrée et de sortie. Ensuite, nous introduisons une taxonomie complète pour explorer le "LLM-comme-juge" selon trois dimensions : quoi évaluer, comment évaluer et où évaluer. Enfin, nous compilons des références pour évaluer le "LLM-comme-juge" et mettons en lumière les principaux défis et les orientations prometteuses, dans le but de fournir des perspectives précieuses et d'inspirer de futures recherches dans ce domaine de recherche prometteur. La liste des articles et plus de ressources sur le "LLM-comme-juge" peuvent être trouvées sur https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge et https://llm-as-a-judge.github.io.

3

Matérial Anything : Génération de matériaux pour n'importe quel objet 3D via diffusion
Material Anything: Generating Materials for Any 3D Object via Diffusion

Nov 22
ByXin Huang, Tengfei Wang, Ziwei Liu, Qing Wang
40
3

Nous présentons Material Anything, un cadre de diffusion unifié entièrement automatisé conçu pour générer des matériaux physiquement réalistes pour des objets 3D. Contrairement aux méthodes existantes qui reposent sur des pipelines complexes ou des optimisations spécifiques à des cas, Material Anything offre une solution robuste de bout en bout adaptable aux objets dans des conditions d'éclairage diverses. Notre approche exploite un modèle de diffusion d'images pré-entraîné, amélioré avec une architecture à trois têtes et une perte de rendu pour améliorer la stabilité et la qualité des matériaux. De plus, nous introduisons des masques de confiance en tant que commutateur dynamique au sein du modèle de diffusion, lui permettant de gérer efficacement à la fois des objets texturés et sans texture dans des conditions d'éclairage variables. En utilisant une stratégie de génération de matériaux progressive guidée par ces masques de confiance, ainsi qu'un affineur de matériaux dans l'espace UV, notre méthode garantit des sorties de matériaux cohérentes et prêtes pour l'UV. Des expériences approfondies démontrent que notre approche surpasse les méthodes existantes dans une large gamme de catégories d'objets et de conditions d'éclairage.

4

GMAI-VL & GMAI-VL-5.5M : Un grand modèle vision-langage et un ensemble de données multimodal complet vers l'IA médicale générale
GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

Nov 21
ByTianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He
39
2

Malgré les avancées significatives en intelligence artificielle générale, telles que GPT-4, leur efficacité dans le domaine médical (intelligence artificielle médicale générale, IAMG) reste limitée en raison de l'absence de connaissances médicales spécialisées. Pour relever ce défi, nous présentons IAMG-VL-5.5M, un ensemble de données médicales multimodal complet créé en convertissant des centaines d'ensembles de données médicales spécialisées en paires image-texte méticuleusement construites. Cet ensemble de données offre une couverture de tâches complète, des modalités diverses et des données image-texte de haute qualité. En s'appuyant sur cet ensemble de données multimodal, nous proposons IAMG-VL, un modèle de vision-langage médical général avec une stratégie d'entraînement en trois étapes progressives. Cette approche améliore significativement les capacités du modèle en intégrant des informations visuelles et textuelles, améliorant ainsi sa capacité à traiter des données multimodales et à soutenir un diagnostic précis et la prise de décision clinique. Les évaluations expérimentales montrent qu'IAMG-VL atteint des résultats de pointe dans une large gamme de tâches médicales multimodales, telles que la réponse à des questions visuelles et le diagnostic d'images médicales. Nos contributions comprennent le développement de l'ensemble de données IAMG-VL-5.5M, l'introduction du modèle IAMG-VL et l'établissement de nouveaux benchmarks dans plusieurs domaines médicaux. Le code et l'ensemble de données seront publiés sur https://github.com/uni-medical/GMAI-VL.

5

Modèle de texte à image à grande échelle avec Inpainting est un générateur d'images piloté par sujet en zéro-shot.
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator

Nov 23
ByChaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon
33
2

La génération d'images basée sur le sujet vise à produire des images d'un nouveau sujet dans un contexte souhaité en capturant avec précision à la fois les caractéristiques visuelles du sujet et le contenu sémantique d'une instruction textuelle. Les méthodes traditionnelles reposent sur un ajustement fin intensif en temps et en ressources pour l'alignement du sujet, tandis que les approches récentes de type zéro-shot exploitent la génération d'images à la volée, sacrifiant souvent l'alignement du sujet. Dans cet article, nous introduisons le Prompting Diptyque, une nouvelle approche zéro-shot qui réinterprète une tâche de détourage avec un alignement précis du sujet en exploitant la propriété émergente de la génération de diptyques dans les modèles d'images textuelles à grande échelle. Le Prompting Diptyque dispose un diptyque incomplet avec l'image de référence dans le panneau de gauche, et réalise un détourage conditionné par le texte sur le panneau de droite. Nous empêchons en outre les fuites de contenu indésirables en supprimant l'arrière-plan dans l'image de référence et en améliorant les détails fins du sujet généré en renforçant les poids d'attention entre les panneaux pendant le détourage. Les résultats expérimentaux confirment que notre approche surpasse significativement les méthodes de génération d'images zéro-shot, donnant lieu à des images visuellement préférées par les utilisateurs. De plus, notre méthode prend en charge non seulement la génération basée sur le sujet, mais aussi la génération d'images stylisées et l'édition d'images basée sur le sujet, démontrant ainsi sa polyvalence dans diverses applications de génération d'images. Page du projet : https://diptychprompting.github.io/

6

Réflexions du Hackathon 2024 sur les Grands Modèles de Langage (GML) pour les Applications en Science des Matériaux et en Chimie
Reflections from the 2024 Large Language Model (LLM) Hackathon for Applications in Materials Science and Chemistry

Nov 20
ByYoel Zimmermann, Adib Bazgir, Zartashia Afzal, Fariha Agbere, Qianxiang Ai, Nawaf Alampara, Alexander Al-Feghali, Mehrad Ansari, Dmytro Antypov, Amro Aswad, Jiaru Bai, Viktoriia Baibakova, Devi Dutta Biswajeet, Erik Bitzek, Joshua D. Bocarsly, Anna Borisova, Andres M Bran, L. Catherine Brinson, Marcel Moran Calderon, Alessandro Canalicchio, Victor Chen, Yuan Chiang, Defne Circi, Benjamin Charmes, Vikrant Chaudhary, Zizhang Chen, Min-Hsueh Chiu, Judith Clymo, Kedar Dabhadkar, Nathan Daelman, Archit Datar, Matthew L. Evans, Maryam Ghazizade Fard, Giuseppe Fisicaro, Abhijeet Sadashiv Gangan, Janine George, Jose D. Cojal Gonzalez, Michael Götte, Ankur K. Gupta, Hassan Harb, Pengyu Hong, Abdelrahman Ibrahim, Ahmed Ilyas, Alishba Imran, Kevin Ishimwe, Ramsey Issa, Kevin Maik Jablonka, Colin Jones, Tyler R. Josephson, Greg Juhasz, Sarthak Kapoor, Rongda Kang, Ghazal Khalighinejad, Sartaaj Khan, Sascha Klawohn, Suneel Kuman, Alvin Noe Ladines, Sarom Leang, Magdalena Lederbauer, Sheng-Lun Mark Liao, Hao Liu, Xuefeng Liu, Stanley Lo, Sandeep Madireddy, Piyush Ranjan Maharana, Shagun Maheshwari, Soroush Mahjoubi, José A. Márquez, Rob Mills, Trupti Mohanty, Bernadette Mohr, Seyed Mohamad Moosavi, Alexander Moßhammer, Amirhossein D. Naghdi, Aakash Naik, Oleksandr Narykov, Hampus Näsström, Xuan Vu Nguyen, Xinyi Ni, Dana O'Connor, Teslim Olayiwola, Federico Ottomano, Aleyna Beste Ozhan, Sebastian Pagel, Chiku Parida, Jaehee Park, Vraj Patel, Elena Patyukova, Martin Hoffmann Petersen, Luis Pinto, José M. Pizarro, Dieter Plessers, Tapashree Pradhan, Utkarsh Pratiush, Charishma Puli, Andrew Qin, Mahyar Rajabi, Francesco Ricci, Elliot Risch, Martiño Ríos-García, Aritra Roy, Tehseen Rug, Hasan M Sayeed, Markus Scheidgen, Mara Schilling-Wilhelmi, Marcel Schloz, Fabian Schöppach, Julia Schumann, Philippe Schwaller, Marcus Schwarting, Samiha Sharlin, Kevin Shen, Jiale Shi, Pradip Si, Jennifer D'Souza, Taylor Sparks, Suraj Sudhakar, Leopold Talirz, Dandan Tang, Olga Taran, Carla Terboven, Mark Tropin, Anastasiia Tsymbal, Katharina Ueltzen, Pablo Andres Unzueta, Archit Vasan, Tirtha Vinchurkar, Trung Vo, Gabriel Vogel, Christoph Völker, Jan Weinreich, Faradawn Yang, Mohd Zaki, Chi Zhang, Sylvester Zhang, Weijie Zhang, Ruijie Zhu, Shang Zhu, Jan Janssen, Ian Foster, Ben Blaiszik
32
2

Nous présentons ici les résultats du deuxième Hackathon de Modèles de Langage Géants (LLM) pour les Applications en Science des Matériaux et en Chimie, qui a impliqué des participants de divers endroits hybrides à l'échelle mondiale, aboutissant à 34 soumissions d'équipes. Les soumissions couvraient sept domaines d'application clés et ont démontré l'utilité variée des LLM pour les applications en (1) prédiction de propriétés moléculaires et matérielles ; (2) conception moléculaire et matérielle ; (3) automatisation et nouvelles interfaces ; (4) communication scientifique et éducation ; (5) gestion des données de recherche et automatisation ; (6) génération et évaluation d'hypothèses ; et (7) extraction de connaissances et raisonnement à partir de la littérature scientifique. Chaque soumission d'équipe est présentée dans un tableau récapitulatif avec des liens vers le code et de brefs articles en annexe. En plus des résultats des équipes, nous discutons de l'événement du hackathon et de son format hybride, qui comprenait des centres physiques à Toronto, Montréal, San Francisco, Berlin, Lausanne et Tokyo, ainsi qu'un centre en ligne mondial pour permettre la collaboration locale et virtuelle. Dans l'ensemble, l'événement a mis en lumière des améliorations significatives des capacités des LLM depuis le hackathon de l'année précédente, suggérant une expansion continue des LLM pour les applications en recherche en science des matériaux et en chimie. Ces résultats démontrent l'utilité double des LLM en tant que modèles polyvalents pour diverses tâches d'apprentissage automatique et plates-formes pour le prototypage rapide d'applications personnalisées en recherche scientifique.

7

Une Diffusion pour les Générer Toutes
One Diffusion to Generate Them All

Nov 25
ByDuong H. Le, Tuan Pham, Sangho Lee, Christopher Clark, Aniruddha Kembhavi, Stephan Mandt, Ranjay Krishna, Jiasen Lu
30
2

Nous présentons OneDiffusion, un modèle de diffusion polyvalent à grande échelle qui prend en charge de manière transparente la synthèse et la compréhension d'images bidirectionnelles à travers diverses tâches. Il permet la génération conditionnelle à partir d'entrées telles que du texte, de la profondeur, de la pose, de la mise en page et des cartes sémantiques, tout en traitant également des tâches telles que le défloutage d'images, l'agrandissement, et des processus inverses tels que l'estimation de profondeur et la segmentation d'images. De plus, OneDiffusion permet la génération multi-vues, l'estimation de la pose de la caméra, et la personnalisation instantanée en utilisant des entrées d'images séquentielles. Notre modèle adopte une approche simple mais efficace en traitant toutes les tâches comme des séquences d'images avec des échelles de bruit variables pendant l'entraînement, permettant à n'importe quelle image de servir d'image conditionnelle au moment de l'inférence. Notre cadre d'entraînement unifié élimine le besoin d'architectures spécialisées, prend en charge l'entraînement multi-tâches évolutif, et s'adapte en douceur à n'importe quelle résolution, améliorant à la fois la généralisation et la scalabilité. Les résultats expérimentaux démontrent des performances compétitives à travers les tâches en génération et prédiction telles que le texte vers l'image, la génération multi-vues, la préservation de l'identifiant, l'estimation de profondeur et l'estimation de la pose de la caméra malgré un ensemble de données d'entraînement relativement petit. Notre code et notre point de contrôle sont disponibles gratuitement sur https://github.com/lehduong/OneDiffusion

8

MH-MoE : Mélange de Têtes Multiples d'Experts
MH-MoE:Multi-Head Mixture-of-Experts

Nov 25
ByShaohan Huang, Xun Wu, Shuming Ma, Furu Wei
28
4

Le modèle Multi-Head Mixture-of-Experts (MH-MoE) démontre des performances supérieures en utilisant le mécanisme multi-têtes pour collectivement prendre en compte les informations provenant de différents espaces de représentation au sein de différents experts. Dans cet article, nous présentons une nouvelle implémentation de MH-MoE qui maintient à la fois les FLOPs et la parité des paramètres avec les modèles Mixture of Experts épars. Les résultats expérimentaux sur les modèles de langage montrent que la nouvelle implémentation apporte des améliorations de qualité par rapport aux modèles MoE classiques et MoE à granularité fine. De plus, nos expériences démontrent que MH-MoE est compatible avec les Modèles de Langage Large (LLM) à 1 bit tels que BitNet.

9

Segmentation interactive d'images médicales : un ensemble de données de référence et une ligne de base
Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline

Nov 19
ByJunlong Cheng, Bin Fu, Jin Ye, Guoan Wang, Tianbin Li, Haoyu Wang, Ruoyu Li, He Yao, Junren Chen, JingWen Li, Yanzhou Su, Min Zhu, Junjun He
25
2

La segmentation interactive d'images médicales (IMIS) a longtemps été limitée par la disponibilité limitée de jeux de données larges, diversifiés et densément annotés, ce qui entrave la généralisation des modèles et l'évaluation cohérente entre différents modèles. Dans cet article, nous présentons l'ensemble de données de référence IMed-361M, une avancée significative dans la recherche générale sur l'IMIS. Tout d'abord, nous collectons et normalisons plus de 6,4 millions d'images médicales et leurs masques de vérité terrain correspondants à partir de plusieurs sources de données. Ensuite, en exploitant les fortes capacités de reconnaissance d'objets d'un modèle visionnel fondamental, nous avons automatiquement généré des masques interactifs denses pour chaque image et assuré leur qualité grâce à un contrôle qualité rigoureux et une gestion de la granularité. Contrairement aux ensembles de données précédents, qui sont limités par des modalités spécifiques ou des annotations clairsemées, IMed-361M couvre 14 modalités et 204 cibles de segmentation, totalisant 361 millions de masques - soit une moyenne de 56 masques par image. Enfin, nous avons développé un réseau de base IMIS sur cet ensemble de données qui prend en charge la génération de masques de haute qualité grâce à des entrées interactives, comprenant des clics, des boîtes englobantes, des invites textuelles et leurs combinaisons. Nous évaluons ses performances sur des tâches de segmentation d'images médicales sous plusieurs perspectives, démontrant une précision et une évolutivité supérieures par rapport aux modèles de segmentation interactive existants. Pour faciliter la recherche sur les modèles fondamentaux en vision par ordinateur médicale, nous publions l'IMed-361M et le modèle sur https://github.com/uni-medical/IMIS-Bench.

10

Optimiseurs Prudents : Améliorer l'Entraînement avec une Ligne de Code
Cautious Optimizers: Improving Training with One Line of Code

Nov 25
ByKaizhao Liang, Lizhang Chen, Bo Liu, Qiang Liu
21
2

AdamW a été l'optimiseur par défaut pour la pré-formation des transformers. Pendant de nombreuses années, notre communauté recherche des optimiseurs plus rapides et plus stables n'ayant que des résultats positifs. Dans ce travail, nous proposons une modification en une seule ligne dans Pytorch pour tout optimiseur basé sur le momentum, que nous renommons Optimiseur Prudent, par exemple C-AdamW et C-Lion. Notre résultat théorique montre que cette modification préserve la fonction hamiltonienne d'Adam et ne rompt pas la garantie de convergence selon l'analyse de Lyapunov. De plus, une toute nouvelle famille d'optimiseurs est révélée par notre compréhension théorique. Parmi eux, nous choisissons le plus simple pour des expériences empiriques, montrant une accélération de la pré-formation de Llama et MAE jusqu'à 1,47 fois. Le code est disponible sur https://github.com/kyleliang919/C-Optim

11

SegBook : Une ligne de base simple et un guide pratique pour la segmentation d'images médicales volumétriques
SegBook: A Simple Baseline and Cookbook for Volumetric Medical Image Segmentation

Nov 21
ByJin Ye, Ying Chen, Yanjun Li, Haoyu Wang, Zhongying Deng, Ziyan Huang, Yanzhou Su, Chenglong Ma, Yuanfeng Ji, Junjun He
21
2

La Tomographie par Ordinateur (CT) est l'une des modalités les plus populaires pour l'imagerie médicale. De loin, les images CT ont contribué aux ensembles de données volumétriques les plus importants disponibles publiquement pour les tâches de segmentation médicale, couvrant les structures anatomiques du corps entier. De grandes quantités d'images CT du corps entier offrent la possibilité de pré-entraîner des modèles puissants, par exemple, STU-Net pré-entraîné de manière supervisée, pour segmenter de nombreuses structures anatomiques. Cependant, il reste incertain dans quelles conditions ces modèles pré-entraînés peuvent être transférés à diverses tâches de segmentation médicale ultérieures, en particulier pour segmenter d'autres modalités et diverses cibles. Pour résoudre ce problème, un benchmark à grande échelle pour une évaluation complète est crucial pour trouver ces conditions. Ainsi, nous avons collecté 87 ensembles de données publics variant en modalité, cible et taille d'échantillon pour évaluer la capacité de transfert des modèles pré-entraînés CT du corps entier. Nous avons ensuite utilisé un modèle représentatif, STU-Net avec plusieurs échelles de modèles, pour réaliser un apprentissage par transfert entre modalités et cibles. Nos résultats expérimentaux montrent que (1) il peut y avoir un effet de goulot d'étranglement concernant la taille de l'ensemble de données lors du fine-tuning, avec une amélioration plus importante à la fois sur les ensembles de données de petite et grande taille que sur ceux de taille moyenne. (2) Les modèles pré-entraînés sur le CT du corps entier démontrent un transfert de modalité efficace, s'adaptant bien à d'autres modalités telles que l'IRM. (3) Le pré-entraînement sur le CT du corps entier soutient non seulement de bonnes performances en matière de détection de structures, mais montre également une efficacité dans la détection de lésions, démontrant une adaptabilité à travers les tâches cibles. Nous espérons que cette évaluation ouverte à grande échelle de l'apprentissage par transfert pourra orienter les futures recherches en segmentation d'images médicales volumétriques.

12

DreamRunner : Génération de vidéos de narration détaillée avec adaptation de mouvement augmentée par récupération
DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation

Nov 25
ByZun Wang, Jialu Li, Han Lin, Jaehong Yoon, Mohit Bansal
20
2

La génération de vidéos narratives (SVG) a récemment émergé en tant que tâche visant à créer des vidéos longues, multi-mouvements, multi-scènes qui représentent de manière cohérente l'histoire décrite dans le script texte d'entrée. Le SVG présente un grand potentiel pour la création de contenus divers dans les médias et le divertissement; cependant, il présente également des défis significatifs : (1) les objets doivent présenter une gamme de mouvements complexes et détaillés, (2) plusieurs objets doivent apparaître de manière cohérente à travers les scènes, et (3) les sujets peuvent nécessiter plusieurs mouvements avec des transitions fluides au sein d'une seule scène. Pour relever ces défis, nous proposons DreamRunner, une méthode novatrice de génération de vidéos à partir d'histoires : Tout d'abord, nous structurons le script d'entrée en utilisant un grand modèle de langage (LLM) pour faciliter à la fois la planification des scènes à gros grains et la planification détaillée de la disposition et des mouvements au niveau des objets. Ensuite, DreamRunner propose une adaptation à l'épreuve du temps augmentée par la récupération pour capturer les priorités de mouvement cibles pour les objets dans chaque scène, soutenant une personnalisation de mouvement diversifiée basée sur des vidéos récupérées, facilitant ainsi la génération de nouvelles vidéos avec des mouvements scriptés complexes. Enfin, nous proposons un module d'attention 3D basé sur des régions spatiales-temporelles et une injection de priorité SR3AI pour la liaison détaillée des mouvements des objets et le contrôle sémantique image par image. Nous comparons DreamRunner avec diverses références SVG, démontrant des performances de pointe en termes de cohérence des personnages, d'alignement du texte et de transitions fluides. De plus, DreamRunner présente une forte capacité à suivre de manière détaillée les conditions dans la génération compositionnelle de texte en vidéo, surpassant significativement les références sur T2V-ComBench. Enfin, nous validons la capacité robuste de DreamRunner à générer des interactions multi-objets avec des exemples qualitatifs.

13

Tokenisation visuelle factorisée et génération
Factorized Visual Tokenization and Generation

Nov 25
ByZechen Bai, Jianxiong Gao, Ziteng Gao, Pichao Wang, Zheng Zhang, Tong He, Mike Zheng Shou
19
2

Les tokenizers visuels sont fondamentaux pour la génération d'images. Ils convertissent les données visuelles en jetons discrets, permettant aux modèles basés sur les transformateurs d'exceller dans la génération d'images. Malgré leur succès, les tokenizers basés sur VQ tels que VQGAN rencontrent des limitations significatives en raison de tailles de vocabulaire restreintes. Étendre simplement le codebook conduit souvent à une instabilité d'entraînement et à des gains de performance décroissants, rendant la scalabilité un défi critique. Dans ce travail, nous introduisons la Quantification Factorisée (FQ), une approche novatrice qui revitalise les tokenizers basés sur VQ en décomposant un grand codebook en plusieurs sous-codebooks indépendants. Cette factorisation réduit la complexité de recherche des grands codebooks, permettant une tokenisation visuelle plus efficace et évolutive. Pour garantir que chaque sous-codebook capture des informations distinctes et complémentaires, nous proposons une régularisation de la désentrelacement qui réduit explicitement la redondance, favorisant la diversité à travers les sous-codebooks. De plus, nous intégrons l'apprentissage de représentation dans le processus d'entraînement, en tirant parti des modèles de vision pré-entraînés tels que CLIP et DINO pour infuser une richesse sémantique dans les représentations apprises. Cette conception garantit que notre tokenizer capture divers niveaux sémantiques, conduisant à des représentations plus expressives et désentrelacées. Les expériences montrent que le modèle FQGAN proposé améliore considérablement la qualité de reconstruction des tokenizers visuels, atteignant des performances de pointe. Nous démontrons en outre que ce tokenizer peut être efficacement adapté à la génération d'images auto-régressive. https://showlab.github.io/FQGAN

14

TEXGen : un modèle de diffusion générative pour les textures de maillage
TEXGen: a Generative Diffusion Model for Mesh Textures

Nov 22
ByXin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, JianHui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
18
2

Alors que des cartes de texture de haute qualité sont essentielles pour le rendu réaliste des actifs 3D, peu d'études ont exploré l'apprentissage directement dans l'espace de texture, en particulier sur des ensembles de données à grande échelle. Dans ce travail, nous nous éloignons de l'approche conventionnelle qui repose sur des modèles de diffusion 2D pré-entraînés pour l'optimisation des textures 3D au moment du test. Au lieu de cela, nous nous concentrons sur le problème fondamental de l'apprentissage dans l'espace de texture UV lui-même. Pour la première fois, nous entraînons un grand modèle de diffusion capable de générer directement des cartes de texture haute résolution de manière feed-forward. Pour faciliter l'apprentissage efficace dans les espaces de texture UV haute résolution, nous proposons une architecture de réseau évolutive qui entrelace des convolutions sur les cartes UV avec des couches d'attention sur les nuages de points. En exploitant cette conception architecturale, nous entraînons un modèle de diffusion de 700 millions de paramètres qui peut générer des cartes de texture UV guidées par des instructions textuelles et des images à vue unique. Une fois entraîné, notre modèle prend naturellement en charge diverses applications étendues, notamment l'inpainting de texture guidé par du texte, l'achèvement de texture à vue clairsemée et la synthèse de texture pilotée par du texte. La page du projet se trouve sur http://cvmi-lab.github.io/TEXGen/.

15

VisualLens : Personnalisation à travers l'historique visuel
VisualLens: Personalization through Visual History

Nov 25
ByWang Bill Zhu, Deqing Fu, Kai Sun, Yi Lu, Zhaojiang Lin, Seungwhan Moon, Kanika Narang, Mustafa Canim, Yue Liu, Anuj Kumar, Xin Luna Dong
18
2

Nous émettons l'hypothèse qu'un historique visuel d'un utilisateur avec des images reflétant sa vie quotidienne offre des informations précieuses sur ses centres d'intérêt et préférences, et peut être exploité pour la personnalisation. Parmi les nombreux défis à relever pour atteindre cet objectif, le principal est la diversité et les bruits dans l'historique visuel, contenant des images qui ne sont pas nécessairement liées à une tâche de recommandation, ne reflétant pas nécessairement l'intérêt de l'utilisateur, voire n'étant pas nécessairement pertinents pour ses préférences. Les systèmes de recommandation existants reposent soit sur des journaux d'interaction utilisateur spécifiques à la tâche, tels que l'historique d'achats en ligne pour des recommandations d'achats, soit se concentrent sur des signaux textuels. Nous proposons une approche novatrice, VisualLens, qui extrait, filtre et affine les représentations d'images, et exploite ces signaux pour la personnalisation. Nous avons créé deux nouveaux bancs d'essai avec des historiques visuels agnostiques à la tâche, et montrons que notre méthode améliore les recommandations de pointe de 5 à 10 % sur Hit@3, et s'améliore par rapport au GPT-4o de 2 à 5 %. Notre approche ouvre la voie à des recommandations personnalisées dans des scénarios où les méthodes traditionnelles échouent.

16

Transfert de Connaissances entre Modalités avec Supervision en Langage Naturel
Knowledge Transfer Across Modalities with Natural Language Supervision

Nov 23
ByCarlo Alberto Barbano, Luca Molinaro, Emanuele Aiello, Marco Grangetto
17
3

Nous présentons une méthode pour apprendre de nouveaux concepts en utilisant uniquement leur description textuelle. Nous appelons cette méthode Transfert de Connaissances. De manière similaire à la perception humaine, nous exploitons l'interaction multimodale pour introduire de nouveaux concepts. Nous émettons l'hypothèse qu'un codeur visuel pré-entraîné contient suffisamment de caractéristiques de bas niveau déjà apprises (par exemple, forme, apparence, couleur) qui peuvent être utilisées pour décrire des concepts de haut niveau inconnus. En fournissant une description textuelle du concept nouveau, notre méthode fonctionne en alignant les caractéristiques de bas niveau connues du codeur visuel sur sa description textuelle de haut niveau. Nous montrons que le Transfert de Connaissances peut introduire avec succès de nouveaux concepts dans des modèles multimodaux, de manière très efficace, en ne nécessitant qu'une seule description du concept cible. Notre approche est compatible à la fois avec des codeurs textuels et visuels séparés (par exemple, CLIP) et des paramètres partagés entre les modalités. Nous montrons également que, en suivant le même principe, le Transfert de Connaissances peut améliorer les concepts déjà connus par le modèle. En exploitant le Transfert de Connaissances, nous améliorons les performances en zéro-shot sur différentes tâches telles que la classification, la segmentation, la recherche d'images-texte et la légende.

17

Du CISC au RISC : transpilation assistée par modèle de langage d'assemblage
From CISC to RISC: language-model guided assembly transpilation

Nov 25
ByAhmed Heakl, Chaimaa Abi, Rania Hossam, Abdulrahman Mahmoud
15
7

La transition de l'architecture x86 à l'architecture ARM devient de plus en plus courante dans divers domaines, principalement en raison de l'efficacité énergétique d'ARM et des performances améliorées dans des secteurs traditionnels. Cependant, ce changement d'ISA pose des défis significatifs, principalement en raison de l'importante écosystème hérité de logiciels x86 et du manque de portabilité entre les écosystèmes propriétaires et les piles logicielles. Cet article présente CRT, un transpileur léger basé sur LLM qui convertit automatiquement l'assembleur x86 en assembleur ARM. Notre approche comble l'écart architectural fondamental entre le CISC de x86 et le RISC d'ARM tout en préservant la sémantique des programmes et en optimisant les performances. Nous évaluons CRT sur diverses applications du monde réel, atteignant une précision de traduction de 79,25% de x86 vers ARMv5 sur notre suite de tests complète, et une précision de 88,68% de x86 vers RISC-V. Dans des déploiements pratiques sur le matériel Apple M2 (ARMv8), notre code transpilé obtient un gain de vitesse de 1,73 fois par rapport au moteur de virtualisation Rosetta 2 d'Apple, tout en offrant une efficacité mémoire 2,41 fois supérieure et une consommation d'énergie 1,47 fois meilleure. À travers des tests et des analyses, nous montrons que CRT navigue avec succès entre la division CISC/RISC et génère un code RISC correctement exécutable malgré les barrières du "langage" machine. Nous mettons à disposition notre code, nos modèles, nos ensembles de données d'entraînement et nos benchmarks sur : https://ahmedheakl.github.io/asm2asm/.

18

SplatFlow : Modèle de flux rectifié multi-vues pour le lissage gaussien 3D
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis

Nov 25
ByHyojun Go, Byeongjun Park, Jiho Jang, Jin-Young Kim, Soonwoo Kwon, Changick Kim
12
2

La génération et l'édition de scènes 3D basées sur du texte présentent un potentiel significatif pour rationaliser la création de contenu grâce à des interactions utilisateur intuitives. Alors que les avancées récentes exploitent le Splatting Gaussien 3D (3DGS) pour un rendu haute fidélité et en temps réel, les méthodes existantes sont souvent spécialisées et axées sur des tâches spécifiques, manquant d'un cadre unifié pour la génération et l'édition. Dans cet article, nous présentons SplatFlow, un cadre complet qui comble cette lacune en permettant la génération et l'édition directes en 3DGS. SplatFlow comprend deux composants principaux : un modèle de flux rectifié multi-vues (RF) et un décodeur de Splatting Gaussien (GSDecoder). Le modèle RF multi-vues opère dans l'espace latent, générant des images multi-vues, des profondeurs et des poses de caméra simultanément, conditionnés par des instructions textuelles, abordant ainsi des défis tels que les échelles de scène diverses et les trajectoires de caméra complexes dans des environnements réels. Ensuite, le GSDecoder traduit efficacement ces sorties latentes en représentations 3DGS à travers une méthode 3DGS à propagation avant. En exploitant des techniques d'inversion et d'inpainting sans entraînement, SplatFlow permet une édition 3DGS transparente et prend en charge une large gamme de tâches 3D, notamment l'édition d'objets, la synthèse de nouvelles vues et l'estimation de la pose de la caméra, au sein d'un cadre unifié sans nécessiter de pipelines complexes supplémentaires. Nous validons les capacités de SplatFlow sur les ensembles de données MVImgNet et DL3DV-7K, démontrant sa polyvalence et son efficacité dans diverses tâches de génération, d'édition et d'inpainting en 3D.

19

Toutes les langues comptent : Évaluation des LMM sur 100 langues culturellement diverses
All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

Nov 25
ByAshmal Vayani, Dinura Dissanayake, Hasindri Watawana, Noor Ahsan, Nevasini Sasikumar, Omkar Thawakar, Henok Biadglign Ademtew, Yahya Hmaiti, Amandeep Kumar, Kartik Kuckreja, Mykola Maslych, Wafa Al Ghallabi, Mihail Mihaylov, Chao Qin, Abdelrahman M Shaker, Mike Zhang, Mahardika Krisna Ihsani, Amiel Esplana, Monil Gokani, Shachar Mirkin, Harsh Singh, Ashay Srivastava, Endre Hamerlik, Fathinah Asma Izzati, Fadillah Adamsyah Maani, Sebastian Cavada, Jenny Chim, Rohit Gupta, Sanjay Manjunath, Kamila Zhumakhanova, Feno Heriniaina Rabevohitra, Azril Amirudin, Muhammad Ridzuan, Daniya Kareem, Ketan More, Kunyang Li, Pramesh Shakya, Muhammad Saad, Amirpouya Ghasemaghaei, Amirbek Djanibekov, Dilshod Azizov, Branislava Jankovic, Naman Bhatia, Alvaro Cabrera, Johan Obando-Ceron, Olympiah Otieno, Fabian Farestam, Muztoba Rabbani, Sanoojan Baliah, Santosh Sanjeev, Abduragim Shtanchaev, Maheen Fatima, Thao Nguyen, Amrin Kareem, Toluwani Aremu, Nathan Xavier, Amit Bhatkal, Hawau Toyin, Aman Chadha, Hisham Cholakkal, Rao Muhammad Anwer, Michael Felsberg, Jorma Laaksonen, Thamar Solorio, Monojit Choudhury, Ivan Laptev, Mubarak Shah, Salman Khan, Fahad Khan
12
2

Les modèles multimodaux de grande taille (LMM), existants, se concentrent généralement sur seulement quelques régions et langues. Alors que les LMM continuent de s'améliorer, il est de plus en plus important de veiller à ce qu'ils comprennent les contextes culturels, respectent les sensibilités locales et soutiennent les langues à faibles ressources, tout en intégrant efficacement les indices visuels correspondants. Dans le but de créer des modèles multimodaux mondiaux culturellement diversifiés, notre proposition de Banc d'Évaluation Toutes Langues Comptent (ALM-bench) représente le plus grand et le plus complet effort à ce jour pour évaluer les LMM à travers 100 langues. ALM-bench met au défi les modèles existants en testant leur capacité à comprendre et raisonner sur des images culturellement diverses associées à du texte dans différentes langues, y compris de nombreuses langues à faibles ressources traditionnellement sous-représentées dans la recherche sur les LMM. Le banc d'essai offre un cadre d'évaluation robuste et nuancé comprenant divers formats de questions, y compris vrai/faux, choix multiples et questions ouvertes, qui sont ensuite divisées en catégories de réponses courtes et longues. La conception d'ALM-bench garantit une évaluation complète de la capacité d'un modèle à gérer des niveaux variés de difficulté dans le raisonnement visuel et linguistique. Pour capturer la riche diversité des cultures mondiales, ALM-bench sélectionne soigneusement du contenu provenant de 13 aspects culturels distincts, allant des traditions et rituels aux personnalités célèbres et aux célébrations. Ainsi, ALM-bench offre non seulement un terrain d'essai rigoureux pour les LMM open source et propriétaires de pointe, mais met également en lumière l'importance de l'inclusivité culturelle et linguistique, encourageant le développement de modèles capables de servir efficacement les populations mondiales diverses. Notre banc d'essai est disponible publiquement.

20

Les LLM ne pensent pas de manière pas à pas dans le raisonnement implicite.
LLMs Do Not Think Step-by-step In Implicit Reasoning

Nov 24
ByYijiong Yu
11
2

Il est bien connu que la Chaîne de Pensée peut considérablement améliorer les performances des LLMs sur des tâches complexes. Cependant, étant donné qu'elle entraîne également des vitesses d'inférence plus lentes et des coûts computationnels plus élevés, de nombreuses recherches ont tenté d'utiliser la Chaîne de Pensée implicite, qui ne nécessite pas que les LLMs génèrent explicitement les étapes intermédiaires. Cependant, il existe encore un écart entre leur efficacité et les méthodes typiques de Chaîne de Pensée explicite. Cela nous amène à douter : la Chaîne de Pensée implicite est-elle vraiment équivalente à la Chaîne de Pensée explicite ? Par conséquent, dans cette étude, nous abordons cette question à travers des expériences. Nous examinons les informations des étapes intermédiaires à partir des états cachés du modèle lorsqu'il effectue une Chaîne de Pensée implicite. Les résultats indiquent de manière surprenante que les LLMs réfléchissent à peine aux étapes intermédiaires, suggérant qu'ils peuvent simplement se fier à l'expérience plutôt qu'à un raisonnement strict étape par étape. De plus, nous constatons que les capacités de raisonnement implicite des LLMs sont sujettes à des fluctuations et instables, ce qui confirme la nécessité d'une Chaîne de Pensée explicite pour soutenir efficacement des tâches complexes.

21

Le Meilleur des Deux Mondes : Avantages des Modèles de Séquence de Graphes Hybrides
Best of Both Worlds: Advantages of Hybrid Graph Sequence Models

Nov 23
ByAli Behrouz, Ali Parviz, Mahdi Karami, Clayton Sanford, Bryan Perozzi, Vahab Mirrokni
9
2

Les modèles de séquence modernes (par exemple, les Transformers, les RNN linéaires, etc.) ont émergé en tant que colonne vertébrale dominante des récents cadres d'apprentissage profond, principalement en raison de leur efficacité, de leur puissance de représentation et/ou de leur capacité à capturer des dépendances à longue portée. L'adoption de ces modèles de séquence pour les données structurées en graphe a récemment gagné en popularité en tant qu'alternative aux Réseaux Neuronaux à Passage de Messages (MPNNs). Cependant, il existe un manque de fondement commun sur ce qui constitue un bon modèle de séquence de graphe, ainsi qu'une description mathématique des avantages et des lacunes liés à l'adoption de différents modèles de séquence pour l'apprentissage sur les graphes. À cette fin, nous présentons d'abord le Modèle de Séquence de Graphe (GSM), un cadre unificateur pour l'adoption de modèles de séquence pour les graphes, composé de trois étapes principales : (1) Tokenisation, qui traduit le graphe en un ensemble de séquences ; (2) Encodage Local, qui code les voisinages locaux autour de chaque nœud ; et (3) Encodage Global, qui utilise un modèle de séquence évolutif pour capturer les dépendances à longue portée au sein des séquences. Ce cadre nous permet de comprendre, d'évaluer et de comparer la puissance des différentes colonnes vertébrales de modèles de séquence dans les tâches sur les graphes. Nos évaluations théoriques de la puissance de représentation des Transformers et des modèles récurrents modernes à travers le prisme des tâches de graphe globales et locales montrent qu'il existe à la fois des aspects négatifs et positifs pour les deux types de modèles. S'appuyant sur cette observation, nous présentons GSM++, un modèle hybride rapide qui utilise l'algorithme de Clustering d'Affinité Hiérarchique (HAC) pour tokeniser le graphe en séquences hiérarchiques, puis utilise une architecture hybride de Transformer pour coder ces séquences. Nos résultats théoriques et expérimentaux soutiennent la conception de GSM++, montrant que GSM++ surpasse les références dans la plupart des évaluations de référence.

22

Prédiction des Capacités Émergentes par Affinage
Predicting Emergent Capabilities by Finetuning

Nov 25
ByCharlie Snell, Eric Wallace, Dan Klein, Sergey Levine
9
2

Un défi ouvert fondamental dans l'échelle moderne des LLM est le manque de compréhension autour des capacités émergentes. En particulier, il est connu que la perte de pré-entraînement des modèles de langage est hautement prévisible en fonction du calcul. Cependant, les capacités en aval sont bien moins prévisibles - parfois même en montrant des sauts émergents - ce qui rend difficile d'anticiper les capacités des futurs modèles. Dans ce travail, nous posons d'abord la tâche de prédiction de l'émergence : en ayant accès à des LLM actuels qui ont une précision aléatoire en quelques essais sur une tâche, pouvons-nous prédire si les futurs modèles (GPT-N+1) auront une précision non négligeable sur cette tâche ? Nous découvrons ensuite un aperçu simple pour ce problème : le fine-tuning des LLM sur une tâche donnée peut déplacer le point d'émergence dans l'échelle vers des modèles moins capables. Pour opérationnaliser cet aperçu, nous pouvons affiner les LLM avec des quantités variables de données et ajuster une fonction paramétrique qui prédit quand l'émergence se produira (c'est-à-dire, "les lois de l'émergence"). Nous validons cette approche en utilisant quatre bancs d'essai NLP standard où des LLM open-source à grande échelle démontrent déjà l'émergence (MMLU, GSM8K, CommonsenseQA et CoLA). En n'utilisant que des LLM à petite échelle, nous constatons que, dans certains cas, nous pouvons prédire avec précision si des modèles entraînés avec jusqu'à 4 fois plus de calcul ont émergé. Enfin, nous présentons une étude de cas de deux utilisations réalistes pour la prédiction de l'émergence.

23

Trouver n'importe quelle pièce en 3D
Find Any Part in 3D

Nov 20
ByZiqi Ma, Yisong Yue, Georgia Gkioxari
7
2

Nous étudions la segmentation de parties en monde ouvert en 3D : segmenter n'importe quelle partie de n'importe quel objet en fonction de n'importe quelle requête textuelle. Les méthodes précédentes sont limitées en termes de catégories d'objets et de vocabulaires de parties. Les récents progrès en IA ont démontré des capacités efficaces de reconnaissance en monde ouvert en 2D. Inspirés par ces avancées, nous proposons un modèle de prédiction directe en monde ouvert pour la segmentation de parties en 3D qui peut être appliqué en zéro-shot à n'importe quel objet. Notre approche, appelée Find3D, entraîne un modèle d'incorporation de points de catégorie générale sur des actifs 3D à grande échelle provenant d'Internet sans aucune annotation humaine. Elle combine un moteur de données, alimenté par des modèles de base pour l'annotation des données, avec une méthode d'entraînement contrastive. Nous obtenons de bonnes performances et une généralisation sur plusieurs ensembles de données, avec une amélioration allant jusqu'à 3 fois de l'indice mIoU par rapport à la méthode suivante. Notre modèle est de 6 à plus de 300 fois plus rapide que les références existantes. Pour encourager la recherche en segmentation de parties 3D en monde ouvert de catégorie générale, nous publions également un banc d'essai pour les objets et parties générales. Site du projet : https://ziqi-ma.github.io/find3dsite/

24

DreamMix : Découplage des attributs d'objet pour une éditabilité améliorée dans l'inpainting d'images personnalisées
DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting

Nov 26
ByYicheng Yang, Pengxiang Li, Lu Zhang, Liqian Ma, Ping Hu, Siyu Du, Yunzhi Zhuge, Xu Jia, Huchuan Lu
7
3

L'inpainting d'images piloté par le sujet est devenu une tâche populaire en édition d'images aux côtés des récentes avancées dans les modèles de diffusion. Les méthodes précédentes se concentrent principalement sur la préservation de l'identité mais peinent à maintenir la capacité d'édition des objets insérés. En réponse, cet article présente DreamMix, un modèle génératif basé sur la diffusion capable d'insérer des objets cibles dans des scènes données à des emplacements spécifiés par l'utilisateur tout en permettant simultanément des modifications arbitraires pilotées par du texte à leurs attributs. En particulier, nous exploitons des modèles d'inpainting fondamentaux avancés et introduisons un cadre d'inpainting local-global désentrelacé pour équilibrer une insertion précise d'objets locaux avec une cohérence visuelle globale efficace. De plus, nous proposons un Mécanisme de Découplage d'Attributs (ADM) et un module de Substitution d'Attributs Textuels (TAS) pour améliorer la diversité et la capacité discriminative de l'orientation des attributs basée sur du texte, respectivement. Des expériences approfondies démontrent que DreamMix équilibre efficacement la préservation de l'identité et la capacité d'édition des attributs à travers divers scénarios d'application, incluant l'insertion d'objets, l'édition d'attributs et l'inpainting d'objets de petite taille. Notre code est publiquement disponible sur https://github.com/mycfhs/DreamMix.

25

Le Test Impossible : Un ensemble de données insoluble de 2024 et une chance pour une AGI Quiz
The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz

Nov 20
ByDavid Noever, Forrest McKee
7
2

Cette recherche présente un nouveau cadre d'évaluation conçu pour évaluer la capacité des grands modèles de langage (GML) à reconnaître l'incertitude sur 675 problèmes fondamentalement insolubles. En utilisant un ensemble de données sélectionné de questions de défis de niveau universitaire avec des réponses intentionnellement inconnues, nous avons évalué douze GML de pointe, comprenant à la fois des modèles open source et propriétaires, sur leur propension à admettre l'ignorance plutôt que de générer des réponses plausibles mais incorrectes. Les meilleurs modèles ont obtenu des scores dans des plages de précision de 62 à 68 % pour reconnaître que la solution au problème était inconnue dans des domaines allant de la biologie à la philosophie et aux mathématiques. Nous avons observé une relation inverse entre la difficulté du problème et la précision du modèle, GPT-4 montrant des taux plus élevés de reconnaissance de l'incertitude sur des problèmes plus difficiles (35,8 %) par rapport à des problèmes plus simples (20,0 %). Ce schéma indique que les modèles peuvent être plus enclins à générer des réponses spéculatives lorsque les problèmes semblent plus abordables. L'étude a également révélé des variations significatives selon les catégories de problèmes, les modèles montrant des difficultés à reconnaître l'incertitude dans les problèmes d'invention et NP-difficiles tout en performant relativement mieux sur les défis philosophiques et psychologiques. Ces résultats contribuent au corpus croissant de recherches sur l'évaluation de l'intelligence artificielle générale (IAG) en soulignant l'importance de la reconnaissance de l'incertitude comme composante critique de l'évaluation future de l'intelligence artificielle. Ce test d'impossibilité étend ainsi les cadres théoriques précédents pour les tests d'intelligence universelle en fournissant des preuves empiriques des limitations actuelles dans la capacité des GML à reconnaître leurs propres limites de connaissance, suggérant de nouvelles orientations pour améliorer les architectures d'entraînement des modèles et les approches d'évaluation.

26

Prédiction du poids des arêtes pour l'estimation de pose agnostique à la catégorie
Edge Weight Prediction For Category-Agnostic Pose Estimation

Nov 25
ByOr Hirschorn, Shai Avidan
6
2

L'estimation de pose agnostique à la catégorie (CAPE) localise des points clés à travers diverses catégories d'objets avec un seul modèle, en utilisant une ou quelques images de support annotées. Des travaux récents ont montré que l'utilisation d'un graphe de pose (c'est-à-dire, traiter les points clés comme des nœuds dans un graphe plutôt que des points isolés) aide à gérer les occlusions et à rompre la symétrie. Cependant, ces méthodes supposent un graphe de pose statique avec des arêtes de poids égal, ce qui conduit à des résultats sous-optimaux. Nous introduisons EdgeCape, un nouveau cadre qui surmonte ces limitations en prédisant les poids des arêtes du graphe, ce qui optimise la localisation. Pour exploiter davantage les connaissances a priori structurales, nous proposons d'intégrer un Biais Structurel Markovien, qui module l'interaction d'auto-attention entre les nœuds en fonction du nombre de sauts entre eux. Nous montrons que cela améliore la capacité du modèle à capturer les dépendances spatiales globales. Évalué sur le benchmark MP-100, qui comprend 100 catégories et plus de 20 000 images, EdgeCape atteint des résultats de pointe dans le cadre 1-shot et se classe parmi les méthodes de taille similaire dans le cadre 5-shot, améliorant significativement la précision de la localisation des points clés. Notre code est disponible publiquement.

Nov 25
Nov 26
Nov 27