HuggingFace Daily Papers

Articles du Jour

Articles de recherche IA sélectionnés quotidiennement avec traductions

Sélectionner une date

11 papers found

Octopus v2 : Modèle de langage embarqué pour super agent
Octopus v2: On-device language model for super agent

Apr 2

ByWei Chen, Zhiyuan Li

Les modèles de langage ont démontré leur efficacité dans une variété d'applications logicielles, en particulier pour les tâches liées à l'automatisation des workflows. Ces modèles possèdent la capacité cruciale d'appeler des fonctions, ce qui est essentiel pour créer des agents d'IA. Malgré les performances élevées des modèles de langage à grande échelle dans les environnements cloud, ils sont souvent associés à des préoccupations concernant la confidentialité et les coûts. Les modèles actuels pour l'appel de fonctions sur appareil rencontrent des problèmes de latence et de précision. Notre recherche présente une nouvelle méthode qui permet à un modèle sur appareil de 2 milliards de paramètres de surpasser les performances de GPT-4 en termes de précision et de latence, tout en réduisant la longueur du contexte de 95\%. Par rapport à Llama-7B avec un mécanisme d'appel de fonctions basé sur RAG, notre méthode améliore la latence d'un facteur 35. Cette méthode réduit la latence à des niveaux jugés adaptés au déploiement sur une variété d'appareils périphériques dans des environnements de production, répondant ainsi aux exigences de performance pour des applications réelles.

Progrès des généralistes de raisonnement des LLM grâce aux arbres de préférences
Advancing LLM Reasoning Generalists with Preference Trees

Apr 2

ByLifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun

Nous présentons Eurus, une suite de grands modèles de langage (LLM) optimisés pour le raisonnement. Affinés à partir de Mistral-7B et CodeLlama-70B, les modèles Eurus atteignent des résultats de pointe parmi les modèles open-source sur un ensemble diversifié de benchmarks couvrant les mathématiques, la génération de code et les problèmes de raisonnement logique. Notamment, Eurus-70B surpasse GPT-3.5 Turbo en raisonnement grâce à un benchmarking complet sur 12 tests couvrant cinq tâches, et atteint une précision de 33,3 % en pass@1 sur LeetCode et de 32,6 % sur TheoremQA, deux benchmarks exigeants, surpassant largement les modèles open-source existants avec des marges supérieures à 13,3 %. La performance remarquable d'Eurus peut être principalement attribuée à UltraInteract, notre nouvel ensemble de données d'alignement à grande échelle et de haute qualité, spécifiquement conçu pour les tâches de raisonnement complexe. UltraInteract peut être utilisé à la fois pour l'affinage supervisé et pour l'apprentissage des préférences. Pour chaque instruction, il inclut un arbre de préférences composé de (1) chaînes de raisonnement avec des stratégies de planification diversifiées dans un format unifié, (2) trajectoires d'interaction multi-tours avec l'environnement et la critique, et (3) données par paires pour faciliter l'apprentissage des préférences. UltraInteract nous permet de mener une exploration approfondie de l'apprentissage des préférences pour les tâches de raisonnement. Notre investigation révèle que certains algorithmes bien établis d'apprentissage des préférences peuvent être moins adaptés aux tâches de raisonnement par rapport à leur efficacité dans les conversations générales. Inspirés par cela, nous dérivons un nouvel objectif de modélisation de récompense qui, conjointement avec UltraInteract, conduit à un modèle de récompense robuste.

Les LLM à contexte long rencontrent des difficultés avec l'apprentissage in-context sur de longues séquences.
Long-context LLMs Struggle with Long In-context Learning

Apr 2

ByTianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen

Les modèles de langage de grande taille (LLMs) ont réalisé des progrès significatifs dans le traitement de longues séquences dépassant 32 000 tokens. Cependant, leur évaluation s'est largement limitée à des métriques comme la perplexité et des tâches synthétiques, qui pourraient ne pas pleinement refléter leurs capacités dans des scénarios réels plus nuancés. Cette étude introduit un benchmark spécialisé (LIConBench) axé sur l'apprentissage en contexte long dans le domaine de la classification à labels extrêmes. Nous avons soigneusement sélectionné six jeux de données avec un nombre de labels allant de 28 à 174 classes, couvrant différentes longueurs d'entrée (démonstrations few-shot) de 2 000 à 50 000 tokens. Notre benchmark exige que les LLMs comprennent l'intégralité de l'entrée pour reconnaître les espaces de labels massifs et effectuer des prédictions correctes. Nous évaluons 13 LLMs à contexte long sur notre benchmark. Nous constatons que les LLMs à contexte long performent relativement bien pour des longueurs de tokens inférieures à 20 000, et que leurs performances bénéficient de l'utilisation d'une fenêtre de contexte longue. Cependant, lorsque la fenêtre de contexte dépasse 20 000 tokens, la plupart des LLMs, à l'exception de GPT-4, voient leurs performances chuter de manière significative. Cela suggère un écart notable dans les capacités actuelles des LLMs à traiter et comprendre des séquences longues et riches en contexte. Une analyse plus approfondie révèle une tendance des modèles à favoriser les prédictions pour les labels présentés vers la fin de la séquence. Leur capacité à raisonner sur plusieurs éléments dans une longue séquence reste à améliorer. Notre étude montre que la compréhension et le raisonnement en contexte long constituent toujours une tâche difficile pour les LLMs existants. Nous pensons que LIConBench pourrait servir d'évaluation plus réaliste pour les futurs LLMs à contexte long.

LLaVA-Gemma : Accélération des modèles de fondation multimodaux avec un modèle de langage compact
LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model

Mar 29

ByMusashi Hinck, Matthew L. Olson, David Cobbley, Shao-Yen Tseng, Vasudev Lal

Nous entraînons une série de modèles fondateurs multimodaux (MMFM) en utilisant le cadre populaire LLaVA avec la famille récemment publiée de grands modèles de langage (LLM) Gemma. Le modèle Gemma de 2 milliards de paramètres est particulièrement intéressant, car il offre des opportunités pour construire des MMFM à petite échelle performants. Conformément aux conclusions d'autres travaux dans ce domaine, nous testons l'effet de la suppression de trois caractéristiques de conception : le pré-entraînement du connecteur, l'utilisation d'un backbone d'image plus puissant et l'augmentation de la taille du backbone de langage. Les modèles résultants, que nous appelons LLaVA-Gemma, montrent des performances modérées sur une série d'évaluations, mais ne parviennent pas à dépasser les modèles SOTA de taille comparable actuels. Une analyse plus approfondie des performances révèle des effets mitigés : sauter le pré-entraînement tend à réduire les performances, les modèles de vision plus grands améliorent parfois les performances, et l'augmentation de la taille du modèle de langage a des effets incohérents. Nous rendons publics les recettes d'entraînement, le code et les poids de nos modèles LLaVA-Gemma.

Rapport Technique sur HyperCLOVA X
HyperCLOVA X Technical Report

Apr 2

ByKang Min Yoo, Jaegeun Han, Sookyo In, Heewon Jeon, Jisu Jeong, Jaewook Kang, Hyunwook Kim, Kyung-Min Kim, Munhyong Kim, Sungju Kim, Donghyun Kwak, Hanock Kwak, Se Jung Kwon, Bado Lee, Dongsoo Lee, Gichang Lee, Jooho Lee, Baeseong Park, Seongjin Shin, Joonsang Yu, Seolki Baek, Sumin Byeon, Eungsup Cho, Dooseok Choe, Jeesung Han, Youngkyun Jin, Hyein Jun, Jaeseung Jung, Chanwoong Kim, Jinhong Kim, Jinuk Kim, Dokyeong Lee, Dongwook Park, Jeong Min Sohn, Sujung Han, Jiae Heo, Sungju Hong, Mina Jeon, Hyunhoon Jung, Jungeun Jung, Wangkyo Jung, Chungjoon Kim, Hyeri Kim, Jonghyun Kim, Min Young Kim, Soeun Lee, Joonhee Park, Jieun Shin, Sojin Yang, Jungsoon Yoon, Hwaran Lee, Sanghwan Bae, Jeehwan Cha, Donghoon Ham, Youngki Hong, Yunki Hong, Myunggeun Ji, Yeguk Jin, Chansong Jo, Shinyoung Joo, Seunghwan Jung, Hyomin Kim, Jungwhan Kim, Minkyoung Kim, Minseung Kim, Sungdong Kim, Yonghee Kim, Youngjun Kim, Donghyeon Ko, Dughyun Lee, Jaehong Lee, Jieun Lee, Jongjin Lee, Min Young Lee, Yehbin Lee, Taehong Min, Kiyoon Moon, Jaesun Park, Kyuyon Park, Seunghyun Seo, Gyubin Son, Wonjoon Yoo, Myungin You, Doheon Ahn, Homin Ahn, Joohee Ahn, Seongmin Ahn, Chanwoo An, Hyeryun An, Junho An, Sang-Min An, Boram Byun, Jongho Cha, Minji Chang, Seunggyu Chang, Haesong Cho, Youngdo Cho, Dalnim Choi, Daseul Choi, Hyoseok Choi, Minseong Choi, Sangho Choi, Seongjae Choi, Wooyong Choi, Sewhan Chun, Dong Young Go, Chiheon Ham, Danbi Han, Jaemin Han, Mihak Hong, Moonyoung Hong, Sung Bum Hong, Seongchan Hwang, Eunbin Hyun, Jinbae Im, Jaehyung Jang, Jaeni Jang, Sihyeon Jang, Sungwon Jang, Joonha Jeon, Yujin Jeon, Daun Jeong, Joonhyun Jeong, Kyeongseok Jeong, Mini Jeong, Yeji Jeong, Sol Jin, Hanbyeol Jo, Hanju Jo, Minjung Jo, Lee Jonghyun, Chaeyoon Jung, Hyungsik Jung, Jaeuk Jung, Ju Hwan Jung, Kwangsun Jung, Seungjae Jung, Soonwon Ka, Donghan Kang, Soyoung Kang, Taeho Kil, Areum Kim, Beomyoung Kim, Byeongwook Kim, Daehee Kim, Dong-Gyun Kim, Donggook Kim, Donghyun Kim, Euna Kim, Eunchul Kim, Geewook Kim, Gyu Ri Kim, Hanbyul Kim, Heesu Kim, Isaac Kim, Jeonghoon Kim, Jihye Kim, Joonghoon Kim, Minjae Kim, Minsub Kim, Pil Hwan Kim, Sammy Kim, Seokhun Kim, Seonghyeon Kim, Soojin Kim, Soong Kim, Soyoon Kim, Sunyoung Kim, Taeho Kim, Wonho Kim, Yoonsik Kim, You Jin Kim, Yuri Kim, Beomseok Kwon, Ohsung Kwon, Yoo-Hwan Kwon, Anna Lee, Byungwook Lee, Changho Lee, Daun Lee, Dongjae Lee, Ha-Ram Lee, Hodong Lee, Hwiyeong Lee, Hyunmi Lee, Injae Lee, Jaeung Lee, Jeongsang Lee, Jisoo Lee, Joongjae Lee, Juhan Lee, Jung Hyun Lee, Junghoon Lee, Junwoo Lee, Se Yun Lee, Sujin Lee, Sungjae Lee, Sungwoo Lee, Wonjae Lee, Zoo Hyun Lee, Jong Kun Lim, Kun Lim, Taemin Lim, Yuri Min, Nuri Na, Jeongyeon Nam, Kyeong-Min Nam, Yeonseog Noh, Biro Oh, Hyangnam Oh, Jung-Sik Oh, Solgil Oh, Yeontaek Oh, Boyoun Park, Cheonbok Park, Dongju Park, Hyeonjin Park, Hyun Tae Park, Hyunjung Park, Jihye Park, Jooseok Park, Junghwan Park, Jungsoo Park, Miru Park, Sang Hee Park, Seunghyun Park, Taerim Park, Wonkyeong Park, Hyunjoon Ryu, Jeonghun Ryu, Nahyeon Ryu, Soonshin Seo, Suk Min Seo, Yoonjeong Shim, Kyuyong Shin, Wonkwang Shin, Hyun Sim, Mihyun Sim, Woongseob Sim, Hyejin Soh, Bokyoung Son, Hyunjun Son, Seulah Son, Chi-Yun Song, Chiyoung Song, Ka Yeon Song, Minchul Song, Seungmin Song, Jisung Wang, Matt Yeo, Yonggoo Yeo, Myeong Yeon Yi, Moon Bin Yim, Taehwan Yoo, Youngjoon Yoo, Sungmin Yoon, Young Jin Yoon, Hangyeol Yu, Ui Seon Yu, Xingdong Zuo, Jeongin Bae, Joungeun Bae, Hyunsoo Cho, Seonghyun Cho, Yongjin Cho, Taekyoon Choi, Yera Choi, Jiwan Chung, Zhenghui Han, Byeongho Heo, Euisuk Hong, Taebaek Hwang, Seonyeol Im, Sumin Jegal, Sumin Jeon, Yelim Jeong, Yonghyun Jeong, Can Jiang, Juyong Jiang, Jiho Jin, Ara Jo, Younghyun Jo, Hoyoun Jung, Juyoung Jung, Dae Hee Kim, Ginam Kim, Hangyeol Kim, Heeseung Kim, Hyojin Kim, Hyojun Kim, Hyun-Ah Kim, Jeehye Kim, Jin-Hwa Kim, Jiseon Kim, Jonghak Kim, Jung Yoon Kim, Rak Yeong Kim, Seoyoon Kim, Sewon Kim, Sooyoung Kim, Sukyoung Kim, Taeyong Kim, Naeun Ko, Bonseung Koo, Heeyoung Kwak, Haena Kwon, Youngjin Kwon, Boram Lee, Bruce W. Lee, Dagyeong Lee, Erin Lee, Euijin Lee, Ha Gyeong Lee, Hyojin Lee, Hyunjeong Lee, Jeeyoon Lee, Jeonghyun Lee, Jongheok Lee, Joonhyung Lee, Junhyuk Lee, Mingu Lee, Nayeon Lee, Sangkyu Lee, Se Young Lee, Seulgi Lee, Seung Jin Lee, Suhyeon Lee, Yeonjae Lee, Yesol Lee, Youngbeom Lee, Yujin Lee, Shaodong Li, Tianyu Liu, Seong-Eun Moon, Taehong Moon, Max-Lasse Nihlenramstroem, Wonseok Oh, Yuri Oh, Hongbeen Park, Hyekyung Park, Nohil Park, Sangjin Park, Jiwon Ryu, Miru Ryu, Simo Ryu, Ahreum Seo, Hee Seo, Kangdeok Seo, Jamin Shin, Seungyoun Shin, Heetae Sin, Jiangping Wang, Lei Wang, Ning Xiang, Longxiang Xiao, Jing Xu, Seonyeong Yi, Haanju Yoo, Haneul Yoo, Hwanhee Yoo, Liang Yu, Youngjae Yu, Weijie Yuan, Bo Zeng, Qian Zhou, Kyunghyun Cho, Jung-Woo Ha, Joonsuk Park, Jihyun Hwang, Hyoung Jo Kwon, Soonyong Kwon, Jungyeon Lee, Seungho Lee, Seungho Choi, Sang-Woo Lee, Jung Hwa Lim, Nako Sung

Nous présentons HyperCLOVA X, une famille de grands modèles de langage (LLM) spécialement conçus pour la langue et la culture coréennes, tout en offrant des capacités compétitives en anglais, en mathématiques et en programmation. HyperCLOVA X a été entraîné sur un mélange équilibré de données en coréen, en anglais et en code, suivi d'un ajustement par instruction avec des ensembles de données annotés par des humains de haute qualité, tout en respectant des directives strictes en matière de sécurité, reflétant notre engagement envers une IA responsable. Le modèle est évalué sur divers benchmarks, incluant le raisonnement global, les connaissances, le bon sens, la factualité, la programmation, les mathématiques, le dialogue, la capacité à suivre des instructions et l'innocuité, à la fois en coréen et en anglais. HyperCLOVA X démontre de solides capacités de raisonnement en coréen, soutenues par une compréhension approfondie de la langue et des nuances culturelles. Une analyse approfondie de sa nature bilingue inhérente et de son extension au multilinguisme met en lumière la compétence translinguistique du modèle et sa forte capacité de généralisation à des langues non ciblées, y compris la traduction automatique entre plusieurs paires de langues et les tâches d'inférence translinguistique. Nous croyons qu'HyperCLOVA X peut fournir des orientations utiles aux régions ou pays souhaitant développer leurs propres LLM souverains.

CameraCtrl : Activation du contrôle de la caméra pour la génération de vidéos à partir de texte
CameraCtrl: Enabling Camera Control for Text-to-Video Generation

Apr 2

ByHao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang

La contrôlabilité joue un rôle crucial dans la génération vidéo, car elle permet aux utilisateurs de créer le contenu souhaité. Cependant, les modèles existants ont largement négligé le contrôle précis de la pose de la caméra, qui sert de langage cinématographique pour exprimer des nuances narratives plus profondes. Pour remédier à ce problème, nous introduisons CameraCtrl, permettant un contrôle précis de la pose de la caméra pour les modèles de texte-à-vidéo (T2V). Après avoir paramétré avec précision la trajectoire de la caméra, un module de caméra plug-and-play est ensuite entraîné sur un modèle T2V, laissant les autres intacts. De plus, une étude approfondie sur l'effet de divers ensembles de données est également menée, suggérant que les vidéos avec une distribution variée de caméras et des apparences similaires améliorent en effet la contrôlabilité et la généralisation. Les résultats expérimentaux démontrent l'efficacité de CameraCtrl pour atteindre un contrôle de caméra précis et adaptatif au domaine, marquant une avancée dans la quête d'une narration vidéo dynamique et personnalisée à partir d'entrées textuelles et de poses de caméra. Notre site web de projet est disponible à l'adresse : https://hehao13.github.io/projects-CameraCtrl/.

Plus grand n'est pas toujours mieux : Propriétés de mise à l'échelle des modèles de diffusion latente
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models

Apr 1

ByKangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar

Nous étudions les propriétés de mise à l'échelle des modèles de diffusion latente (LDMs) en mettant l'accent sur leur efficacité d'échantillonnage. Bien que des améliorations de l'architecture des réseaux et des algorithmes d'inférence aient démontré leur capacité à accroître efficacement l'efficacité d'échantillonnage des modèles de diffusion, le rôle de la taille du modèle -- un déterminant critique de cette efficacité -- n'a pas été examiné de manière approfondie. À travers une analyse empirique de modèles établis de diffusion texte-image, nous menons une investigation détaillée sur la manière dont la taille du modèle influence l'efficacité d'échantillonnage à travers différents pas d'échantillonnage. Nos résultats révèlent une tendance surprenante : lorsqu'ils opèrent avec un budget d'inférence donné, les modèles plus petits surpassent fréquemment leurs équivalents plus grands dans la génération de résultats de haute qualité. De plus, nous étendons notre étude pour démontrer la généralisabilité de ces conclusions en appliquant divers échantillonneurs de diffusion, en explorant différentes tâches en aval, en évaluant des modèles post-distillés, ainsi qu'en comparant les performances par rapport au calcul d'entraînement. Ces découvertes ouvrent de nouvelles voies pour le développement de stratégies de mise à l'échelle des LDMs, qui peuvent être employées pour améliorer les capacités génératives dans des budgets d'inférence limités.

Les grands modèles de langage sont-ils des chimistes surhumains ?
Are large language models superhuman chemists?

Apr 1

ByAdrian Mirza, Nawaf Alampara, Sreekanth Kunchapu, Benedict Emoekabu, Aswanth Krishnan, Mara Wilhelmi, Macjonathan Okereke, Juliane Eberhardt, Amir Mohammad Elahi, Maximilian Greiner, Caroline T. Holick, Tanya Gupta, Mehrdad Asgari, Christina Glaubitz, Lea C. Klepsch, Yannik Köster, Jakob Meyer, Santiago Miret, Tim Hoffmann, Fabian Alexander Kreth, Michael Ringleb, Nicole Roesner, Ulrich S. Schubert, Leanne M. Stafast, Dinga Wonanke, Michael Pieler, Philippe Schwaller, Kevin Maik Jablonka

Les grands modèles de langage (LLMs) ont suscité un intérêt croissant en raison de leur capacité à traiter le langage humain et à accomplir des tâches pour lesquelles ils n'ont pas été explicitement entraînés. Cela revêt une importance particulière pour les sciences chimiques, qui sont confrontées au problème de jeux de données petits et diversifiés, souvent sous forme textuelle. Les LLMs ont montré un potentiel prometteur pour résoudre ces problèmes et sont de plus en plus utilisés pour prédire les propriétés chimiques, optimiser les réactions, et même concevoir et mener des expériences de manière autonome. Cependant, nous n'avons encore qu'une compréhension systématique très limitée des capacités de raisonnement chimique des LLMs, ce qui serait nécessaire pour améliorer les modèles et atténuer les risques potentiels. Nous présentons ici "ChemBench", un cadre automatisé conçu pour évaluer rigoureusement les connaissances chimiques et les capacités de raisonnement des LLMs de pointe par rapport à l'expertise des chimistes humains. Nous avons rassemblé plus de 7 000 paires de questions-réponses couvrant un large éventail de sous-domaines des sciences chimiques, évalué les principaux LLMs open-source et propriétaires, et constaté que les meilleurs modèles surpassaient en moyenne les meilleurs chimistes humains dans notre étude. Cependant, les modèles rencontrent des difficultés avec certaines tâches de raisonnement chimique qui sont faciles pour les experts humains et fournissent des prédictions excessivement confiantes et trompeuses, par exemple concernant les profils de sécurité des produits chimiques. Ces résultats soulignent la double réalité selon laquelle, bien que les LLMs démontrent une remarquable compétence dans les tâches chimiques, des recherches supplémentaires sont cruciales pour améliorer leur sécurité et leur utilité dans les sciences chimiques. Nos conclusions indiquent également la nécessité d'adapter les programmes d'enseignement de la chimie et mettent en lumière l'importance de continuer à développer des cadres d'évaluation pour améliorer les LLMs de manière sûre et utile.

Poro 34B et la bénédiction du multilinguisme
Poro 34B and the Blessing of Multilinguality

Apr 2

ByRisto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo

Le pré-entraînement des modèles de langage de pointe de grande taille nécessite désormais des milliers de milliards de mots, ce qui est plusieurs ordres de grandeur supérieur à la quantité de texte disponible pour la grande majorité des langues. Bien que l'inclusion de texte dans plusieurs langues soit une manière évidente d'acquérir davantage de données pour le pré-entraînement, le multilinguisme est souvent perçu comme une malédiction, et la plupart des efforts de formation de modèles continuent de se concentrer presque exclusivement sur des langues individuelles de grande envergure. Nous pensons que le multilinguisme peut être une bénédiction et qu'il devrait être possible d'améliorer considérablement les capacités des modèles monolingues pour les petites langues grâce à un entraînement multilingue. Dans cette étude, nous présentons Poro 34B, un modèle de 34 milliards de paramètres entraîné sur 1 000 milliards de tokens de finnois, d'anglais et de langages de programmation, et démontrons qu'une approche d'entraînement multilingue peut produire un modèle qui non seulement dépasse largement les capacités des modèles existants pour le finnois, mais excelle également en traduction et est compétitif dans sa catégorie pour la génération d'anglais et de langages de programmation. Nous publions les paramètres du modèle, les scripts et les données sous des licences ouvertes à l'adresse suivante : https://huggingface.co/LumiOpen/Poro-34B.

3D Congealing : Alignement d'images 3D conscient dans des environnements non contrôlés
3D Congealing: 3D-Aware Image Alignment in the Wild

Apr 2

ByYunzhi Zhang, Zizhang Li, Amit Raj, Andreas Engelhardt, Yuanzhen Li, Tingbo Hou, Jiajun Wu, Varun Jampani

Nous proposons le 3D Congealing, un nouveau problème d'alignement 3D pour des images 2D capturant des objets sémantiquement similaires. Étant donné une collection d'images Internet non étiquetées, notre objectif est d'associer les parties sémantiques communes des entrées et d'agréger les connaissances des images 2D dans un espace canonique 3D partagé. Nous introduisons un cadre général qui aborde cette tâche sans supposer de modèles de forme, de poses ou de paramètres de caméra. Au cœur de ce cadre se trouve une représentation canonique 3D qui encapsule des informations géométriques et sémantiques. Le cadre optimise la représentation canonique ainsi que la pose pour chaque image d'entrée, et une carte de coordonnées par image qui déforme les coordonnées des pixels 2D vers le cadre canonique 3D pour tenir compte de la correspondance des formes. La procédure d'optimisation fusionne les connaissances a priori d'un modèle génératif d'images pré-entraîné et les informations sémantiques des images d'entrée. Le premier fournit un guide de connaissances solide pour cette tâche sous-contrainte, tandis que le second fournit les informations nécessaires pour atténuer le biais des données d'entraînement du modèle pré-entraîné. Notre cadre peut être utilisé pour diverses tâches telles que la correspondance de points, l'estimation de pose et l'édition d'images, obtenant des résultats robustes sur des ensembles de données d'images réelles dans des conditions d'éclairage difficiles et sur des collections d'images en ligne non contrôlées.

LLM-ABR : Conception d'algorithmes de débit adaptatif via des modèles de langage de grande taille
LLM-ABR: Designing Adaptive Bitrate Algorithms via Large Language Models

Apr 2

ByZhiyuan He, Aashish Gottipati, Lili Qiu, Francis Y. Yan, Xufang Luo, Kenuo Xu, Yuqing Yang

Nous présentons LLM-ABR, le premier système qui exploite les capacités génératives des grands modèles de langage (LLMs) pour concevoir de manière autonome des algorithmes de débit adaptatif (ABR) adaptés à diverses caractéristiques réseau. Fonctionnant dans un cadre d'apprentissage par renforcement, LLM-ABR permet aux LLMs de concevoir des composants clés tels que les états et les architectures de réseaux neuronaux. Nous évaluons LLM-ABR dans divers environnements réseau, incluant le haut débit, le satellite, la 4G et la 5G. LLM-ABR surpasse systématiquement les algorithmes ABR par défaut.

Rapport Technique sur HyperCLOVA X
HyperCLOVA X Technical Report

Apr 2