Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Bielik v3, une série de modèles génératifs de texte à paramètres efficients (1,5B et 4,5B) optimisés pour le traitement de la langue polonaise. Ces modèles démontrent que des architectures plus petites mais bien optimisées peuvent atteindre des performances comparables à des modèles beaucoup plus grands tout en nécessitant nettement moins de ressources computationnelles. Notre approche intègre plusieurs innovations clés : un tokenizer polonais personnalisé (APT4) qui améliore significativement l'efficacité des tokens, une fonction de perte d'entropie croisée pondérée pour les instructions (Weighted Instruction Cross-Entropy Loss) afin d'équilibrer l'apprentissage entre les types d'instructions, et un taux d'apprentissage adaptatif (Adaptive Learning Rate) qui s'ajuste dynamiquement en fonction de l'avancement de l'entraînement. Entraînés sur un corpus méticuleusement sélectionné de 292 milliards de tokens couvrant 303 millions de documents, ces modèles excellent sur plusieurs benchmarks, notamment le Open PL LLM Leaderboard, le Complex Polish Text Understanding Benchmark, le Polish EQ-Bench et le Polish Medical Leaderboard. Le modèle à 4,5 milliards de paramètres obtient des résultats compétitifs par rapport à des modèles 2 à 3 fois plus grands, tandis que le modèle à 1,5 milliard de paramètres offre des performances solides malgré son profil extrêmement compact. Ces avancées établissent de nouveaux référentiels pour la modélisation linguistique à paramètres efficients dans les langues moins représentées, rendant l'IA de haute qualité en langue polonaise plus accessible pour les applications aux ressources limitées.
Nous présentons Bielik 11B v2, un modèle de langage de pointe optimisé pour le traitement de texte en polonais. Basé sur l'architecture Mistral 7B v0.2 et mis à l'échelle à 11 milliards de paramètres grâce à une augmentation de la profondeur, ce modèle démontre des performances exceptionnelles sur les benchmarks de langue polonaise tout en conservant de solides capacités multilingues. Nous introduisons deux innovations techniques clés : la **Perte d'Entropie Croisée Pondérée par Instructions**, qui optimise l'apprentissage pour divers types d'instructions en attribuant des poids basés sur la qualité aux exemples d'entraînement, et le **Taux d'Apprentissage Adaptatif**, qui s'ajuste dynamiquement en fonction de la longueur du contexte. Une évaluation approfondie sur plusieurs benchmarks montre que Bielik 11B v2 surpasse de nombreux modèles plus grands, y compris ceux ayant 2 à 6 fois plus de paramètres, et dépasse significativement d'autres modèles spécialisés en langue polonaise sur des tâches allant de la compréhension linguistique au raisonnement complexe. L'efficacité en termes de paramètres du modèle et ses options de quantification étendues permettent un déploiement sur diverses configurations matérielles, faisant progresser les capacités de l'IA pour la langue polonaise et établissant de nouveaux standards pour la modélisation linguistique économe en ressources dans les langues moins représentées.
Un robot généraliste devrait être performant dans divers environnements. Cependant, la plupart des approches existantes reposent fortement sur la mise à l'échelle de données annotées d'actions pour améliorer leurs capacités. Par conséquent, elles sont souvent limitées à une seule spécification physique et peinent à acquérir des connaissances transférables entre différentes incarnations et environnements. Pour surmonter ces limitations, nous proposons UniVLA, un nouveau cadre pour l'apprentissage de politiques vision-langue-action (VLA) inter-incarnations. Notre innovation clé consiste à dériver des représentations d'actions centrées sur la tâche à partir de vidéos grâce à un modèle d'actions latentes. Cela nous permet d'exploiter des données étendues couvrant un large spectre d'incarnations et de perspectives. Pour atténuer l'effet des dynamiques non pertinentes à la tâche, nous intégrons des instructions langagières et établissons un modèle d'actions latentes dans l'espace de caractéristiques DINO. Apprise à partir de vidéos à l'échelle d'Internet, la politique généraliste peut être déployée sur divers robots via un décodage efficace des actions latentes. Nous obtenons des résultats de pointe sur plusieurs benchmarks de manipulation et de navigation, ainsi que sur des déploiements réels de robots. UniVLA surpasse OpenVLA avec moins de 1/20 de la puissance de calcul en pré-entraînement et 1/10 des données en aval. Des améliorations continues des performances sont observées lorsque des données hétérogènes, y compris des vidéos humaines, sont intégrées dans le pipeline d'entraînement. Les résultats soulignent le potentiel d'UniVLA à faciliter un apprentissage de politiques robotiques scalable et efficace.
L'évaluation de l'efficacité de la conception d'interfaces utilisateur (UI) va au-delà de l'esthétique pour influencer le comportement des utilisateurs, un principe central à la Persuasivité du Design. Les tests A/B constituent la méthode prédominante pour déterminer quelles variations d'UI génèrent un engagement utilisateur plus élevé, mais ils sont coûteux et chronophages. Bien que les modèles Vision-Langage (VLMs) récents puissent traiter l'analyse automatisée des UI, les approches actuelles se concentrent sur des attributs de conception isolés plutôt que sur la persuasivité comparative—le facteur clé dans l'optimisation des interactions utilisateur. Pour répondre à cela, nous introduisons WiserUI-Bench, un benchmark conçu pour la tâche d'Évaluation de la Persuasivité des UI par Paires, comprenant 300 paires d'images d'UI réelles annotées avec des résultats de tests A/B et des justifications d'experts. De plus, nous proposons G-FOCUS, une nouvelle stratégie de raisonnement au moment de l'inférence qui améliore l'évaluation de la persuasivité basée sur les VLMs en réduisant le biais de position et en augmentant la précision de l'évaluation. Les résultats expérimentaux montrent que G-FOCUS surpasse les stratégies d'inférence existantes en termes de cohérence et de précision pour l'évaluation des UI par paires. En promouvant l'évaluation de la persuasivité des UI pilotée par les VLMs, notre travail propose une approche pour compléter les tests A/B, favorisant ainsi les progrès dans la modélisation scalable des préférences d'UI et l'optimisation de la conception. Le code et les données seront rendus publics.
Les récents développements dans les modèles de langage de grande taille (LLMs) ont évolué d'une mise à l'échelle en phase de pré-entraînement à une mise à l'échelle en phase post-entraînement et au moment des tests. À travers ces avancées, un paradigme unifié clé a émergé : l'apprentissage par les récompenses, où les signaux de récompense agissent comme des étoiles guides pour orienter le comportement des LLMs. Ce paradigme a soutenu une large gamme de techniques prédominantes, telles que l'apprentissage par renforcement (dans RLHF, DPO et GRPO), le décodage guidé par récompense et la correction post-hoc. De manière cruciale, ce paradigme permet la transition d'un apprentissage passif à partir de données statiques à un apprentissage actif à partir de retours dynamiques. Cela confère aux LLMs des préférences alignées et des capacités de raisonnement approfondies. Dans cette étude, nous présentons un aperçu complet du paradigme de l'apprentissage par les récompenses. Nous catégorisons et analysons les stratégies sous ce paradigme à travers les étapes d'entraînement, d'inférence et post-inférence. Nous discutons en outre des benchmarks pour les modèles de récompense et des principales applications. Enfin, nous mettons en lumière les défis et les directions futures. Nous maintenons une collection de documents à l'adresse suivante : https://github.com/bobxwu/learning-from-rewards-llm-papers.
Alors que les modèles de langage de grande taille (LLM) deviennent largement accessibles, une compréhension détaillée de leurs connaissances dans des domaines spécifiques devient nécessaire pour une utilisation réussie dans le monde réel. Ceci est particulièrement critique dans le domaine de la santé publique, où l'incapacité à récupérer des informations pertinentes, précises et actuelles pourrait avoir un impact significatif sur les résidents du Royaume-Uni. Cependant, on sait actuellement peu de choses sur les connaissances des LLM concernant les informations de santé publique du gouvernement britannique. Pour résoudre ce problème, cet article introduit un nouveau benchmark, PubHealthBench, comprenant plus de 8000 questions pour évaluer les réponses des LLM à des questions à choix multiples (MCQA) et à des requêtes de santé publique en format libre, créées via un pipeline automatisé. Nous publions également un nouveau jeu de données des documents de directives de santé publique du gouvernement britannique utilisés comme texte source pour PubHealthBench. En évaluant 24 LLM sur PubHealthBench, nous constatons que les derniers LLM privés (GPT-4.5, GPT-4.1 et o1) possèdent un haut degré de connaissances, atteignant plus de 90% dans le cadre MCQA, et surpassent les humains utilisant rapidement un moteur de recherche. Cependant, dans le cadre de réponses libres, nous observons une performance plus faible, aucun modèle n'atteignant plus de 75%. Par conséquent, bien qu'il y ait des signes prometteurs que les LLM de pointe (SOTA) constituent une source d'informations de santé publique de plus en plus précise, des mesures de sécurité supplémentaires ou des outils pourraient encore être nécessaires lors de la fourniture de réponses libres sur des sujets de santé publique.
Le modèle GPT-4o d'OpenAI, intégrant des entrées et sorties multimodales au sein d'une architecture autorégressive, a démontré des performances sans précédent en génération d'images. Dans ce travail, nous étudions son impact potentiel sur la communauté de la restauration d'images. Nous présentons la première évaluation systématique de GPT-4o à travers diverses tâches de restauration. Nos expériences révèlent que, bien que les sorties de restauration de GPT-4o soient visuellement attrayantes, elles souffrent souvent d'une fidélité structurelle au niveau des pixels par rapport aux images de référence. Les problèmes courants incluent des variations dans les proportions des images, des décalages dans les positions et quantités d'objets, ainsi que des changements de point de vue. Pour y remédier, en prenant comme études de cas représentatives la suppression de brouillard, la suppression de pluie et l'amélioration des images en faible luminosité, nous montrons que les sorties de GPT-4o peuvent servir de puissants a priori visuels, améliorant considérablement les performances des réseaux existants de suppression de brouillard. Cela offre des directives pratiques et un cadre de référence pour faciliter l'intégration de GPT-4o dans les futurs pipelines de restauration d'images. Nous espérons que l'étude sur la restauration d'images par GPT-4o accélérera l'innovation dans le domaine plus large de la génération d'images. Pour soutenir des recherches ultérieures, nous publierons les images restaurées par GPT-4o provenant de plus de 10 ensembles de données de restauration d'images largement utilisés.
L’alignement rigide de nuages de points est un problème fondamental en vision par ordinateur 3D. Dans le cas multivue, nous cherchons à déterminer un ensemble de poses 6D pour aligner un ensemble d’objets. Les méthodes basées sur l’alignement par paires s’appuient sur un algorithme de synchronisation ultérieur, ce qui les rend peu évolutives avec le nombre de vues. Les approches génératives surmontent cette limitation, mais reposent sur des modèles de mélanges gaussiens et utilisent un algorithme d’espérance-maximisation. Par conséquent, elles ne sont pas bien adaptées pour gérer de grandes transformations. De plus, la plupart des méthodes existantes ne peuvent pas gérer des niveaux élevés de dégradations. Dans cet article, nous présentons POLAR (POint cloud LAtent Registration), une méthode d’alignement multivue capable de traiter efficacement un grand nombre de vues, tout en étant robuste à un niveau élevé de dégradations et à de grands angles initiaux. Pour y parvenir, nous transposons le problème d’alignement dans l’espace latent d’un autoencodeur préentraîné, concevons une fonction de coût prenant en compte les dégradations, et développons une stratégie d’optimisation multistart efficace. Notre méthode proposée surpasse significativement les approches de l’état de l’art sur des données synthétiques et réelles. POLAR est disponible sur github.com/pypolar/polar ou en tant que package autonome pouvant être installé avec pip install polaregistration.