Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles génératifs ont eu des impacts significatifs dans divers domaines, en grande partie grâce à leur capacité à augmenter l'échelle pendant l'entraînement en augmentant les données, les ressources computationnelles et la taille du modèle, un phénomène caractérisé par les lois d'échelle. Des recherches récentes ont commencé à explorer le comportement d'échelle au moment de l'inférence dans les Grands Modèles de Langage (GML), révélant comment les performances peuvent encore s'améliorer avec des calculs supplémentaires pendant l'inférence. Contrairement aux GML, les modèles de diffusion possèdent intrinsèquement la flexibilité d'ajuster le calcul au moment de l'inférence via le nombre d'étapes de débruitage, bien que les gains de performances atteignent généralement un plateau après quelques dizaines. Dans ce travail, nous explorons le comportement d'échelle au moment de l'inférence des modèles de diffusion au-delà de l'augmentation des étapes de débruitage et étudions comment les performances de génération peuvent encore s'améliorer avec une augmentation du calcul. Plus précisément, nous considérons un problème de recherche visant à identifier de meilleurs bruits pour le processus d'échantillonnage de diffusion. Nous structurons l'espace de conception le long de deux axes : les vérificateurs utilisés pour fournir des retours et les algorithmes utilisés pour trouver de meilleurs candidats de bruit. À travers des expériences approfondies sur des référentiels de génération d'images conditionnées par classe et par texte, nos résultats révèlent qu'une augmentation du calcul au moment de l'inférence conduit à des améliorations substantielles dans la qualité des échantillons générés par les modèles de diffusion, et avec la nature complexe des images, des combinaisons des composants du cadre peuvent être spécifiquement choisies pour correspondre à différents scénarios d'application.
L'écriture automatique avec de grands modèles de langage repose souvent sur la génération augmentée par récupération. Cependant, ces approches restent confinées dans les limites de la portée prédéfinie du modèle, limitant la génération de contenu riche en informations. Plus précisément, les informations récupérées de manière classique ont tendance à manquer de profondeur, d'utilité et souffrent de redondance, ce qui impacte négativement la qualité des articles générés, entraînant des sorties superficielles, répétitives et peu originales. Pour résoudre ces problèmes, nous proposons OmniThink, un cadre d'écriture automatique qui émule le processus itératif d'expansion et de réflexion de type humain. L'idée centrale derrière OmniThink est de simuler le comportement cognitif des apprenants alors qu'ils approfondissent progressivement leurs connaissances des sujets. Les résultats expérimentaux démontrent qu'OmniThink améliore la densité de connaissance des articles générés sans compromettre des métriques telles que la cohérence et la profondeur. Les évaluations humaines et les retours d'experts mettent en avant le potentiel d'OmniThink pour relever les défis du monde réel dans la génération d'articles longs.
Le langage a longtemps été conçu comme un outil essentiel pour le raisonnement humain. La percée des Grands Modèles de Langage (GML) a suscité un intérêt significatif en recherche pour exploiter ces modèles afin de relever des tâches de raisonnement complexes. Les chercheurs ont dépassé la simple génération autorégressive de jetons en introduisant le concept de "pensée" - une séquence de jetons représentant des étapes intermédiaires dans le processus de raisonnement. Ce paradigme innovant permet aux GML de reproduire des processus de raisonnement humain complexes, tels que la recherche arborescente et la réflexion. Récemment, une tendance émergente d'apprentissage du raisonnement a appliqué l'apprentissage par renforcement (AR) pour entraîner les GML à maîtriser les processus de raisonnement. Cette approche permet la génération automatique de trajectoires de raisonnement de haute qualité grâce à des algorithmes de recherche par essais et erreurs, étendant considérablement la capacité de raisonnement des GML en fournissant beaucoup plus de données d'entraînement. De plus, des études récentes démontrent qu'encourager les GML à "penser" avec plus de jetons pendant l'inférence au moment du test peut encore améliorer significativement la précision du raisonnement. Ainsi, la mise à l'échelle à l'entraînement et au test montre une nouvelle frontière de recherche - un chemin vers un Grand Modèle de Raisonnement. L'introduction de la série o1 d'OpenAI marque une étape importante dans cette direction de recherche. Dans cette étude, nous présentons une revue complète des progrès récents dans le raisonnement des GML. Nous commençons par présenter le contexte fondamental des GML, puis explorons les composants techniques clés qui stimulent le développement de grands modèles de raisonnement, en mettant l'accent sur la construction automatique de données, les techniques d'apprentissage du raisonnement et la mise à l'échelle au moment du test. Nous analysons également des projets open source populaires pour la construction de grands modèles de raisonnement, et concluons par des défis ouverts et des orientations pour les futures recherches.
La tokenisation visuelle via l'auto-codage renforce les modèles génératifs d'images et de vidéos de pointe en comprimant les pixels dans un espace latent. Bien que l'extension des générateurs basés sur les Transformers ait été au cœur des récentes avancées, le composant de tokenisation lui-même est rarement étendu, laissant des questions ouvertes sur la manière dont les choix de conception de l'auto-codeur influencent à la fois son objectif de reconstruction et les performances génératives en aval. Notre travail vise à mener une exploration de l'extension des auto-codeurs pour combler cette lacune. Pour faciliter cette exploration, nous remplaçons l'épine dorsale convolutive typique par une architecture améliorée de Vision Transformer pour la Tokenisation (ViTok). Nous formons ViTok sur des ensembles de données d'images et de vidéos à grande échelle dépassant largement ImageNet-1K, éliminant les contraintes de données sur l'extension du tokeniseur. Nous étudions d'abord comment l'extension de l'étranglement de l'auto-codeur affecte à la fois la reconstruction et la génération - et constatons que bien qu'elle soit fortement corrélée à la reconstruction, sa relation avec la génération est plus complexe. Nous explorons ensuite l'effet de l'extension séparée de l'encodeur et du décodeur des auto-codeurs sur les performances de reconstruction et de génération. De manière cruciale, nous constatons que l'extension de l'encodeur apporte des gains minimes pour la reconstruction ou la génération, tandis que l'extension du décodeur améliore la reconstruction mais les avantages pour la génération sont mitigés. En nous appuyant sur notre exploration, nous concevons ViTok comme un auto-codeur léger qui atteint des performances compétitives avec des auto-codeurs de pointe sur ImageNet-1K et les tâches de reconstruction COCO (256p et 512p) tout en surpassant les auto-codeurs existants sur la reconstruction vidéo 16 images de 128p pour UCF-101, le tout avec 2 à 5 fois moins d'opérations en virgule flottante (FLOPs). Lorsqu'il est intégré aux Transformers de Diffusion, ViTok démontre des performances compétitives en matière de génération d'images pour ImageNet-1K et établit de nouveaux benchmarks de pointe pour la génération vidéo conditionnelle par classe sur UCF-101.
La génération de vidéos par l'IA est en train de vivre une révolution, avec une qualité et un réalisme en constante progression. Ces avancées ont donné lieu à un débat scientifique passionné : les modèles vidéo apprennent-ils des "modèles du monde" qui découvrent les lois de la physique, ou sont-ils simplement des prédicteurs sophistiqués de pixels qui parviennent à un réalisme visuel sans comprendre les principes physiques de la réalité ? Nous abordons cette question en développant Physics-IQ, un ensemble de données de référence complet qui ne peut être résolu qu'en acquérant une compréhension approfondie de divers principes physiques, tels que la dynamique des fluides, l'optique, la mécanique des solides, le magnétisme et la thermodynamique. Nous constatons que, sur une gamme de modèles actuels (Sora, Runway, Pika, Lumiere, Stable Video Diffusion et VideoPoet), la compréhension physique est sévèrement limitée et sans lien avec le réalisme visuel. Dans le même temps, certains cas de test peuvent déjà être résolus avec succès. Cela indique que l'acquisition de certains principes physiques uniquement par l'observation pourrait être possible, mais d'importants défis subsistent. Bien que nous nous attendions à des avancées rapides à l'avenir, notre travail démontre que le réalisme visuel n'implique pas une compréhension physique. Notre page de projet se trouve à l'adresse https://physics-iq.github.io ; le code source est disponible sur https://github.com/google-deepmind/physics-IQ-benchmark.
Les modèles de séquences autorégressifs, tels que les politiques vision-langage basées sur les Transformers, peuvent être extrêmement efficaces pour capturer des comportements robotiques complexes et généralisables. Cependant, de tels modèles nous obligent à choisir une tokenisation de nos signaux d'action continus, ce qui détermine comment les symboles discrets prédits par le modèle se mappent aux actions robotiques continues. Nous constatons que les approches actuelles de tokenisation des actions des robots, basées sur des schémas de regroupement simples par dimension et par pas de temps, ont généralement de mauvaises performances lors de l'apprentissage de compétences habiles à partir de données robotiques à haute fréquence. Pour relever ce défi, nous proposons un nouveau schéma de tokenisation des actions des robots basé sur la transformée en cosinus discrète. Notre approche de tokenisation, appelée Tokenisation des Séquences d'Actions dans l'Espace Fréquentiel (FAST), nous permet d'entraîner des politiques vision-langage autorégressives pour des tâches hautement habiles et à haute fréquence là où les méthodes de discrétisation standard échouent complètement. Basé sur FAST, nous lançons FAST+, un tokeniseur d'actions de robot universel, entraîné sur 1M de trajectoires d'actions de robot réelles. Il peut être utilisé comme un tokeniseur boîte noire pour un large éventail de séquences d'actions de robot, avec des espaces d'actions divers et des fréquences de contrôle variées. Enfin, nous montrons que, combinée avec le VLA pi0, notre méthode peut être mise à l'échelle pour s'entraîner sur 10 000 heures de données robotiques et égaler les performances des VLAs de diffusion, tout en réduisant le temps d'entraînement jusqu'à 5 fois.
Nous présentons SynthLight, un modèle de diffusion pour le relighting de portraits. Notre approche encadre le relighting d'images comme un problème de re-rendu, où les pixels sont transformés en réponse aux changements des conditions d'éclairage environnemental. En utilisant un moteur de rendu basé sur la physique, nous synthétisons un ensemble de données pour simuler cette transformation conditionnée par l'éclairage avec des actifs de tête en 3D sous différents éclairages. Nous proposons deux stratégies d'entraînement et d'inférence pour combler l'écart entre les domaines d'images synthétiques et réelles : (1) un entraînement multi-tâches qui tire parti de portraits humains réels sans étiquettes d'éclairage ; (2) une procédure d'échantillonnage de diffusion au moment de l'inférence basée sur un guidage sans classificateur qui exploite le portrait d'entrée pour mieux préserver les détails. Notre méthode se généralise à diverses photographies réelles et produit des effets d'illumination réalistes, y compris des reflets spéculaires et des ombres portées, tout en préservant l'identité du sujet. Nos expériences quantitatives sur les données de Light Stage démontrent des résultats comparables aux méthodes de relighting de pointe. Nos résultats qualitatifs sur des images en milieu naturel mettent en avant des effets d'illumination riches et sans précédent. Page du projet : https://vrroom.github.io/synthlight/
La consultation médicale en ligne (CML) restreint les médecins à recueillir des informations sur les patients uniquement par des questions, rendant le processus de prise de décision diagnostique déjà complexe encore plus difficile. Récemment, les progrès rapides des grands modèles de langage ont démontré un potentiel significatif pour transformer la CML. Cependant, la plupart des études se sont principalement concentrées sur l'amélioration de la précision diagnostique dans des conditions d'informations relativement suffisantes, tout en accordant peu d'attention à la phase "d'interrogatoire" du processus de consultation. Ce manque de focalisation a laissé la relation entre "interrogatoire" et "diagnostic" insuffisamment explorée. Dans cet article, nous extrayons d'abord des stratégies d'interaction réelles de patients à partir de conversations authentiques médecin-patient et utilisons ces stratégies pour guider la formation d'un simulateur de patient reproduisant étroitement le comportement réel. En introduisant des dossiers médicaux dans notre simulateur de patient pour simuler les réponses des patients, nous menons des expériences approfondies pour explorer la relation entre "interrogatoire" et "diagnostic" dans le processus de consultation. Les résultats expérimentaux montrent que l'interrogatoire et le diagnostic suivent la loi de Liebig : une mauvaise qualité d'interrogatoire limite l'efficacité du diagnostic, indépendamment de la capacité diagnostique, et vice versa. De plus, les expériences révèlent des différences significatives dans la performance d'interrogatoire des différents modèles. Pour étudier ce phénomène, nous catégorisons le processus d'interrogatoire en quatre types : (1) interrogatoire sur les plaintes principales ; (2) spécification des symptômes connus ; (3) interrogatoire sur les symptômes accompagnants ; et (4) recueil des antécédents familiaux ou médicaux. Nous analysons la répartition des interrogatoires à travers les quatre types pour différents modèles afin d'explorer les raisons derrière leurs différences de performance significatives. Nous prévoyons de rendre open-source les poids et le code associé de notre simulateur de patient sur https://github.com/LIO-H-ZEN/PatientSimulator.
La synthèse d'actifs 3D de haute qualité à partir d'entrées textuelles ou visuelles est devenue un objectif central dans la modélisation générative moderne. Malgré la prolifération des algorithmes de génération 3D, ils sont souvent confrontés à des défis tels que l'incohérence multi-vues, les temps de génération lents, la faible fidélité et les problèmes de reconstruction de surface. Bien que certaines études aient abordé certains de ces problèmes, une solution complète reste insaisissable. Dans cet article, nous présentons CaPa, un cadre de sculpture et de peinture qui génère efficacement des actifs 3D de haute fidélité. CaPa utilise un processus en deux étapes, en dissociant la génération de géométrie de la synthèse de texture. Initialement, un modèle de diffusion latente 3D génère une géométrie guidée par des entrées multi-vues, garantissant une cohérence structurelle à travers les perspectives. Ensuite, en tirant parti d'une nouvelle Attention Spatiallement Découplée, indépendante du modèle, le cadre synthétise des textures haute résolution (jusqu'à 4K) pour une géométrie donnée. De plus, nous proposons un algorithme d'inpainting d'occultation conscient de la 3D qui remplit les régions non texturées, donnant des résultats cohérents sur l'ensemble du modèle. Ce pipeline génère des actifs 3D de haute qualité en moins de 30 secondes, fournissant des sorties prêtes à l'emploi pour des applications commerciales. Les résultats expérimentaux démontrent que CaPa excelle à la fois en fidélité de texture et en stabilité géométrique, établissant une nouvelle norme pour la génération d'actifs 3D pratique et évolutive.
Récemment, les modèles génératifs à grande échelle ont démontré des capacités exceptionnelles en génération de texte vers image. Cependant, la génération d'images personnalisées de haute qualité avec des sujets spécifiques présente encore des défis, notamment dans les cas impliquant plusieurs sujets. Dans cet article, nous proposons AnyStory, une approche unifiée pour la génération de sujets personnalisés. AnyStory atteint non seulement une personnalisation de haute qualité pour des sujets uniques, mais également pour plusieurs sujets, sans compromettre la fidélité des sujets. Plus précisément, AnyStory modélise le problème de personnalisation de sujet de manière "encoder-puis-router". Dans l'étape d'encodage, AnyStory utilise un encodeur d'image universel et puissant, c'est-à-dire ReferenceNet, en conjonction avec l'encodeur vision CLIP pour obtenir un encodage de haute qualité des caractéristiques du sujet. Dans l'étape de routage, AnyStory utilise un routeur de sujet conscient de l'instance pour percevoir et prédire avec précision l'emplacement potentiel du sujet correspondant dans l'espace latent, et guider l'injection des conditions du sujet. Les résultats expérimentaux détaillés démontrent l'excellente performance de notre méthode en termes de conservation des détails du sujet, d'alignement des descriptions textuelles et de personnalisation pour plusieurs sujets. La page du projet se trouve à l'adresse https://aigcdesigngroup.github.io/AnyStory/.
La récente montée en popularité des grands modèles de langage a stimulé le développement de vastes ensembles de données de code nécessaires pour les entraîner. Cela a laissé peu de code disponible pour la collecte et l'utilisation dans l'investigation ultérieure de comportements spécifiques, ou l'évaluation de grands modèles de langage sans souffrir de la contamination des données. Pour résoudre ce problème, nous publions The Heap, un vaste ensemble de données multilingue couvrant 57 langages de programmation qui a été dédupliqué par rapport à d'autres ensembles de données ouverts de code, permettant aux chercheurs de mener des évaluations équitables de grands modèles de langage sans un nettoyage important des données.
Les systèmes d'IA générative tels que les modèles fondamentaux (FMs) doivent bien s'aligner avec les valeurs humaines pour garantir que leur comportement soit utile et digne de confiance. Bien que l'Apprentissage par Renforcement à partir des Retours Humains (RLHF) ait montré des promesses pour optimiser les performances des modèles en utilisant les jugements humains, les pipelines RLHF existants reposent principalement sur des retours immédiats, qui peuvent échouer à refléter avec précision l'impact en aval d'une interaction sur l'utilité des utilisateurs. Nous démontrons que les retours basés sur les estimations de prévoyance des évaluateurs concernant les conséquences en aval induisent systématiquement des dynamiques de la Loi de Goodhart, incitant à des comportements désalignés tels que la flagornerie et la tromperie et dégradant finalement les résultats des utilisateurs. Pour remédier à cela, nous proposons de désolidariser l'évaluation de la prédiction en recentrant le RLHF sur les retours en hindsight. Notre analyse théorique révèle que conditionner les retours des évaluateurs sur les observations en aval atténue le désalignement et améliore l'utilité humaine attendue, même lorsque ces observations sont simulées par le système d'IA lui-même. Pour exploiter cette insight dans un algorithme d'alignement pratique, nous introduisons l'Apprentissage par Renforcement à partir de la Simulation en Hindsight (RLHS), qui simule d'abord des conséquences plausibles puis sollicite des retours pour évaluer quels comportements étaient réellement bénéfiques avec le recul. Nous appliquons le RLHS à deux méthodes d'optimisation de préférences largement utilisées en ligne et hors ligne - l'Optimisation de Politique Proximale (PPO) et l'Optimisation de Préférence Directe (DPO) - et montrons empiriquement que le désalignement est significativement réduit avec les deux méthodes. À travers une étude utilisateur humaine en ligne, nous montrons que le RLHS surpasse de manière constante le RLHF en aidant les utilisateurs à atteindre leurs objectifs et obtient des notes de satisfaction plus élevées, malgré le fait d'être entraîné uniquement avec des retours simulés en hindsight. Ces résultats soulignent l'importance de se concentrer sur les conséquences à long terme, même simulées, pour atténuer le désalignement dans le RLHF.