papers.title

papers.description

VideoRAG : Génération augmentée par récupération sur corpus vidéo
VideoRAG: Retrieval-Augmented Generation over Video Corpus

Jan 10

BySoyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang

La Génération Augmentée par Récupération (RAG) est une stratégie puissante pour résoudre le problème de la génération de sorties incorrectes sur le plan factuel dans les modèles de base en récupérant des connaissances externes pertinentes pour les requêtes et en les incorporant dans leur processus de génération. Cependant, les approches RAG existantes se sont principalement concentrées sur les informations textuelles, avec quelques avancées récentes commençant à considérer les images, et elles négligent largement les vidéos, une source riche de connaissances multimodales capable de représenter des événements, des processus et des détails contextuels de manière plus efficace que toute autre modalité. Alors que quelques études récentes explorent l'intégration de vidéos dans le processus de génération de réponses, elles pré-définissent soit des vidéos associées à des requêtes sans les récupérer selon les requêtes, soit convertissent des vidéos en descriptions textuelles sans exploiter leur richesse multimodale. Pour relever ces défis, nous présentons VideoRAG, un nouveau cadre qui non seulement récupère dynamiquement des vidéos pertinentes en fonction de leur pertinence avec les requêtes, mais utilise également à la fois les informations visuelles et textuelles des vidéos dans la génération de sortie. De plus, pour opérationnaliser cela, notre méthode s'appuie sur l'avancée récente des Grands Modèles de Langage Vidéo (LVLMs), qui permettent le traitement direct du contenu vidéo pour le représenter en vue de la récupération et de l'intégration transparente des vidéos récupérées conjointement avec les requêtes. Nous validons expérimentalement l'efficacité de VideoRAG, démontrant qu'il est supérieur aux bases de référence pertinentes.

Permettre une surveillance évolutive évolutive grâce à un critique auto-évolutif.
Enabling Scalable Oversight via Self-Evolving Critic

Jan 10

ByZhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin

Malgré leurs performances remarquables, le développement des Grands Modèles de Langage (GML) est confronté à un défi critique en matière de supervision évolutive : fournir des retours efficaces pour des tâches où l'évaluation humaine est difficile ou où les GML surpassent les humains. Alors qu'il existe un intérêt croissant pour l'utilisation des GML pour la critique, les approches actuelles reposent encore sur des annotations humaines ou des modèles plus puissants, laissant en suspens la question de l'amélioration des capacités de critique sans supervision externe. Nous présentons SCRIT (CRITique auto-évolutive), un cadre qui permet une véritable auto-évolution des capacités de critique. Techniquement, SCRIT s'améliore en s'entraînant sur des données synthétiques, générées par un auto-critique basé sur le contraste qui utilise des solutions de référence pour la critique étape par étape, et un mécanisme d'auto-validation qui garantit la qualité de la critique grâce aux résultats de correction. Implémenté avec Qwen2.5-72B-Instruct, l'un des GML les plus puissants, SCRIT atteint jusqu'à une amélioration de 10,3\% sur les benchmarks de correction de critique et d'identification d'erreurs. Notre analyse révèle que les performances de SCRIT évoluent positivement avec la taille des données et du modèle, surpassent les approches alternatives, et bénéficient de manière critique de son composant d'auto-validation.

LlamaV-o1 : Repenser le raisonnement visuel étape par étape dans les LLM
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

Jan 10

ByOmkar Thawakar, Dinura Dissanayake, Ketan More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan

Le raisonnement est une capacité fondamentale pour résoudre des problèmes complexes à plusieurs étapes, en particulier dans des contextes visuels où une compréhension séquentielle étape par étape est essentielle. Les approches existantes manquent d'un cadre complet pour évaluer le raisonnement visuel et ne mettent pas l'accent sur la résolution de problèmes étape par étape. À cette fin, nous proposons un cadre complet pour faire progresser le raisonnement visuel étape par étape dans de grands modèles de langage (LMMs) à travers trois contributions clés. Tout d'abord, nous introduisons un banc d'essai de raisonnement visuel spécifiquement conçu pour évaluer des tâches de raisonnement à plusieurs étapes. Le banc d'essai présente un ensemble diversifié de défis avec huit catégories différentes allant de la perception visuelle complexe au raisonnement scientifique avec plus de 4k étapes de raisonnement au total, permettant une évaluation robuste des capacités des LLMs à effectuer un raisonnement visuel précis et interprétable à travers plusieurs étapes. Deuxièmement, nous proposons une nouvelle métrique qui évalue la qualité du raisonnement visuel au niveau des étapes individuelles, mettant l'accent à la fois sur la correction et la cohérence logique. La métrique proposée offre des insights plus approfondis sur les performances de raisonnement par rapport aux métriques traditionnelles de précision de fin de tâche. Troisièmement, nous présentons un nouveau modèle de raisonnement visuel multimodal, nommé LlamaV-o1, formé en utilisant une approche d'apprentissage par curriculum à plusieurs étapes, où les tâches sont progressivement organisées pour faciliter l'acquisition de compétences incrémentielle et la résolution de problèmes. Le LlamaV-o1 proposé est conçu pour le raisonnement à plusieurs étapes et apprend étape par étape à travers un paradigme d'entraînement structuré. Des expériences approfondies montrent que notre LlamaV-o1 surpasse les modèles open-source existants et se comporte favorablement par rapport aux modèles propriétaires close-source. Comparé au récent Llava-CoT, notre LlamaV-o1 atteint un score moyen de 67,3 avec un gain absolu de 3,8\% à travers six bancs d'essai tout en étant 5 fois plus rapide lors de l'échelle d'inférence. Notre banc d'essai, modèle et code sont disponibles publiquement.

OmniManip : Vers une manipulation robotique générale via des primitives d'interaction centrées sur les objets en tant que contraintes spatiales
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

Jan 7

ByMingjie Pan, Jiyao Zhang, Tianshu Wu, Yinghao Zhao, Wenlong Gao, Hao Dong

Le développement de systèmes robotiques généraux capables de manipuler dans des environnements non structurés est un défi significatif. Alors que les Modèles Vision-Language (VLM) excellent dans le raisonnement de bon sens de haut niveau, ils manquent de la compréhension spatiale 3D détaillée nécessaire pour des tâches de manipulation précises. Le réglage fin des VLM sur des ensembles de données robotiques pour créer des Modèles Vision-Language-Action (VLA) est une solution potentielle, mais elle est entravée par des coûts élevés de collecte de données et des problèmes de généralisation. Pour relever ces défis, nous proposons une représentation novatrice centrée sur les objets qui comble le fossé entre le raisonnement de haut niveau des VLM et la précision de bas niveau requise pour la manipulation. Notre idée clé est qu'un espace canonique d'objet, défini par ses affordances fonctionnelles, fournit un moyen structuré et sémantiquement significatif de décrire des primitives d'interaction, telles que des points et des directions. Ces primitives agissent comme un pont, traduisant le raisonnement de bon sens des VLM en contraintes spatiales 3D actionnables. Dans ce contexte, nous introduisons un système de manipulation robotique à double boucle fermée, à vocabulaire ouvert : une boucle pour la planification de haut niveau à travers le rééchantillonnage primitif, le rendu d'interaction et la vérification des VLM, et une autre pour l'exécution de bas niveau via le suivi de la pose 6D. Cette conception garantit un contrôle robuste et en temps réel sans nécessiter de réglage fin des VLM. Des expériences approfondies démontrent une forte généralisation sans apprentissage préalable sur une variété de tâches de manipulation robotique, mettant en évidence le potentiel de cette approche pour automatiser la génération de données de simulation à grande échelle.

OVO-Bench : À quelle distance se trouvent vos LLM vidéo de la compréhension des vidéos en ligne du monde réel ?
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Jan 9

ByYifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang

La Conscience Temporelle, la capacité de raisonner de manière dynamique en fonction de l'horodatage au moment où une question est posée, est la distinction clé entre les LLM vidéo hors ligne et en ligne. Contrairement aux modèles hors ligne, qui se basent sur des vidéos complètes pour une analyse statique et a posteriori, les modèles en ligne traitent les flux vidéo de manière incrémentielle et adaptent dynamiquement leurs réponses en fonction de l'horodatage auquel la question est posée. Malgré son importance, la conscience temporelle n'a pas été évaluée de manière adéquate dans les benchmarks existants. Pour combler cette lacune, nous présentons OVO-Bench (Online-VideO-Benchmark), un nouveau benchmark vidéo qui met l'accent sur l'importance des horodatages pour l'évaluation des capacités avancées de compréhension vidéo en ligne. OVO-Bench évalue la capacité des LLM vidéo à raisonner et à répondre aux événements se produisant à des horodatages spécifiques dans trois scénarios distincts : (1) Traçage en arrière : remonter aux événements passés pour répondre à la question. (2) Compréhension en temps réel : comprendre et répondre aux événements au fur et à mesure qu'ils se déroulent à l'horodatage actuel. (3) Réponse active anticipée : retarder la réponse jusqu'à ce que des informations futures suffisantes soient disponibles pour répondre à la question de manière précise. OVO-Bench comprend 12 tâches, présentant 644 vidéos uniques et environ 2 800 méta-annotations fines, soigneusement sélectionnées par des humains, avec des horodatages précis. Nous combinons des pipelines de génération automatisée avec une curation humaine. Avec ces échantillons de haute qualité, nous avons développé un pipeline d'évaluation pour interroger systématiquement les LLM vidéo le long de la chronologie vidéo. Les évaluations de neuf LLM vidéo révèlent que, malgré les avancées sur les benchmarks traditionnels, les modèles actuels rencontrent des difficultés avec la compréhension vidéo en ligne, montrant un écart significatif par rapport aux agents humains. Nous espérons qu'OVO-Bench stimulera les progrès dans les LLM vidéo et inspirera de futures recherches sur le raisonnement vidéo en ligne. Notre benchmark et notre code sont accessibles sur https://github.com/JoeLeelyf/OVO-Bench.

Migician : Révéler la Magie de l'Ancrage Multi-Image Libre dans les Grands Modèles de Langage Multimodaux
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models

Jan 10

ByYou Li, Heyu Huang, Chi Chen, Kaiyu Huang, Chao Huang, Zonghao Guo, Zhiyuan Liu, Jinan Xu, Yuhua Li, Ruixuan Li, Maosong Sun

Les récents progrès des Modèles de Langage Multimodaux à Grande Échelle (MLLM) ont considérablement amélioré leur perception fine des images individuelles et leur compréhension générale à travers plusieurs images. Cependant, les MLLM existants rencontrent encore des défis pour parvenir à un ancrage précis dans des scénarios complexes impliquant plusieurs images. Pour remédier à cela, nous explorons d'abord un cadre de Chaîne de Pensée (CoT) qui intègre l'ancrage des images individuelles avec la compréhension des images multiples. Bien que partiellement efficace, il reste instable et peine à capturer des informations visuelles abstraites en raison de sa nature non bout-à-bout. Par conséquent, nous introduisons Migician, le premier modèle d'ancrage multi-images capable d'effectuer un ancrage libre et précis à travers plusieurs images. Pour soutenir cela, nous présentons l'ensemble de données MGrounding-630k, qui comprend des données pour plusieurs tâches d'ancrage multi-images dérivées d'ensembles de données existants, ainsi que des données d'instructions d'ancrage libre nouvellement générées. De plus, nous proposons MIG-Bench, une référence complète spécifiquement conçue pour évaluer les capacités d'ancrage multi-images. Les résultats expérimentaux montrent que notre modèle atteint des capacités d'ancrage multi-images nettement supérieures, surpassant les meilleurs MLLM existants de 21,61% et dépassant même des modèles beaucoup plus grands de 70B. Notre code, modèle, ensemble de données et référentiel sont entièrement open source.

Adaptation multi-agent : Amélioration personnelle avec des chaînes de raisonnement diverses
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

Jan 10

ByVighnesh Subramaniam, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Shuang Li, Igor Mordatch

Les grands modèles de langage (LLM) ont atteint des performances remarquables ces dernières années, mais sont fondamentalement limités par les données d'entraînement sous-jacentes. Pour améliorer les modèles au-delà des données d'entraînement, des travaux récents ont exploré comment les LLM peuvent être utilisés pour générer des données synthétiques en vue d'une amélioration autonome. Cependant, les étapes successives d'amélioration autonome peuvent atteindre un point de rendements décroissants. Dans ce travail, nous proposons une approche complémentaire vers l'amélioration autonome où le fine-tuning est appliqué à une société multi-agents de modèles de langage. Un groupe de modèles de langage, tous partant du même modèle de base, est spécialisé de manière indépendante en mettant à jour chacun d'eux à l'aide de données générées par des interactions multi-agents entre les modèles. En formant chaque modèle sur des ensembles de données indépendants, nous illustrons comment cette approche permet la spécialisation à travers les modèles et la diversification sur l'ensemble des modèles. En conséquence, notre système global est capable de préserver des chaînes de raisonnement diverses et de s'améliorer de manière autonome sur de nombreux cycles de fine-tuning de plus que les méthodes d'amélioration autonome à agent unique. Nous illustrons quantitativement l'efficacité de l'approche à travers une large gamme de tâches de raisonnement.

ConceptMaster : Personnalisation vidéo multi-concepts sur les modèles de transformateurs de diffusion sans ajustement à l'exécution
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning

Jan 8

ByYuzhou Huang, Ziyang Yuan, Quande Liu, Qiulin Wang, Xintao Wang, Ruimao Zhang, Pengfei Wan, Di Zhang, Kun Gai

La génération de vidéos à partir de texte a fait d'importants progrès grâce aux modèles de diffusion. Cependant, la Personnalisation Vidéo Multi-Concept (MCVC) reste un défi majeur. Nous identifions deux défis clés dans cette tâche : 1) le problème de découplage d'identité, où l'adoption directe des méthodes de personnalisation existantes mélange inévitablement les attributs lors du traitement de plusieurs concepts simultanément, et 2) la rareté des paires vidéo-entité de haute qualité, essentielle pour l'entraînement d'un tel modèle qui représente et découple efficacement divers concepts. Pour relever ces défis, nous introduisons ConceptMaster, un cadre innovant qui aborde efficacement les problèmes critiques de découplage d'identité tout en maintenant la fidélité conceptuelle dans les vidéos personnalisées. Plus précisément, nous introduisons une stratégie novatrice d'apprentissage d'incorporations multi-concepts découplées qui sont injectées dans les modèles de diffusion de manière autonome, garantissant ainsi efficacement la qualité des vidéos personnalisées avec de multiples identités, même pour des concepts visuels très similaires. Pour surmonter davantage la rareté des données MCVC de haute qualité, nous établissons soigneusement un pipeline de construction de données, permettant la collecte systématique de données vidéo-entité multi-concepts précises à travers divers concepts. Un benchmark complet est conçu pour valider l'efficacité de notre modèle selon trois dimensions critiques : la fidélité conceptuelle, la capacité de découplage d'identité et la qualité de génération vidéo à travers six scénarios de composition conceptuelle différents. Des expériences approfondies démontrent que notre ConceptMaster surpasse significativement les approches précédentes pour cette tâche, ouvrant la voie à la génération de vidéos personnalisées et sémantiquement précises à travers plusieurs concepts.

ReFocus : l'édition visuelle comme une chaîne de pensée pour la compréhension structurée des images
ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

Jan 9

ByXingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, Cha Zhang

La compréhension structurée des images, telle que l'interprétation des tableaux et des graphiques, nécessite de se recentrer stratégiquement sur diverses structures et textes au sein d'une image, formant une séquence de raisonnement pour parvenir à la réponse finale. Cependant, les modèles de langage multimodaux actuels (LLM) manquent de cette capacité d'attention sélective multi-sauts. Dans ce travail, nous introduisons ReFocus, un cadre simple mais efficace qui dote les LLM multimodaux de la capacité de générer des "pensées visuelles" en effectuant une édition visuelle sur l'image d'entrée via du code, déplaçant et affinant leurs centres d'intérêt visuels. Plus précisément, ReFocus permet aux LLM multimodaux de générer des codes Python pour appeler des outils et modifier l'image d'entrée, en dessinant séquentiellement des encadrés, en surlignant des sections et en masquant des zones, améliorant ainsi le processus de raisonnement visuel. Nous expérimentons sur une large gamme de tâches de compréhension d'images structurées impliquant des tableaux et des graphiques. ReFocus améliore largement les performances sur toutes les tâches par rapport à GPT-4o sans édition visuelle, offrant un gain moyen de 11,0% sur les tâches de tableau et de 6,8% sur les tâches de graphique. Nous présentons une analyse approfondie des effets des différentes éditions visuelles, et des raisons pour lesquelles ReFocus peut améliorer les performances sans introduire d'informations supplémentaires. De plus, nous collectons un ensemble d'entraînement de 14k en utilisant ReFocus, et prouvons qu'une telle chaîne de pensée visuelle avec des informations intermédiaires offre une meilleure supervision que les données VQA standard, atteignant un gain moyen de 8,0% par rapport au même modèle entraîné avec des paires de questions-réponses et de 2,6% par rapport à CoT.

Personnalisation multi-sujet en open-set dans la génération de vidéos
Multi-subject Open-set Personalization in Video Generation

Jan 10

ByTsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Yuwei Fang, Kwot Sin Lee, Ivan Skorokhodov, Kfir Aberman, Jun-Yan Zhu, Ming-Hsuan Yang, Sergey Tulyakov

Les méthodes de personnalisation vidéo nous permettent de synthétiser des vidéos avec des concepts spécifiques tels que des personnes, des animaux de compagnie et des lieux. Cependant, les méthodes existantes se concentrent souvent sur des domaines limités, nécessitent une optimisation fastidieuse par sujet, ou ne prennent en charge qu'un seul sujet. Nous présentons Video Alchemist - un modèle vidéo doté de capacités de personnalisation multi-sujets en open-set intégrées pour à la fois les objets en premier plan et l'arrière-plan, éliminant ainsi le besoin d'une optimisation fastidieuse au moment du test. Notre modèle repose sur un nouveau module de Transformer de Diffusion qui fusionne chaque image de référence conditionnelle et son prompt textuel de niveau sujet correspondant avec des couches d'attention croisée. Le développement d'un tel modèle de grande taille présente deux principaux défis : l'ensemble de données et l'évaluation. Tout d'abord, étant donné que les ensembles de données appariés d'images de référence et de vidéos sont extrêmement difficiles à collecter, nous échantillonnons des images vidéo sélectionnées en tant qu'images de référence et synthétisons un extrait de la vidéo cible. Cependant, bien que les modèles puissent facilement débruiter les vidéos d'entraînement à partir de trames de référence, ils échouent à généraliser à de nouveaux contextes. Pour atténuer ce problème, nous concevons un nouveau pipeline de construction de données automatique avec des augmentations d'image étendues. Deuxièmement, évaluer la personnalisation vidéo en open-set est un défi en soi. Pour y remédier, nous introduisons un banc d'essai de personnalisation qui se concentre sur la fidélité de sujet précise et prend en charge divers scénarios de personnalisation. Enfin, nos expériences approfondies montrent que notre méthode surpasse significativement les méthodes de personnalisation existantes tant en termes d'évaluations quantitatives que qualitatives.

Infecter l'IA générative avec des virus
Infecting Generative AI With Viruses

Jan 9

ByDavid Noever, Forrest McKee

Cette étude présente une approche novatrice pour tester les limites de sécurité des Modèles de Langage à Grande Échelle Vision (VLM/LLM) en utilisant le fichier de test EICAR intégré dans des images JPEG. Nous avons exécuté avec succès quatre protocoles distincts sur plusieurs plateformes LLM, notamment OpenAI GPT-4o, Microsoft Copilot, Google Gemini 1.5 Pro et Anthropic Claude 3.5 Sonnet. Les expériences ont validé qu'un JPEG modifié contenant la signature EICAR pouvait être téléchargé, manipulé et potentiellement exécuté dans les espaces de travail virtuels LLM. Les principales conclusions incluent : 1) la capacité constante de masquer la chaîne EICAR dans les métadonnées de l'image sans détection, 2) l'extraction réussie du fichier de test en utilisant une manipulation basée sur Python dans les environnements LLM, et 3) la démonstration de multiples techniques d'obfuscation incluant le codage en base64 et l'inversion de chaîne. Cette recherche étend le cadre "Règles d'Engagement des Tests de Pénétration" de Microsoft Research pour évaluer les limites de sécurité des IA génératives basées sur le cloud et des LLM, en se concentrant particulièrement sur la manipulation de fichiers et les capacités d'exécution dans des environnements conteneurisés.

Intelligence Artificielle Générative pour l'Animation Traditionnelle : Une Étude
Generative AI for Cel-Animation: A Survey

Jan 8

ByYunlong Tang, Junjia Guo, Pinxin Liu, Zhiyuan Wang, Hang Hua, Jia-Xing Zhong, Yunzhong Xiao, Chao Huang, Luchuan Song, Susan Liang, Yizhi Song, Liu He, Jing Bi, Mingqian Feng, Xinyang Li, Zeliang Zhang, Chenliang Xu

Le processus de production traditionnel de l'animation Celluloïd (Cel) comprend plusieurs étapes essentielles, telles que le storyboard, la conception de la mise en page, l'animation par images clés, l'interpolation et la colorisation, qui exigent un effort manuel substantiel, une expertise technique et un investissement en temps significatif. Ces défis ont historiquement entravé l'efficacité et la scalabilité de la production d'animations Cel. L'avènement de l'intelligence artificielle générative (GenAI), englobant de grands modèles de langage, des modèles multimodaux et des modèles de diffusion, offre des solutions innovantes en automatisant des tâches telles que la génération d'images intermédiaires, la colorisation et la création de storyboards. Cette étude explore comment l'intégration de la GenAI révolutionne les flux de travail traditionnels de l'animation en réduisant les barrières techniques, en élargissant l'accessibilité à un plus large éventail de créateurs à travers des outils tels que AniDoc, ToonCrafter et AniSora, et en permettant aux artistes de se concentrer davantage sur l'expression créative et l'innovation artistique. Malgré son potentiel, des problèmes tels que le maintien de la cohérence visuelle, la garantie de la cohérence stylistique et la prise en compte des considérations éthiques continuent de poser des défis. De plus, cet article aborde les orientations futures et explore les avancées potentielles dans l'animation assistée par l'IA. Pour une exploration plus approfondie et des ressources, veuillez visiter notre dépôt GitHub : https://github.com/yunlong10/Awesome-AI4Animation

Démystification de l'adaptation de domaine post-entraînement pour les LLM financiers
Demystifying Domain-adaptive Post-training for Financial LLMs

Jan 9

ByZixuan Ke, Yifei Ming, Xuan-Phi Nguyen, Caiming Xiong, Shafiq Joty

L'adaptation de domaine post-entraînement des grands modèles de langage (LLM) est apparue comme une approche prometteuse pour des domaines spécialisés tels que la médecine et la finance. Cependant, des défis importants persistent dans l'identification des critères d'adaptation optimaux et des stratégies d'entraînement adaptées à différentes configurations de données et de modèles. Pour relever ces défis, nous introduisons FINDAP, une investigation systématique et détaillée de l'adaptation de domaine post-entraînement des LLM pour le domaine financier. Notre approche commence par identifier les capacités essentielles requises pour le domaine cible et concevoir une suite d'évaluation complète alignée sur ces besoins. Nous analysons ensuite l'efficacité des étapes clés du post-entraînement, y compris le pré-entraînement continu, l'ajustement des instructions et l'alignement des préférences. En nous appuyant sur ces connaissances, nous proposons une recette d'entraînement efficace centrée sur une nouvelle méthode de distillation des données de préférence, qui exploite les signaux de processus d'un modèle de récompense génératif. Le modèle résultant, Llama-Fin, atteint des performances de pointe sur une large gamme de tâches financières. Notre analyse met également en lumière comment chaque étape de post-entraînement contribue à des capacités distinctes, révélant des défis spécifiques et des solutions efficaces, offrant des perspectives précieuses pour l'adaptation de domaine des LLM. Page du projet : https://github.com/SalesforceAIResearch/FinDap

papers.title

papers.description

VideoRAG : Génération augmentée par récupération sur corpus vidéo
VideoRAG: Retrieval-Augmented Generation over Video Corpus

Jan 10

BySoyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang

Permettre une surveillance évolutive évolutive grâce à un critique auto-évolutif.
Enabling Scalable Oversight via Self-Evolving Critic

Jan 10

ByZhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin

LlamaV-o1 : Repenser le raisonnement visuel étape par étape dans les LLM
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

Jan 10

OmniManip : Vers une manipulation robotique générale via des primitives d'interaction centrées sur les objets en tant que contraintes spatiales
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

Jan 7

ByMingjie Pan, Jiyao Zhang, Tianshu Wu, Yinghao Zhao, Wenlong Gao, Hao Dong

OVO-Bench : À quelle distance se trouvent vos LLM vidéo de la compréhension des vidéos en ligne du monde réel ?
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Jan 9

ByYifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang

Migician : Révéler la Magie de l'Ancrage Multi-Image Libre dans les Grands Modèles de Langage Multimodaux
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models

Jan 10

ByYou Li, Heyu Huang, Chi Chen, Kaiyu Huang, Chao Huang, Zonghao Guo, Zhiyuan Liu, Jinan Xu, Yuhua Li, Ruixuan Li, Maosong Sun

Adaptation multi-agent : Amélioration personnelle avec des chaînes de raisonnement diverses
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

Jan 10

ByVighnesh Subramaniam, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Shuang Li, Igor Mordatch

ConceptMaster : Personnalisation vidéo multi-concepts sur les modèles de transformateurs de diffusion sans ajustement à l'exécution
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning

Jan 8

ByYuzhou Huang, Ziyang Yuan, Quande Liu, Qiulin Wang, Xintao Wang, Ruimao Zhang, Pengfei Wan, Di Zhang, Kun Gai

ReFocus : l'édition visuelle comme une chaîne de pensée pour la compréhension structurée des images
ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

Jan 9

ByXingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, Cha Zhang

Personnalisation multi-sujet en open-set dans la génération de vidéos
Multi-subject Open-set Personalization in Video Generation

Jan 10

ByTsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Yuwei Fang, Kwot Sin Lee, Ivan Skorokhodov, Kfir Aberman, Jun-Yan Zhu, Ming-Hsuan Yang, Sergey Tulyakov

Infecter l'IA générative avec des virus
Infecting Generative AI With Viruses

Jan 9

ByDavid Noever, Forrest McKee

Intelligence Artificielle Générative pour l'Animation Traditionnelle : Une Étude
Generative AI for Cel-Animation: A Survey

Jan 8

Démystification de l'adaptation de domaine post-entraînement pour les LLM financiers
Demystifying Domain-adaptive Post-training for Financial LLMs

Jan 9

ByZixuan Ke, Yifei Ming, Xuan-Phi Nguyen, Caiming Xiong, Shafiq Joty