HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

15 papers found

Petit Modèle, Grande Logique : L'Optimisation par Diversité Suscite les Capacités de Raisonnement des Grands Modèles chez VibeThinker-1.5B
Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

Nov 9

BySen Xu, Yi Zhou, Wei Wang, Jixin Min, Zhibin Yin, Yingwei Dai, Shixi Liu, Lianyu Pang, Yirong Chen, Junlin Zhang

125

Remettant en question le consensus dominant selon lequel les petits modèles manquent intrinsèquement de capacités de raisonnement robustes, ce rapport présente VibeThinker-1.5B, un modèle dense de 1,5 milliard de paramètres développé via notre Principe Spectrum-to-Signal (SSP). Cette approche conteste la méthode prédominante qui consiste à augmenter l'échelle des paramètres pour améliorer les capacités, comme observé dans des modèles tels que DeepSeek R1 (671B) et Kimi k2 (>1T). Le cadre SSP utilise d'abord un Distillateur à Exploration de Diversité en Deux Étapes (SFT) pour générer un large spectre de solutions, suivi d'une Optimisation de Politique Guidée par l'Entropie Maximale (RL) pour amplifier le signal correct. Avec un coût total d'entraînement de seulement 7 800 $, VibeThinker-1.5B démontre des capacités de raisonnement supérieures à celles de modèles propriétaires comme Magistral Medium et Claude Opus 4, et performe au même niveau que des modèles open source comme GPT OSS-20B Medium. Fait remarquable, il surpasse le modèle DeepSeek R1, pourtant 400 fois plus grand, sur trois benchmarks mathématiques : AIME24 (80,3 contre 79,8), AIME25 (74,4 contre 70,0) et HMMT25 (50,4 contre 41,7). Cela représente une amélioration substantielle par rapport à son modèle de base (respectivement 6,7, 4,3 et 0,6). Sur LiveCodeBench V6, il obtient un score de 51,1, surpassant les 50,3 de Magistral Medium et les 0,0 de son modèle de base. Ces résultats démontrent que les petits modèles peuvent atteindre des capacités de raisonnement comparables à celles des grands modèles, réduisant ainsi drastiquement les coûts d'entraînement et d'inférence et démocratisant ainsi la recherche avancée en IA.

Ancrage des agents informatiques sur les démonstrations humaines
Grounding Computer Use Agents on Human Demonstrations

Nov 10

ByAarash Feizi, Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Kaixin Li, Rabiul Awal, Xing Han Lù, Johan Obando-Ceron, Juan A. Rodriguez, Nicolas Chapados, David Vazquez, Adriana Romero-Soriano, Reihaneh Rabbany, Perouz Taslakian, Christopher Pal, Spandana Gella, Sai Rajeswar

103

La construction d'agents informatiques fiables nécessite un ancrage précis : la capacité à relier exactement les instructions en langage naturel aux éléments d'interface correspondants. Si d'importantes bases de données existent pour les interactions web et mobiles, les ressources de qualité pour les environnements de bureau restent limitées. Pour combler cette lacune, nous présentons GroundCUA, un jeu de données d'ancrage à grande échelle constitué à partir de démonstrations humaines expertes. Il couvre 87 applications réparties dans 12 catégories et inclut 56 000 captures d'écran, où chaque élément visuel est soigneusement annoté pour un total de plus de 3,56 millions d'annotations vérifiées manuellement. À partir de ces démonstrations, nous générons des instructions variées reflétant un large éventail de tâches réelles, fournissant ainsi des données de haute qualité pour l'entraînement des modèles. En utilisant GroundCUA, nous développons la famille de modèles GroundNext qui associe les instructions à leurs éléments d'interface cibles. Aux échelles 3B et 7B, GroundNext obtient des résultats state-of-the-art sur cinq benchmarks grâce à un fine-tuning supervisé, tout en nécessitant moins d'un dixième des données d'entraînement des travaux antérieurs. Un post-entraînement par apprentissage par renforcement améliore encore les performances, et lorsqu'il est évalué dans un cadre agentique sur le benchmark OSWorld avec o3 comme planificateur, GroundNext atteint des résultats comparables ou supérieurs à ceux des modèles entraînés avec nettement plus de données. Ces résultats démontrent le rôle crucial des jeux de données experts de haute qualité pour faire progresser les agents informatiques généralistes.

Raffinement Adaptatif des Réponses par Agents Multiples dans les Systèmes Conversationnels
Adaptive Multi-Agent Response Refinement in Conversational Systems

Nov 11

BySoyeong Jeong, Aparna Elangovan, Emine Yilmaz, Oleg Rokhlenko

Les grands modèles de langage (LLM) ont démontré un succès remarquable dans les systèmes conversationnels en générant des réponses semblables à celles d'un humain. Cependant, ils peuvent présenter des limites, notamment lorsqu'il s'agit de prendre en compte la personnalisation ou des connaissances spécifiques. Dans des contextes réels, il est peu pratique de compter sur les utilisateurs pour détecter ces erreurs et demander une nouvelle réponse. Une façon de résoudre ce problème est d'affiner la réponse avant de la renvoyer à l'utilisateur. Bien que les approches existantes se concentrent sur l'affinement des réponses au sein d'un seul LLM, cette méthode peine à prendre en compte les divers aspects nécessaires à des conversations efficaces. Dans ce travail, nous proposons d'affiner les réponses par le biais d'un cadre multi-agents, où chaque agent se voit attribuer un rôle spécifique pour chaque aspect. Nous nous concentrons sur trois aspects clés cruciaux pour la qualité conversationnelle : la factualité, la personnalisation et la cohérence. Chaque agent est responsable de revoir et d'affiner l'un de ces aspects, et leurs retours sont ensuite fusionnés pour améliorer la réponse globale. Pour renforcer la collaboration entre eux, nous introduisons une stratégie de communication dynamique. Au lieu de suivre une séquence fixe d'agents, notre approche sélectionne et coordonne de manière adaptative les agents les plus pertinents en fonction des exigences spécifiques de chaque requête. Nous validons notre cadre sur des ensembles de données conversationnelles complexes, démontrant que notre méthode surpasse significativement les lignes de base pertinentes, en particulier dans les tâches impliquant des connaissances, le profil de l'utilisateur, ou les deux.

KLASS : Inférence Rapide Guidée par KL dans les Modèles de Diffusion à Masques
KLASS: KL-Guided Fast Inference in Masked Diffusion Models

Nov 7

BySeo Hyun Kim, Sunwoo Hong, Hojung Jung, Youngrok Park, Se-Young Yun

Les modèles de diffusion masquée ont démontré des résultats compétitifs sur diverses tâches, y compris la génération de langage. Cependant, en raison de leur processus de raffinement itératif, l'inférence est souvent limitée par une vitesse d'échantillonnage lente et statique. Pour résoudre ce problème, nous présentons `KL-Adaptive Stability Sampling` (KLASS), une méthode d'échantillonnage rapide et efficace qui exploite la divergence KL au niveau des tokens pour identifier les prédictions stables et de haute confiance. En démasquant plusieurs tokens à chaque itération sans entraînement supplémentaire du modèle, notre approche accélère significativement la génération tout en préservant la qualité des échantillons. Sur des benchmarks de raisonnement, KLASS atteint des accélérations en temps réel allant jusqu'à 2,78 fois tout en améliorant les performances par rapport au décodage glouton standard, obtenant des résultats state-of-the-art parmi les échantillonneurs basés sur la diffusion. Nous validons en outre KLASS dans divers domaines, incluant la génération de texte, d'images et de molécules, démontrant son efficacité en tant qu'échantillonneur largement applicable à travers différents modèles.

Au-delà de l'anglais : Vers une traduction automatique multilingue inclusive et évolutive avec les LLM
Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs

Nov 10

ByYingfeng Luo, Ziqiang Xu, Yuxuan Ouyang, Murun Yang, Dingyang Lin, Kaiyan Chang, Tong Zheng, Bei Li, Peinan Feng, Quan Du, Tong Xiao, Jingbo Zhu

Les grands modèles de langage ont considérablement fait progresser la traduction automatique multilingue (MMT), mais la couverture linguistique étendue, la qualité de traduction cohérente et le biais centré sur l'anglais restent des défis ouverts. Pour relever ces défis, nous présentons LMT, une suite de modèles de traduction multilingue à grande échelle centrés à la fois sur le chinois et l'anglais, couvrant 60 langues et 234 directions de traduction. Lors du développement, nous avons identifié un phénomène précédemment négligé de dégénérescence directionnelle, où les données d'affinage multidirectionnelles symétriques surestiment les directions inverses (X vers En/Zh), conduisant à un excès de mappages plusieurs-à-un et à une dégradation de la qualité de traduction. Nous proposons l'échantillonnage stratégique descendant, une méthode simple mais efficace pour atténuer cette dégénérescence. De plus, nous concevons l'incitation multilingue parallèle (PMP), qui exploite des langues auxiliaires typologiquement apparentées pour améliorer le transfert translinguistique. Grâce à une curation rigoureuse des données et à des stratégies d'adaptation raffinées, LMT atteint des performances de pointe parmi les modèles de couverture linguistique comparable, notre modèle de 4B (LMT-60-4B) surpassant largement les modèles beaucoup plus grands Aya-101-13B et NLLB-54B. Nous publions LMT en quatre tailles (0,6B/1,7B/4B/8B) pour catalyser les recherches futures et fournir des références solides pour une MMT inclusive, évolutive et de haute qualité \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.

Le chemin non emprunté : RLVR apprend de manière prouvée en dehors des principes
The Path Not Taken: RLVR Provably Learns Off the Principals

Nov 11

ByHanqing Zhu, Zhenyu Zhang, Hanxian Huang, DiJia Su, Zechun Liu, Jiawei Zhao, Igor Fedorov, Hamed Pirsiavash, Zhizhou Sha, Jinwon Lee, David Z. Pan, Zhangyang Wang, Yuandong Tian, Kai Sheng Tai

Le Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) améliore de manière fiable les performances de raisonnement des grands modèles de langage, tout en ne semblant modifier qu'une petite fraction des paramètres. Nous revisitons ce paradoxe et montrons que la parcimonie est un artefact superficiel d'un biais d'optimisation conditionné par le modèle : pour un modèle pré-entraîné fixe, les mises à jour se localisent systématiquement dans des régions de paramètres privilégiées, très cohérentes d'une exécution à l'autre et largement invariantes aux jeux de données et aux méthodes de RL. Nous expliquons mécaniquement ces dynamiques par une Théorie des Trois Portes : la Porte I (Ancrage de KL) impose une mise à jour contrainte par la divergence KL ; la Porte II (Géométrie du Modèle) oriente l'étape hors des directions principales vers des sous-espaces à faible courbure qui préservent le spectre ; et la Porte III (Précision) masque les micro-mises à jour dans les régions non privilégiées, faisant apparaître le biais hors des directions principales comme de la parcimonie. Nous validons ensuite cette théorie et fournissons, pour la première fois, une caractérisation au niveau des paramètres de la dynamique d'apprentissage du RLVR : le RLVR apprend en dehors des directions principales dans l'espace des poids, obtenant des gains via une dérive spectrale minimale, une rotation réduite du sous-espace principal et un alignement des mises à jour hors de ce sous-espace. En revanche, le Fine-Tuning Supervisé (SFT) cible les poids principaux, déforme le spectre et est même moins performant que le RLVR. Ensemble, ces résultats fournissent la première explication dans l'espace des paramètres de la dynamique d'entraînement du RLVR, révélant des régularités claires dans l'évolution des paramètres. Surtout, nous montrons que la RL opère dans un régime d'optimisation distinct du SFT, ce qui rend l'adaptation directe des méthodes de Fine-Tuning Efficient en Paramètres (PEFT) de l'ère du SFT potentiellement erronée, comme en témoignent nos études de cas sur des variantes avancées de fine-tuning parcimonieux et de LoRA. Nous espérons que ces travaux tracent une voie vers une compréhension en boîte blanche du RLVR et vers la conception d'algorithmes d'apprentissage natifs pour le RLVR, conscients de la géométrie, plutôt que de recycler des heuristiques de l'ère du SFT.

Wasm : Un pipeline pour la construction de corpus multimodaux arabes structurés à données entrelacées
Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora

Nov 10

ByKhalil Hennara, Ahmad Bastati, Muhammad Hreden, Mohamed Motasim Hamed, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan

Les performances des grands modèles de langage (LLM) et des grands modèles multimodaux (LMM) dépendent fortement de la qualité et de l'échelle de leurs jeux de données de pré-entraînement. Des recherches récentes montrent que les grands modèles multimodaux entraînés sur des documents naturels où les images et le texte sont entrelacés surpassent ceux entraînés uniquement sur des paires image-texte sur un large éventail de benchmarks, en tirant parti de modèles pré-entraînés avancés pour renforcer l'alignement sémantique, la cohérence image-séquence et la cohérence textuelle. Pour l'arabe, cependant, l'absence de jeux de données multimodaux de haute qualité préservant la structure des documents a limité les progrès. Dans cet article, nous présentons notre pipeline Wasm pour traiter le jeu de données Common Crawl afin de créer un nouveau jeu de données multimodal arabe qui fournit de manière unique une sortie au format markdown. Contrairement aux corpus arabes existants qui se concentrent uniquement sur l'extraction de texte, notre approche préserve l'intégrité structurelle du contenu web tout en maintenant une flexibilité pour les scénarios de pré-entraînement unimodal (texte seul) et multimodal. Nous fournissons une analyse comparative complète de notre pipeline de traitement des données par rapport à ceux utilisés pour les principaux jeux de données existants, en mettant en évidence les convergences dans les stratégies de filtrage et en justifiant nos choix de conception spécifiques. Pour soutenir les recherches futures, nous publions un échantillon représentatif du jeu de données ainsi que le pipeline de traitement multimodal pour l'arabe.

VideoSSR : Apprentissage par Renforcement Auto-Supervisé pour la Vidéo
VideoSSR: Video Self-Supervised Reinforcement Learning

Nov 9

ByZefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng

Le Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) a considérablement fait progresser les capacités de compréhension vidéo des Modèles de Langage Multimodaux à Grande Échelle (MLLM). Cependant, la progression rapide des MLLM dépasse la complexité des ensembles de données vidéo existants, tandis que l'annotation manuelle de nouvelles données de haute qualité reste prohibitivement coûteuse. Ce travail explore une question centrale : Les informations intrinsèques et riches des vidéos peuvent-elles être exploitées pour auto-générer des données d'entraînement de haute qualité et vérifiables ? Pour investiguer cela, nous introduisons trois tâches prétextes auto-supervisées : l'Ancrage d'Anomalies, le Comptage d'Objets et le Puzzle Temporel. Nous construisons le Benchmark de Compréhension Intrinsèque des Vidéos (VIUBench) pour valider leur difficulté, révélant que les MLLM de pointe actuels éprouvent des difficultés significatives sur ces tâches. En nous appuyant sur ces tâches prétextes, nous développons l'ensemble de données VideoSSR-30K et proposons VideoSSR, un nouveau cadre d'apprentissage par renforcement auto-supervisé pour la vidéo destiné au RLVR. Des expériences approfondies sur 17 benchmarks, couvrant quatre domaines vidéo majeurs (QA Vidéo Générale, QA Vidéo Longue, Ancrage Temporel et Raisonnement Complexe), démontrent que VideoSSR améliore constamment les performances des modèles, produisant une amélioration moyenne de plus de 5 %. Ces résultats établissent VideoSSR comme un cadre fondamental puissant pour développer une compréhension vidéo plus avancée dans les MLLM. Le code est disponible à l'adresse https://github.com/lcqysl/VideoSSR.

Au-delà de la récupération de faits : mémoire épisodique pour les systèmes RAG avec espaces sémantiques génératifs
Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces

Nov 10

ByShreyas Rajesh, Pavan Holur, Chenda Duan, David Chong, Vwani Roychowdhury

Les modèles de langage de grande taille (LLM) rencontrent des défis fondamentaux dans le raisonnement à long contexte : de nombreux documents dépassent leurs fenêtres de contexte finies, tandis que les performances sur les textes qui y entrent se dégradent avec la longueur des séquences, nécessitant leur augmentation par des frameworks de mémoire externe. Les solutions actuelles, qui ont évolué du retrieval utilisant des embeddings sémantiques vers des représentations plus sophistiquées par graphes de connaissances structurés pour une meilleure construction de sens et d'associativité, sont conçues pour la récupération factuelle et échouent à construire les représentations narratives ancrées dans l'espace-temps requises pour suivre les entités à travers des événements épisodiques. Pour combler cette lacune, nous proposons l'Espace Sémantique Génératif (GSW), un framework de mémoire générative neuro-inspiré qui construit des représentations structurées et interprétables de situations évolutives, permettant aux LLM de raisonner sur des rôles, actions et contextes spatiotemporels dynamiques. Notre framework comprend un Opérateur, qui cartographie les observations entrantes vers des structures sémantiques intermédiaires, et un Réconciliateur, qui les intègre dans un espace de travail persistant garantissant la cohérence temporelle, spatiale et logique. Sur le benchmark de mémoire épisodique (EpBench) huet_episodique_2025 comprenant des corpus de 100k à 1M de tokens, GSW surpasse les bases de référence basées sur RAG jusqu'à 20%. De plus, GSW est hautement efficace, réduisant les tokens de contexte au moment des requêtes de 51% par rapport à la base de référence la plus économe en tokens, diminuant considérablement les coûts en temps d'inférence. Plus largement, GSW offre un plan concret pour doter les LLM d'une mémoire épisodique semblable à celle des humains, ouvrant la voie à des agents plus capables de raisonner sur de long horizons.

Intelligence par Watt : Mesurer l'efficacité énergétique de l'intelligence artificielle locale
Intelligence per Watt: Measuring Intelligence Efficiency of Local AI

Nov 11

ByJon Saad-Falcon, Avanika Narayan, Hakki Orhun Akengin, J. Wes Griffin, Herumb Shandilya, Adrian Gamarra Lafuente, Medhya Goel, Rebecca Joseph, Shlok Natarajan, Etash Kumar Guha, Shang Zhu, Ben Athiwaratkun, John Hennessy, Azalia Mirhoseini, Christopher Ré

Les requêtes des grands modèles de langage (LLM) sont principalement traitées par des modèles de pointe dans des infrastructures cloud centralisées. La demande croissante met à rude épreuve ce paradigme, et les fournisseurs de cloud peinent à dimensionner leur infrastructure au rythme requis. Deux avancées permettent de repenser ce paradigme : les petits modèles de langage (≤20 milliards de paramètres actifs) atteignent désormais des performances comparables aux modèles de pointe sur de nombreuses tâches, et les accélérateurs locaux (ex: Apple M4 Max) exécutent ces modèles avec des latences interactives. Cela soulève la question : l'inférence locale peut-elle redistribuer viablement la demande depuis l'infrastructure centralisée ? Pour y répondre, il faut évaluer si les modèles locaux peuvent répondre avec précision à des requêtes du monde réel et le faire assez efficacement pour être pratiques sur des appareils à puissance limitée (ex: ordinateurs portables). Nous proposons l'intelligence par watt (IPW), soit la précision sur une tâche divisée par une unité de puissance, comme métrique pour évaluer les capacités et l'efficacité de l'inférence locale pour différentes paires modèle-accélérateur. Nous menons une étude empirique à grande échelle sur plus de 20 modèles locaux de pointe, 8 accélérateurs et un sous-ensemble représentatif du trafic LLM : 1 million de requêtes réelles de chat en un tour et de raisonnement. Pour chaque requête, nous mesurons la précision, l'énergie, la latence et la puissance. Notre analyse révèle trois résultats. Premièrement, les modèles locaux peuvent répondre avec précision à 88,7 % des requêtes de chat et de raisonnement en un tour, la précision variant selon le domaine. Deuxièmement, entre 2023 et 2025, l'IPW s'est amélioré d'un facteur 5,3 et la couverture des requêtes locales est passée de 23,2 % à 71,3 %. Troisièmement, les accélérateurs locaux atteignent au moins 1,4 fois moins d'IPW que les accélérateurs cloud exécutant des modèles identiques, révélant une marge d'optimisation significative. Ces résultats démontrent que l'inférence locale peut redistribuer substantiellement la demande depuis l'infrastructure centralisée, l'IPW servant de métrique cruciale pour suivre cette transition. Nous publions notre outil de profilage IPW pour un benchmarking systématique de l'intelligence par watt.

DynaAct : Raisonnement des grands modèles de langage avec des espaces d'action dynamiques
DynaAct: Large Language Model Reasoning with Dynamic Action Spaces

Nov 11

ByXueliang Zhao, Wei Wu, Jian Guan, Qintong Li, Lingpeng Kong

Dans les systèmes modernes de prise de décision séquentielle, la construction d'un espace d'actions candidates optimal est cruciale pour une inférence efficace. Cependant, les approches existantes reposent soit sur des espaces d'actions définis manuellement qui manquent d'évolutivité, soit sur des espaces non structurés qui rendent la recherche exhaustive prohibitrice en calcul. Dans cet article, nous proposons un nouveau cadre nommé DynaAct pour construire automatiquement un espace d'actions compact afin d'améliorer le raisonnement séquentiel dans des scénarios complexes de résolution de problèmes. Notre méthode estime d'abord un proxy de l'espace d'actions complet en extrayant des esquisses générales observées dans un corpus couvrant divers problèmes de raisonnement complexe à l'aide de grands modèles de langage. Nous formulons ensuite une fonction sous-modulaire qui évalue conjointement les actions candidates sur la base de leur utilité pour l'état actuel et de leur diversité, et employons un algorithme glouton pour sélectionner un ensemble candidat optimal. Des expériences approfondies sur six benchmarks standards variés démontrent que notre approche améliore significativement les performances globales, tout en maintenant une inférence efficace sans introduire de latence substantielle. L'implémentation est disponible à l'adresse https://github.com/zhaoxlpku/DynaAct.

Marcher sur le fil des LLM pour le développement logiciel : perspective des praticiens
Walking the Tightrope of LLMs for Software Development: A Practitioners' Perspective

Nov 9

BySamuel Ferino, Rashina Hoda, John Grundy, Christoph Treude

Contexte : Les grands modèles de langage (LLM) ont émergé avec le potentiel de provoquer une révolution dans le développement logiciel (par exemple, l'automatisation des processus, la transformation de la main-d'œuvre). Bien que des études aient commencé à examiner l'impact perçu des LLM pour le développement logiciel, il est nécessaire de mener des études empiriques pour comprendre comment équilibrer les effets positifs et négatifs de leur utilisation. Objectif : Nous avons étudié comment les LLM impactent le développement logiciel et comment gérer cet impact du point de vue d'un développeur de logiciels. Méthode : Nous avons mené 22 entretiens avec des professionnels du logiciel sur trois rounds de collecte et d'analyse de données, entre octobre (2024) et septembre (2025). Nous avons utilisé la théorie ancrée socio-technique (STGT) pour l'analyse des données afin d'analyser rigoureusement les réponses des participants aux entretiens. Résultats : Nous avons identifié les avantages (par exemple, maintenir le flux de développement logiciel, améliorer le modèle mental des développeurs et favoriser l'esprit d'entreprise) et les inconvénients (par exemple, l'impact négatif sur la personnalité des développeurs et l'atteinte à leur réputation) de l'utilisation des LLM aux niveaux individuel, de l'équipe, de l'organisation et de la société ; ainsi que les meilleures pratiques pour leur adoption. Conclusion : De manière cruciale, nous présentons les compromis auxquels sont confrontés les praticiens, les équipes et les organisations du logiciel lorsqu'ils travaillent avec des LLM. Nos résultats sont particulièrement utiles aux chefs d'équipe logicielle et aux responsables informatiques pour évaluer la viabilité des LLM dans leur contexte spécifique.

Optimisation de la diversité et de la qualité par la collaboration de modèles alignés sur une base
Optimizing Diversity and Quality through Base-Aligned Model Collaboration

Nov 7

ByYichen Wang, Chenghao Yang, Tenghao Huang, Muhao Chen, Jonathan May, Mina Lee

L'alignement a grandement amélioré la qualité des sorties des grands modèles de langage (LLM) au détriment de la diversité, produisant des générations très similaires. Nous proposons Base-Aligned Model Collaboration (BACo), un cadre de collaboration entre modèles au niveau du token lors de l'inférence, qui combine dynamiquement un LLM de base avec sa version alignée pour optimiser diversité et qualité. S'inspirant de travaux antérieurs (Fei et al., 2025), BACo utilise des stratégies de routage qui déterminent, à chaque token, à partir de quel modèle décoder, en se basant sur l'incertitude de prédiction du token suivant et le rôle sémantique du contenu prédit. Les méthodes antérieures favorisant la diversité, comme le réentraînement, l'ingénierie de prompt et les méthodes d'échantillonnage multiple, améliorent la diversité mais dégradent souvent la qualité ou nécessitent un décodage ou un post-entraînement coûteux. En revanche, BACo atteint simultanément une haute diversité et une haute qualité a posteriori en une seule passe, tout en offrant une forte contrôlabilité. Nous explorons une famille de stratégies de routage. Sur trois tâches de génération ouverte et 13 métriques couvrant diversité et qualité, BACo surpasse constamment les meilleures méthodes de référence à l'inférence. Avec notre meilleur routeur, BACo réalise une amélioration conjointe de 21,3 % de la diversité et de la qualité. Les évaluations humaines reflètent également ces améliorations. Les résultats suggèrent que la collaboration entre modèles de base et alignés permet d'optimiser et de contrôler diversité et qualité.

TimeSearch-R : Recherche Temporelle Adaptative pour la Compréhension de Vidéos Longues via un Apprentissage par Renforcement par Auto-vérification
TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

Nov 7

ByJunwen Pan, Qizhe Zhang, Rui Zhang, Ming Lu, Xin Wan, Yuan Zhang, Chang Liu, Qi She

La recherche temporelle vise à identifier un ensemble minimal de trames pertinentes parmi des dizaines de milliers sur la base d'une requête donnée, servant de fondement à une compréhension précise des vidéos longues. Les travaux existants tentent de réduire progressivement l'espace de recherche. Cependant, ces approches reposent généralement sur un processus de recherche artisanal, manquant d'une optimisation de bout en bout pour apprendre des stratégies de recherche optimales. Dans cet article, nous proposons TimeSearch-R, qui reformule la recherche temporelle comme une pensée entrelacée texte-vidéo, intégrant de manière transparente la recherche de clips vidéo dans le processus de raisonnement par apprentissage par renforcement (RL). Cependant, l'application de méthodes d'entraînement par RL, telles que l'Optimisation Relative de Politique de Groupe (GRPO), au raisonnement vidéo peut entraîner des décisions de recherche intermédiaires non supervisées. Cela conduit à une exploration insuffisante du contenu vidéo et à un raisonnement logique incohérent. Pour résoudre ces problèmes, nous introduisons GRPO avec Auto-Vérification de l'Exhaustivité (GRPO-CSV), qui collecte les trames vidéo recherchées durant le processus de raisonnement entrelacé et utilise le même modèle de politique pour vérifier l'adéquation des trames recherchées, améliorant ainsi l'exhaustivité du raisonnement vidéo. De plus, nous construisons des ensembles de données spécifiquement conçus pour le démarrage à froid par SFT et l'entraînement par RL de GRPO-CSV, en filtrant les échantillons présentant de faibles dépendances temporelles pour augmenter la difficulté de la tâche et améliorer les capacités de recherche temporelle. Des expériences approfondies démontrent que TimeSearch-R obtient des améliorations significatives sur des benchmarks de recherche temporelle tels que Haystack-LVBench et Haystack-Ego4D, ainsi que sur des benchmarks de compréhension de vidéos longues comme VideoMME et MLVU. Notamment, TimeSearch-R établit un nouvel état de l'art sur LongVideoBench avec une amélioration de 4,1 % par rapport au modèle de base Qwen2.5-VL et de 2,0 % par rapport au modèle de raisonnement vidéo avancé Video-R1. Notre code est disponible à l'adresse https://github.com/Time-Search/TimeSearch-R.

BiCA : Récupération dense biomédicale efficace avec des négatifs durs prenant en compte les citations
BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives

Nov 11

ByAarush Sinha, Pavan Kumar S, Roshan Balaji, Nirav Pravinbhai Bhatt

Les négatifs difficiles sont essentiels pour l'entraînement de modèles de recherche efficaces. L'extraction de négatifs difficiles repose généralement sur le classement de documents à l'aide de cross-encoders ou de modèles d'embedding statiques basés sur des métriques de similarité telles que la distance cosinus. L'extraction de négatifs difficiles devient problématique dans les domaines biomédicaux et scientifiques en raison de la difficulté à distinguer les documents sources des négatifs difficiles. Cependant, les documents cités partagent naturellement une pertinence contextuelle avec le document source sans en être des doublons, ce qui les rend bien adaptés comme négatifs difficiles. Dans ce travail, nous proposons BiCA : Recherche Dense Biomédicale avec Négatifs Difficiles Sensibles aux Citations, une approche d'extraction de négatifs difficiles utilisant les liens de citation dans 20 000 articles PubMed pour améliorer un petit retrieveur dense spécifique au domaine. Nous affinons les modèles GTE_small et GTE_Base en utilisant ces négatifs éclairés par les citations et observons des améliorations constantes en recherche dense zero-shot utilisant nDCG@10 pour des tâches intra-domaine et extra-domaine sur BEIR, surpassant les lignes de base sur les sujets à queue longue dans LoTTE en utilisant Success@5. Nos résultats soulignent le potentiel de l'exploitation de la structure des liens documentaires pour générer des négatifs hautement informatifs, permettant des performances de pointe avec un affinage minimal et démontrant une voie vers une adaptation de domaine très économe en données.

Intelligence par Watt : Mesurer l'efficacité énergétique de l'intelligence artificielle locale
Intelligence per Watt: Measuring Intelligence Efficiency of Local AI

Nov 11