ByLong Phan, Alice Gatti, Ziwen Han, Nathaniel Li, Josephina Hu, Hugh Zhang, Sean Shi, Michael Choi, Anish Agrawal, Arnav Chopra, Adam Khoja, Ryan Kim, Jason Hausenloy, Oliver Zhang, Mantas Mazeika, Daron Anderson, Tung Nguyen, Mobeen Mahmood, Fiona Feng, Steven Y. Feng, Haoran Zhao, Michael Yu, Varun Gangal, Chelsea Zou, Zihan Wang, Jessica P. Wang, Pawan Kumar, Oleksandr Pokutnyi, Robert Gerbicz, Serguei Popov, John-Clark Levin, Mstyslav Kazakov, Johannes Schmitt, Geoff Galgon, Alvaro Sanchez, Yongki Lee, Will Yeadon, Scott Sauers, Marc Roth, Chidozie Agu, Søren Riis, Fabian Giska, Saiteja Utpala, Zachary Giboney, Gashaw M. Goshu, Joan of Arc Xavier, Sarah-Jane Crowson, Mohinder Maheshbhai Naiya, Noah Burns, Lennart Finke, Zerui Cheng, Hyunwoo Park, Francesco Fournier-Facio, John Wydallis, Mark Nandor, Ankit Singh, Tim Gehrunger, Jiaqi Cai, Ben McCarty, Darling Duclosel, Jungbae Nam, Jennifer Zampese, Ryan G. Hoerr, Aras Bacho, Gautier Abou Loume, Abdallah Galal, Hangrui Cao, Alexis C Garretson, Damien Sileo, Qiuyu Ren, Doru Cojoc, Pavel Arkhipov, Usman Qazi, Lianghui Li, Sumeet Motwani, Christian Schroeder de Witt, Edwin Taylor, Johannes Veith, Eric Singer, Taylor D. Hartman, Paolo Rissone, Jaehyeok Jin, Jack Wei Lun Shi, Chris G. Willcocks, Joshua Robinson, Aleksandar Mikov, Ameya Prabhu, Longke Tang, Xavier Alapont, Justine Leon Uro, Kevin Zhou, Emily de Oliveira Santos, Andrey Pupasov Maksimov, Edward Vendrow, Kengo Zenitani, Julien Guillod, Yuqi Li, Joshua Vendrow, Vladyslav Kuchkin, Ng Ze-An, Pierre Marion, Denis Efremov, Jayson Lynch, Kaiqu Liang, Andrew Gritsevskiy, Dakotah Martinez, Ben Pageler, Nick Crispino, Dimitri Zvonkine, Natanael Wildner Fraga, Saeed Soori, Ori Press, Henry Tang, Julian Salazar, Sean R. Green, Lina Brüssel, Moon Twayana, Aymeric Dieuleveut, T. Ryan Rogers, Wenjin Zhang, Bikun Li, Jinzhou Yang, Arun Rao, Gabriel Loiseau, Mikhail Kalinin, Marco Lukas, Ciprian Manolescu, Subrata Mishra, Ariel Ghislain Kemogne Kamdoum, Tobias Kreiman, Tad Hogg, Alvin Jin, Carlo Bosio, Gongbo Sun, Brian P Coppola, Tim Tarver, Haline Heidinger, Rafael Sayous, Stefan Ivanov, Joseph M Cavanagh, Jiawei Shen, Joseph Marvin Imperial, Philippe Schwaller, Shaipranesh Senthilkuma, Andres M Bran, Ali Dehghan, Andres Algaba, Brecht Verbeken, David Noever, Ragavendran P V, Lisa Schut, Ilia Sucholutsky, Evgenii Zheltonozhskii, Derek Lim, Richard Stanley, Shankar Sivarajan, Tong Yang, John Maar, Julian Wykowski, Martí Oller, Jennifer Sandlin, Anmol Sahu, Yuzheng Hu, Sara Fish, Nasser Heydari, Archimedes Apronti, Kaivalya Rawal, Tobias Garcia Vilchis, Yuexuan Zu, Martin Lackner, James Koppel, Jeremy Nguyen, Daniil S. Antonenko, Steffi Chern, Bingchen Zhao, Pierrot Arsene, Alan Goldfarb, Sergey Ivanov, Rafał Poświata, Chenguang Wang, Daofeng Li, Donato Crisostomi, Andrea Achilleos, Benjamin Myklebust, Archan Sen, David Perrella, Nurdin Kaparov, Mark H Inlow, Allen Zang, Elliott Thornley, Daniil Orel, Vladislav Poritski, Shalev Ben-David, Zachary Berger, Parker Whitfill, Michael Foster, Daniel Munro, Linh Ho, Dan Bar Hava, Aleksey Kuchkin, Robert Lauff, David Holmes, Frank Sommerhage, Keith Schneider, Zakayo Kazibwe, Nate Stambaugh, Mukhwinder Singh, Ilias Magoulas, Don Clarke, Dae Hyun Kim, Felipe Meneguitti Dias, Veit Elser, Kanu Priya Agarwal, Victor Efren Guadarrama Vilchis, Immo Klose, Christoph Demian, Ujjwala Anantheswaran, Adam Zweiger, Guglielmo Albani, Jeffery Li, Nicolas Daans, Maksim Radionov, Václav Rozhoň, Ziqiao Ma, Christian Stump, Mohammed Berkani, Jacob Platnick, Volodymyr Nevirkovets, Luke Basler, Marco Piccardo, Ferenc Jeanplong, Niv Cohen, Josef Tkadlec, Paul Rosu, Piotr Padlewski, Stanislaw Barzowski, Kyle Montgomery, Aline Menezes, Arkil Patel, Zixuan Wang, Jamie Tucker-Foltz, Jack Stade, Tom Goertzen, Fereshteh Kazemi, Jeremiah Milbauer, John Arnold Ambay, Abhishek Shukla, Yan Carlos Leyva Labrador, Alan Givré, Hew Wolff, Vivien Rossbach, Muhammad Fayez Aziz, Younesse Kaddar, Yanxu Chen, Robin Zhang, Jiayi Pan, Antonio Terpin, Niklas Muennighoff, Hailey Schoelkopf, Eric Zheng, Avishy Carmi, Adam Jones, Jainam Shah, Ethan D. L. Brown, Kelin Zhu, Max Bartolo, Richard Wheeler, Andrew Ho, Shaul Barkan, Jiaqi Wang, Martin Stehberger, Egor Kretov, Kaustubh Sridhar, Zienab EL-Wasif, Anji Zhang, Daniel Pyda, Joanna Tam, David M. Cunningham, Vladimir Goryachev, Demosthenes Patramanis, Michael Krause, Andrew Redenti, Daniel Bugas, David Aldous, Jesyin Lai, Shannon Coleman, Mohsen Bahaloo, Jiangnan Xu, Sangwon Lee, Sandy Zhao, Ning Tang, Michael K. Cohen, Micah Carroll, Orr Paradise, Jan Hendrik Kirchner, Stefan Steinerberger, Maksym Ovchynnikov, Jason O. Matos, Adithya Shenoy, Benedito Alves de Oliveira Junior, Michael Wang, Yuzhou Nie, Paolo Giordano, Philipp Petersen, Anna Sztyber-Betley, Priti Shukla, Jonathan Crozier, Antonella Pinto, Shreyas Verma, Prashant Joshi, Zheng-Xin Yong, Allison Tee, Jérémy Andréoletti, Orion Weller, Raghav Singhal, Gang Zhang, Alexander Ivanov, Seri Khoury, Hamid Mostaghimi, Kunvar Thaman, Qijia Chen, Tran Quoc Khánh, Jacob Loader, Stefano Cavalleri, Hannah Szlyk, Zachary Brown, Jonathan Roberts, William Alley, Kunyang Sun, Ryan Stendall, Max Lamparth, Anka Reuel, Ting Wang, Hanmeng Xu, Sreenivas Goud Raparthi, Pablo Hernández-Cámara, Freddie Martin, Dmitry Malishev, Thomas Preu, Tomek Korbak, Marcus Abramovitch, Dominic Williamson, Ziye Chen, Biró Bálint, M Saiful Bari, Peyman Kassani, Zihao Wang, Behzad Ansarinejad, Laxman Prasad Goswami, Yewen Sun, Hossam Elgnainy, Daniel Tordera, George Balabanian, Earth Anderson, Lynna Kvistad, Alejandro José Moyano, Rajat Maheshwari, Ahmad Sakor, Murat Eron, Isaac C. McAlister, Javier Gimenez, Innocent Enyekwe, Andrew Favre D. O., Shailesh Shah, Xiaoxiang Zhou, Firuz Kamalov, Ronald Clark, Sherwin Abdoli, Tim Santens, Khalida Meer, Harrison K Wang, Kalyan Ramakrishnan, Evan Chen, Alessandro Tomasiello, G. Bruno De Luca, Shi-Zhuo Looi, Vinh-Kha Le, Noam Kolt, Niels Mündler, Avi Semler, Emma Rodman, Jacob Drori, Carl J Fossum, Milind Jagota, Ronak Pradeep, Honglu Fan, Tej Shah, Jonathan Eicher, Michael Chen, Kushal Thaman, William Merrill, Carter Harris, Jason Gross, Ilya Gusev, Asankhaya Sharma, Shashank Agnihotri, Pavel Zhelnov, Siranut Usawasutsakorn, Mohammadreza Mofayezi, Sergei Bogdanov, Alexander Piperski, Marc Carauleanu, David K. Zhang, Dylan Ler, Roman Leventov, Ignat Soroko, Thorben Jansen, Pascal Lauer, Joshua Duersch, Vage Taamazyan, Wiktor Morak, Wenjie Ma, William Held, Tran Đuc Huy, Ruicheng Xian, Armel Randy Zebaze, Mohanad Mohamed, Julian Noah Leser, Michelle X Yuan, Laila Yacar, Johannes Lengler, Hossein Shahrtash, Edson Oliveira, Joseph W. Jackson, Daniel Espinosa Gonzalez, Andy Zou, Muthu Chidambaram, Timothy Manik, Hector Haffenden, Dashiell Stander, Ali Dasouqi, Alexander Shen, Emilien Duc, Bita Golshani, David Stap, Mikalai Uzhou, Alina Borisovna Zhidkovskaya, Lukas Lewark, Mátyás Vincze, Dustin Wehr, Colin Tang, Zaki Hossain, Shaun Phillips, Jiang Muzhen, Fredrik Ekström, Angela Hammon, Oam Patel, Nicolas Remy, Faraz Farhidi, George Medley, Forough Mohammadzadeh, Madellene Peñaflor, Haile Kassahun, Alena Friedrich, Claire Sparrow, Taom Sakal, Omkar Dhamane, Ali Khajegili Mirabadi, Eric Hallman, Mike Battaglia, Mohammad Maghsoudimehrabani, Hieu Hoang, Alon Amit, Dave Hulbert, Roberto Pereira, Simon Weber, Stephen Mensah, Nathan Andre, Anton Peristyy, Chris Harjadi, Himanshu Gupta, Stephen Malina, Samuel Albanie, Will Cai, Mustafa Mehkary, Frank Reidegeld, Anna-Katharina Dick, Cary Friday, Jasdeep Sidhu, Wanyoung Kim, Mariana Costa, Hubeyb Gurdogan, Brian Weber, Harsh Kumar, Tong Jiang, Arunim Agarwal, Chiara Ceconello, Warren S. Vaz, Chao Zhuang, Haon Park, Andrew R. Tawfeek, Daattavya Aggarwal, Michael Kirchhof, Linjie Dai, Evan Kim, Johan Ferret, Yuzhou Wang, Minghao Yan, Krzysztof Burdzy, Lixin Zhang, Antonio Franca, Diana T. Pham, Kang Yong Loh, Joshua Robinson, Shreen Gul, Gunjan Chhablani, Zhehang Du, Adrian Cosma, Colin White, Robin Riblet, Prajvi Saxena, Jacob Votava, Vladimir Vinnikov, Ethan Delaney, Shiv Halasyamani, Syed M. Shahid, Jean-Christophe Mourrat, Lavr Vetoshkin, Renas Bacho, Vincent Ginis, Aleksandr Maksapetyan, Florencia de la Rosa, Xiuyu Li, Guillaume Malod, Leon Lang, Julien Laurendeau, Fatimah Adesanya, Julien Portier, Lawrence Hollom, Victor Souza, Yuchen Anna Zhou, Yiğit Yalın, Gbenga Daniel Obikoya, Luca Arnaboldi, Rai, Filippo Bigi, Kaniuar Bacho, Pierre Clavier, Gabriel Recchia, Mara Popescu, Nikita Shulga, Ngefor Mildred Tanwie, Thomas C. H. Lux, Ben Rank, Colin Ni, Alesia Yakimchyk, Huanxu, Liu, Olle Häggström, Emil Verkama, Himanshu Narayan, Hans Gundlach, Leonor Brito-Santana, Brian Amaro, Vivek Vajipey, Rynaa Grover, Yiyang Fan, Gabriel Poesia Reis e Silva, Linwei Xin, Yosi Kratish, Jakub Łucki, Wen-Ding Li, Justin Xu, Kevin Joseph Scaria, Freddie Vargus, Farzad Habibi, Long, Lian, Emanuele Rodolà, Jules Robins, Vincent Cheng, Declan Grabb, Ida Bosio, Tony Fruhauff, Ido Akov, Eve J. Y. Lo, Hao Qi, Xi Jiang, Ben Segev, Jingxuan Fan, Sarah Martinson, Erik Y. Wang, Kaylie Hausknecht, Michael P. Brenner, Mao Mao, Yibo Jiang, Xinyu Zhang, David Avagian, Eshawn Jessica Scipio, Muhammad Rehan Siddiqi, Alon Ragoler, Justin Tan, Deepakkumar Patil, Rebeka Plecnik, Aaron Kirtland, Roselynn Grace Montecillo, Stephane Durand, Omer Faruk Bodur, Zahra Adoul, Mohamed Zekry, Guillaume Douville, Ali Karakoc, Tania C. B. Santos, Samir Shamseldeen, Loukmane Karim, Anna Liakhovitskaia, Nate Resman, Nicholas Farina, Juan Carlos Gonzalez, Gabe Maayan, Sarah Hoback, Rodrigo De Oliveira Pena, Glen Sherman, Hodjat Mariji, Rasoul Pouriamanesh, Wentao Wu, Gözdenur Demir, Sandra Mendoza, Ismail Alarab, Joshua Cole, Danyelle Ferreira, Bryan Johnson, Hsiaoyun Milliron, Mohammad Safdari, Liangti Dai, Siriphan Arthornthurasuk, Alexey Pronin, Jing Fan, Angel Ramirez-Trinidad, Ashley Cartwright, Daphiny Pottmaier, Omid Taheri, David Outevsky, Stanley Stepanic, Samuel Perry, Luke Askew, Raúl Adrián Huerta Rodríguez, Abdelkader Dendane, Sam Ali, Ricardo Lorena, Krishnamurthy Iyer, Sk Md Salauddin, Murat Islam, Juan Gonzalez, Josh Ducey, Russell Campbell, Maja Somrak, Vasilios Mavroudis, Eric Vergo, Juehang Qin, Benjámin Borbás, Eric Chu, Jack Lindsey, Anil Radhakrishnan, Antoine Jallon, I. M. J. McInnis, Alex Hoover, Sören Möller, Song Bian, John Lai, Tejal Patwardhan, Summer Yue, Alexandr Wang, Dan Hendrycks
77
4
Les benchmarks sont des outils importants pour suivre les avancées rapides dans les capacités des grands modèles de langage (LLM). Cependant, les benchmarks ne progressent pas en termes de difficulté : les LLM atteignent désormais plus de 90\% de précision sur des benchmarks populaires comme MMLU, limitant la mesure informée des capacités de pointe des LLM. En réponse, nous introduisons l'Examen Dernier de l'Humanité (HLE), un benchmark multi-modal à la frontière de la connaissance humaine, conçu pour être le dernier benchmark académique fermé de ce type avec une large couverture de sujets. HLE se compose de 3 000 questions dans des dizaines de matières, comprenant les mathématiques, les sciences humaines et les sciences naturelles. HLE est développé à l'échelle mondiale par des experts en la matière et comprend des questions à choix multiples et à réponses courtes adaptées à une évaluation automatisée. Chaque question a une solution connue, non ambiguë et facilement vérifiable, mais ne peut pas être rapidement répondue par une recherche sur internet. Les LLM de pointe démontrent une faible précision et calibration sur HLE, soulignant un écart significatif entre les capacités actuelles des LLM et la frontière humaine experte sur des questions académiques fermées. Pour informer la recherche et l'élaboration de politiques sur une compréhension claire des capacités des modèles, nous publions publiquement HLE sur https://lastexam.ai.
Cet article présente une approche pour entraîner des modèles RAG de type o1 qui récupèrent et raisonnent sur des informations pertinentes étape par étape avant de générer la réponse finale. Les méthodes RAG classiques effectuent généralement une seule étape de récupération avant le processus de génération, ce qui limite leur efficacité pour répondre à des requêtes complexes en raison de résultats de récupération imparfaits. En revanche, notre méthode proposée, CoRAG (Génération Augmentée par Chaîne de Récupération), permet au modèle de reformuler dynamiquement la requête en fonction de l'état évolutif. Pour entraîner efficacement CoRAG, nous utilisons l'échantillonnage par rejet pour générer automatiquement des chaînes de récupération intermédiaires, augmentant ainsi les ensembles de données RAG existants qui ne fournissent que la réponse finale correcte. Au moment des tests, nous proposons diverses stratégies de décodage pour adapter le calcul du modèle en fonction de la longueur et du nombre de chaînes de récupération échantillonnées. Les résultats expérimentaux sur plusieurs benchmarks valident l'efficacité de CoRAG, en particulier dans les tâches de question-réponse multi-sauts, où nous observons une amélioration de plus de 10 points du score EM par rapport aux références solides. Sur le benchmark KILT, CoRAG établit une nouvelle performance de pointe dans une gamme diversifiée de tâches intensives en connaissances. De plus, nous proposons des analyses approfondies pour comprendre le comportement à l'échelle de CoRAG, posant ainsi les bases pour de futures recherches visant à développer des modèles de base factuels et fondés.
Avec l'itération rapide des Modèles de Langage Multimodaux de Grande Taille (MLLMs) et les exigences évolutives du domaine, le nombre de références produites annuellement a explosé pour atteindre des centaines. Cette croissance rapide a inévitablement entraîné une redondance significative parmi les références. Il est donc crucial de prendre du recul et d'évaluer de manière critique l'état actuel de la redondance, et de proposer des principes ciblés pour la construction de références MLLM efficaces. Dans cet article, nous nous concentrons sur la redondance selon trois perspectives clés : 1) la redondance des dimensions de capacité des références, 2) la redondance dans le nombre de questions de test, et 3) la redondance entre références au sein de domaines spécifiques. À travers une analyse approfondie de la performance de centaines de MLLMs sur plus de 20 références, nous visons à mesurer quantitativement le niveau de redondance présent dans les évaluations de MLLM existantes, à fournir des perspectives précieuses pour orienter le futur développement des références MLLM, et à proposer des stratégies pour affiner et résoudre efficacement les problèmes de redondance.
Et si l'intelligence artificielle pouvait non seulement résoudre les problèmes pour lesquels elle a été entraînée, mais aussi apprendre à s'enseigner elle-même à résoudre de nouveaux problèmes (c'est-à-dire, méta-apprentissage) ? Dans cette étude, nous démontrons qu'un transformeur pré-entraîné, affiné par l'apprentissage par renforcement sur plusieurs épisodes, développe la capacité de résoudre des problèmes auxquels il n'a jamais été confronté auparavant - une capacité émergente appelée Apprentissage par Renforcement en Contexte (ICRL). Ce puissant méta-apprenant excelle non seulement dans la résolution d'environnements non vus auparavant avec une efficacité d'échantillonnage remarquable, mais montre également de bonnes performances dans des environnements hors distribution. De plus, nous montrons qu'il fait preuve de robustesse face à la qualité de ses données d'entraînement, assemble de manière transparente des comportements de son contexte, et s'adapte à des environnements non stationnaires. Ces comportements démontrent qu'un transformeur entraîné par RL peut améliorer de manière itérative ses propres solutions, ce qui en fait un excellent résolveur de problèmes polyvalent.
Les critiques sont importantes pour améliorer les performances des Modèles de Langage Géants (LLMs), permettant à la fois l'auto-amélioration et des retours constructifs pour les autres en identifiant les défauts et en suggérant des améliorations. Cependant, évaluer les capacités de critique des LLMs présente un défi significatif en raison de la nature ouverte de la tâche. Dans ce travail, nous introduisons un nouveau banc d'essai conçu pour évaluer les capacités de critique des LLMs. Contrairement aux bancs d'essai existants, qui fonctionnent généralement de manière en boucle ouverte, notre approche utilise une méthodologie en boucle fermée qui évalue la qualité des corrections générées à partir des critiques. De plus, le banc d'essai intègre des fonctionnalités telles que l'auto-critique, la critique croisée et la critique itérative, qui sont cruciales pour distinguer les capacités des modèles de raisonnement avancés des modèles plus classiques. Nous mettons en œuvre ce banc d'essai en utilisant huit tâches de raisonnement difficiles. Nous avons plusieurs résultats intéressants. Tout d'abord, malgré des performances comparables dans la génération directe de chaînes de pensée, les LLMs classiques accusent un retard significatif par rapport au modèle basé sur le raisonnement avancé o1-mini dans tous les scénarios de critique. Deuxièmement, dans les paramètres d'auto-critique et de critique itérative, les LLMs classiques peuvent même sous-performer par rapport à leurs capacités de base. Nous espérons que ce banc d'essai servira de ressource précieuse pour orienter les futures avancées. Le code et les données sont disponibles sur https://github.com/tangzhy/RealCritic.
ByShaofei Wang, Tomas Simon, Igor Santesteban, Timur Bagautdinov, Junxuan Li, Vasu Agrawal, Fabian Prada, Shoou-I Yu, Pace Nalbone, Matt Gramlich, Roman Lubachersky, Chenglei Wu, Javier Romero, Jason Saragih, Michael Zollhoefer, Andreas Geiger, Siyu Tang, Shunsuke Saito
10
2
Nous proposons des avatars gaussiens à corps entier reconfigurables, une nouvelle approche pour modéliser des avatars à corps entier reconfigurables avec des détails fins incluant le visage et les mains. Le défi unique pour le reéclairage des avatars à corps entier réside dans les grandes déformations causées par l'articulation du corps et l'impact résultant sur l'apparence causé par le transport de la lumière. Les changements de posture du corps peuvent changer radicalement l'orientation des surfaces du corps par rapport aux lumières, entraînant à la fois des changements d'apparence locaux dus aux changements dans les fonctions locales de transport de la lumière, ainsi que des changements non-locaux dus à l'occultation entre les parties du corps. Pour résoudre cela, nous décomposons le transport de la lumière en effets locaux et non-locaux. Les changements d'apparence locaux sont modélisés en utilisant des harmoniques zonales apprenables pour le transfert de la radiance diffuse. Contrairement aux harmoniques sphériques, les harmoniques zonales sont hautement efficaces pour pivoter sous l'articulation. Cela nous permet d'apprendre le transfert de la radiance diffuse dans un cadre de coordonnées local, ce qui démêle le transfert de la radiance local de l'articulation du corps. Pour tenir compte des changements d'apparence non-locaux, nous introduisons un réseau d'ombres qui prédit les ombres étant donné l'irradiance entrante précalculée sur un maillage de base. Cela facilite l'apprentissage de l'ombrage non-local entre les parties du corps. Enfin, nous utilisons une approche de rendu différé pour modéliser le transfert de la radiance spéculaire et capturer plus précisément les réflexions et les points lumineux tels que les reflets dans les yeux. Nous démontrons que notre approche modélise avec succès à la fois le transport de la lumière local et non-local requis pour les avatars à corps entier reconfigurables, avec une capacité de généralisation supérieure sous des conditions d'éclairage nouvelles et des poses inédites.
Les systèmes de santé génèrent continuellement d'énormes quantités de dossiers médicaux électroniques (DME), couramment stockés dans la norme des Ressources d'Interopérabilité Rapide des Soins de Santé (FHIR). Malgré la richesse d'informations contenue dans ces dossiers, leur complexité et leur volume rendent difficile la récupération et l'interprétation d'informations de santé cruciales pour les utilisateurs. Les récents progrès des Grands Modèles de Langage (LLM) offrent une solution, permettant la réponse sémantique à des questions (QA) sur des données médicales, permettant aux utilisateurs d'interagir de manière plus efficace avec leurs dossiers de santé. Cependant, garantir la confidentialité et la conformité nécessite le déploiement d'LLM en périphérie et en privé.
Cet article propose une approche novatrice pour la réponse sémantique à des questions sur les DME en identifiant d'abord les ressources FHIR les plus pertinentes pour une requête utilisateur (Tâche 1) et en répondant ensuite à la requête en se basant sur ces ressources (Tâche 2). Nous explorons les performances d'LLM finement réglés hébergés de manière privée, les évaluant par rapport à des modèles de référence tels que GPT-4 et GPT-4o. Nos résultats démontrent que les LLM finement réglés, bien que 250 fois plus petits en taille, surpassent les modèles de la famille GPT-4 de 0,55% en score F1 sur la Tâche 1 et de 42% sur la Tâche Meteor de la Tâche 2. De plus, nous examinons des aspects avancés de l'utilisation des LLM, y compris le réglage fin séquentiel, l'auto-évaluation du modèle (évaluation narcissique) et l'impact de la taille des données d'entraînement sur les performances. Les modèles et ensembles de données sont disponibles ici : https://huggingface.co/genloop
ByAkashah Shabbir, Mohammed Zumri, Mohammed Bennamoun, Fahad S. Khan, Salman Khan
8
2
Les récentes avancées dans les grands modèles multimodaux (LMM) ont reconnu le ciblage détaillé comme un facteur impératif de la compréhension visuelle et du dialogue. Cependant, les avantages d'une telle représentation dans les LMM sont limités au domaine des images naturelles, et ces modèles fonctionnent mal pour la télédétection (RS). La vue aérienne distincte, les variations d'échelle et la présence d'objets de petite taille dans les images de RS haute résolution posent un défi unique pour la compréhension au niveau régional. De plus, le développement de la capacité de conversation ciblée des LMM dans le domaine de la RS est entravé par le manque de données granulaires spécifiques au domaine de la RS. Pour répondre à ces limitations, nous proposons GeoPixel - le premier RS-LMM haute résolution de bout en bout qui prend en charge le ciblage au niveau des pixels. Cette capacité permet une perception visuelle détaillée en générant des masques entrelacés dans la conversation. GeoPixel prend en charge une résolution HD jusqu'à 4K dans n'importe quel rapport d'aspect, idéal pour l'analyse d'images de RS de haute précision. Pour soutenir la génération de conversation ciblée (GCG) dans les images de RS, nous avons créé un ensemble de données visuellement ciblées, GeoPixelD, à travers un pipeline semi-automatisé qui utilise des incitations de jeu de marques et des priorités spatiales adaptées aux données de RS pour contrôler méthodiquement le processus de génération de données. GeoPixel démontre des performances supérieures en termes de compréhension au niveau des pixels, dépassant les LMM existants dans les tâches de segmentation à cible unique et à cibles multiples. Nos études d'ablation méthodologiques valident l'efficacité de chaque composant dans l'architecture globale. Notre code et nos données seront publiés publiquement.
Les modèles fondamentaux de vision, en particulier la famille ViT, ont révolutionné la compréhension des images en fournissant des caractéristiques sémantiques riches. Cependant, malgré leur succès dans la compréhension en 2D, leurs capacités à appréhender les relations spatiales en 3D restent encore floues. Dans ce travail, nous évaluons et améliorons la conscience en 3D des modèles basés sur ViT. Nous commençons par évaluer systématiquement leur capacité à apprendre des caractéristiques 3D équivariantes, examinant spécifiquement la cohérence des plongements sémantiques à travers différents points de vue. Nos résultats indiquent qu'une meilleure équivariance en 3D conduit à de meilleures performances sur diverses tâches ultérieures, notamment l'estimation de la pose, le suivi et le transfert sémantique. En nous appuyant sur cette observation, nous proposons une stratégie de fine-tuning simple mais efficace basée sur des correspondances 3D, qui améliore significativement la compréhension des correspondances 3D des modèles de vision existants. Remarquablement, même un fine-tuning sur un seul objet pour une seule itération entraîne des gains de performance substantiels. Tout le code et les ressources seront rendus publiquement disponibles pour soutenir de nouvelles avancées dans les modèles de vision conscients en 3D. Notre code est disponible sur https://github.com/qq456cvb/3DCorrEnhance.
La technologie d'essayage virtuel (VTON) a attiré l'attention en raison de son potentiel de transformer le commerce en ligne en permettant une visualisation réaliste des vêtements sur des images et des vidéos. Cependant, la plupart des méthodes existantes peinent à obtenir des résultats de haute qualité pour les tâches d'essayage d'images et de vidéos, en particulier dans des scénarios de longues vidéos. Dans ce travail, nous introduisons CatV2TON, une méthode d'essayage virtuel (V2TON) basée sur la vision, simple et efficace, qui prend en charge à la fois les tâches d'essayage d'images et de vidéos avec un seul modèle de transformateur de diffusion. En concaténant temporellement les entrées de vêtements et de personnes et en s'entraînant sur un mélange de jeux de données d'images et de vidéos, CatV2TON atteint des performances d'essayage robustes dans des environnements statiques et dynamiques. Pour une génération efficace de longues vidéos, nous proposons une stratégie d'inférence basée sur des clips superposés qui utilise un guidage par trame séquentielle et une Normalisation Adaptative des Clips (AdaCN) pour maintenir une cohérence temporelle avec des exigences en ressources réduites. Nous présentons également ViViD-S, un ensemble de données d'essayage vidéo affiné, obtenu en filtrant les trames tournées vers l'arrière et en appliquant un lissage de masque 3D pour une cohérence temporelle améliorée. Des expériences approfondies démontrent que CatV2TON surpasse les méthodes existantes dans les tâches d'essayage d'images et de vidéos, offrant une solution polyvalente et fiable pour des essayages virtuels réalistes dans divers scénarios.
Bien que les méthodes de restauration d'images basées sur l'apprentissage aient réalisé des progrès significatifs, elles peinent toujours à généraliser de manière limitée aux scénarios du monde réel en raison de l'écart de domaine substantiel causé par l'entraînement sur des données synthétiques. Les méthodes existantes abordent ce problème en améliorant les pipelines de synthèse de données, en estimant les noyaux de dégradation, en utilisant l'apprentissage interne profond, et en effectuant l'adaptation de domaine et la régularisation. Les méthodes précédentes d'adaptation de domaine ont cherché à combler l'écart de domaine en apprenant des connaissances invariantes de domaine soit dans l'espace des caractéristiques, soit dans l'espace des pixels. Cependant, ces techniques ont souvent du mal à s'étendre aux tâches de vision de bas niveau dans un cadre stable et compact. Dans cet article, nous montrons qu'il est possible d'effectuer une adaptation de domaine via l'espace du bruit en utilisant des modèles de diffusion. En particulier, en exploitant la propriété unique de la manière dont les entrées conditionnelles auxiliaires influencent le processus de débruitage à plusieurs étapes, nous dérivons une perte de diffusion significative qui guide le modèle de restauration dans l'alignement progressif des sorties restaurées synthétiques et du monde réel avec une distribution propre cible. Nous appelons cette méthode débruitage par adaptation. Pour éviter les raccourcis lors de l'entraînement conjoint, nous présentons des stratégies cruciales telles que la couche de permutation de canaux et l'apprentissage contrastif d'échange résiduel dans le modèle de diffusion. Ils brouillent implicitement les frontières entre les données synthétiques conditionnées et réelles et empêchent le modèle de se reposer sur des caractéristiques facilement discernables. Les résultats expérimentaux sur trois tâches classiques de restauration d'images, à savoir le débruitage, le défloutage et le dépluie, démontrent l'efficacité de la méthode proposée.
Dans le processus d'acquisition d'images, diverses formes de dégradation, telles que le bruit, le brouillard et la pluie, sont fréquemment introduites. Ces dégradations découlent généralement des limitations inhérentes des caméras ou de conditions ambiantes défavorables. Pour récupérer des images nettes à partir de versions dégradées, de nombreuses méthodes de restauration spécialisées ont été développées, chacune ciblant un type spécifique de dégradation. Récemment, les algorithmes tout-en-un ont suscité une attention significative en traitant différents types de dégradations au sein d'un seul modèle sans nécessiter d'informations préalables sur le type de dégradation en entrée. Cependant, ces méthodes opèrent uniquement dans le domaine spatial et ne s'aventurent pas dans les variations de fréquence distinctes inhérentes aux différents types de dégradations. Pour combler cette lacune, nous proposons un réseau adaptatif de restauration d'images tout-en-un basé sur l'exploration et la modulation de fréquences. Notre approche est motivée par l'observation selon laquelle différents types de dégradations impactent le contenu de l'image sur différentes sous-bandes de fréquence, nécessitant ainsi des traitements différents pour chaque tâche de restauration. Plus précisément, nous extrayons d'abord des informations de basses et hautes fréquences à partir des caractéristiques en entrée, guidés par les spectres adaptativement découplés de l'image dégradée. Les caractéristiques extraites sont ensuite modulées par un opérateur bidirectionnel pour faciliter les interactions entre les différents composants de fréquence. Enfin, les caractéristiques modulées sont fusionnées avec l'entrée d'origine pour une restauration guidée de manière progressive. Avec cette approche, le modèle parvient à une reconstruction adaptative en accentuant les sous-bandes de fréquence informatives selon les différentes dégradations en entrée. Des expériences approfondies démontrent que la méthode proposée atteint des performances de pointe sur différentes tâches de restauration d'images, notamment le débruitage, le désembuage, le dépluviage, le désfloutage de mouvement et l'amélioration d'images en basse lumière. Notre code est disponible sur https://github.com/c-yn/AdaIR.