ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

De Laatste Test van de Mensheid
Humanity's Last Exam

Jan 24, 2025
Long Phan, Alice Gatti, Ziwen Han, Nathaniel Li, Josephina Hu, Hugh Zhang, Sean Shi, Michael Choi, Anish Agrawal, Arnav Chopra, Adam Khoja, Ryan Kim, Jason Hausenloy, Oliver Zhang, Mantas Mazeika, Daron Anderson, Tung Nguyen, Mobeen Mahmood, Fiona Feng, Steven Y. Feng, Haoran Zhao, Michael Yu, Varun Gangal, Chelsea Zou, Zihan Wang, Jessica P. Wang, Pawan Kumar, Oleksandr Pokutnyi, Robert Gerbicz, Serguei Popov, John-Clark Levin, Mstyslav Kazakov, Johannes Schmitt, Geoff Galgon, Alvaro Sanchez, Yongki Lee, Will Yeadon, Scott Sauers, Marc Roth, Chidozie Agu, Søren Riis, Fabian Giska, Saiteja Utpala, Zachary Giboney, Gashaw M. Goshu, Joan of Arc Xavier, Sarah-Jane Crowson, Mohinder Maheshbhai Naiya, Noah Burns, Lennart Finke, Zerui Cheng, Hyunwoo Park, Francesco Fournier-Facio, John Wydallis, Mark Nandor, Ankit Singh, Tim Gehrunger, Jiaqi Cai, Ben McCarty, Darling Duclosel, Jungbae Nam, Jennifer Zampese, Ryan G. Hoerr, Aras Bacho, Gautier Abou Loume, Abdallah Galal, Hangrui Cao, Alexis C Garretson, Damien Sileo, Qiuyu Ren, Doru Cojoc, Pavel Arkhipov, Usman Qazi, Lianghui Li, Sumeet Motwani, Christian Schroeder de Witt, Edwin Taylor, Johannes Veith, Eric Singer, Taylor D. Hartman, Paolo Rissone, Jaehyeok Jin, Jack Wei Lun Shi, Chris G. Willcocks, Joshua Robinson, Aleksandar Mikov, Ameya Prabhu, Longke Tang, Xavier Alapont, Justine Leon Uro, Kevin Zhou, Emily de Oliveira Santos, Andrey Pupasov Maksimov, Edward Vendrow, Kengo Zenitani, Julien Guillod, Yuqi Li, Joshua Vendrow, Vladyslav Kuchkin, Ng Ze-An, Pierre Marion, Denis Efremov, Jayson Lynch, Kaiqu Liang, Andrew Gritsevskiy, Dakotah Martinez, Ben Pageler, Nick Crispino, Dimitri Zvonkine, Natanael Wildner Fraga, Saeed Soori, Ori Press, Henry Tang, Julian Salazar, Sean R. Green, Lina Brüssel, Moon Twayana, Aymeric Dieuleveut, T. Ryan Rogers, Wenjin Zhang, Bikun Li, Jinzhou Yang, Arun Rao, Gabriel Loiseau, Mikhail Kalinin, Marco Lukas, Ciprian Manolescu, Subrata Mishra, Ariel Ghislain Kemogne Kamdoum, Tobias Kreiman, Tad Hogg, Alvin Jin, Carlo Bosio, Gongbo Sun, Brian P Coppola, Tim Tarver, Haline Heidinger, Rafael Sayous, Stefan Ivanov, Joseph M Cavanagh, Jiawei Shen, Joseph Marvin Imperial, Philippe Schwaller, Shaipranesh Senthilkuma, Andres M Bran, Ali Dehghan, Andres Algaba, Brecht Verbeken, David Noever, Ragavendran P V, Lisa Schut, Ilia Sucholutsky, Evgenii Zheltonozhskii, Derek Lim, Richard Stanley, Shankar Sivarajan, Tong Yang, John Maar, Julian Wykowski, Martí Oller, Jennifer Sandlin, Anmol Sahu, Yuzheng Hu, Sara Fish, Nasser Heydari, Archimedes Apronti, Kaivalya Rawal, Tobias Garcia Vilchis, Yuexuan Zu, Martin Lackner, James Koppel, Jeremy Nguyen, Daniil S. Antonenko, Steffi Chern, Bingchen Zhao, Pierrot Arsene, Alan Goldfarb, Sergey Ivanov, Rafał Poświata, Chenguang Wang, Daofeng Li, Donato Crisostomi, Andrea Achilleos, Benjamin Myklebust, Archan Sen, David Perrella, Nurdin Kaparov, Mark H Inlow, Allen Zang, Elliott Thornley, Daniil Orel, Vladislav Poritski, Shalev Ben-David, Zachary Berger, Parker Whitfill, Michael Foster, Daniel Munro, Linh Ho, Dan Bar Hava, Aleksey Kuchkin, Robert Lauff, David Holmes, Frank Sommerhage, Keith Schneider, Zakayo Kazibwe, Nate Stambaugh, Mukhwinder Singh, Ilias Magoulas, Don Clarke, Dae Hyun Kim, Felipe Meneguitti Dias, Veit Elser, Kanu Priya Agarwal, Victor Efren Guadarrama Vilchis, Immo Klose, Christoph Demian, Ujjwala Anantheswaran, Adam Zweiger, Guglielmo Albani, Jeffery Li, Nicolas Daans, Maksim Radionov, Václav Rozhoň, Ziqiao Ma, Christian Stump, Mohammed Berkani, Jacob Platnick, Volodymyr Nevirkovets, Luke Basler, Marco Piccardo, Ferenc Jeanplong, Niv Cohen, Josef Tkadlec, Paul Rosu, Piotr Padlewski, Stanislaw Barzowski, Kyle Montgomery, Aline Menezes, Arkil Patel, Zixuan Wang, Jamie Tucker-Foltz, Jack Stade, Tom Goertzen, Fereshteh Kazemi, Jeremiah Milbauer, John Arnold Ambay, Abhishek Shukla, Yan Carlos Leyva Labrador, Alan Givré, Hew Wolff, Vivien Rossbach, Muhammad Fayez Aziz, Younesse Kaddar, Yanxu Chen, Robin Zhang, Jiayi Pan, Antonio Terpin, Niklas Muennighoff, Hailey Schoelkopf, Eric Zheng, Avishy Carmi, Adam Jones, Jainam Shah, Ethan D. L. Brown, Kelin Zhu, Max Bartolo, Richard Wheeler, Andrew Ho, Shaul Barkan, Jiaqi Wang, Martin Stehberger, Egor Kretov, Kaustubh Sridhar, Zienab EL-Wasif, Anji Zhang, Daniel Pyda, Joanna Tam, David M. Cunningham, Vladimir Goryachev, Demosthenes Patramanis, Michael Krause, Andrew Redenti, Daniel Bugas, David Aldous, Jesyin Lai, Shannon Coleman, Mohsen Bahaloo, Jiangnan Xu, Sangwon Lee, Sandy Zhao, Ning Tang, Michael K. Cohen, Micah Carroll, Orr Paradise, Jan Hendrik Kirchner, Stefan Steinerberger, Maksym Ovchynnikov, Jason O. Matos, Adithya Shenoy, Benedito Alves de Oliveira Junior, Michael Wang, Yuzhou Nie, Paolo Giordano, Philipp Petersen, Anna Sztyber-Betley, Priti Shukla, Jonathan Crozier, Antonella Pinto, Shreyas Verma, Prashant Joshi, Zheng-Xin Yong, Allison Tee, Jérémy Andréoletti, Orion Weller, Raghav Singhal, Gang Zhang, Alexander Ivanov, Seri Khoury, Hamid Mostaghimi, Kunvar Thaman, Qijia Chen, Tran Quoc Khánh, Jacob Loader, Stefano Cavalleri, Hannah Szlyk, Zachary Brown, Jonathan Roberts, William Alley, Kunyang Sun, Ryan Stendall, Max Lamparth, Anka Reuel, Ting Wang, Hanmeng Xu, Sreenivas Goud Raparthi, Pablo Hernández-Cámara, Freddie Martin, Dmitry Malishev, Thomas Preu, Tomek Korbak, Marcus Abramovitch, Dominic Williamson, Ziye Chen, Biró Bálint, M Saiful Bari, Peyman Kassani, Zihao Wang, Behzad Ansarinejad, Laxman Prasad Goswami, Yewen Sun, Hossam Elgnainy, Daniel Tordera, George Balabanian, Earth Anderson, Lynna Kvistad, Alejandro José Moyano, Rajat Maheshwari, Ahmad Sakor, Murat Eron, Isaac C. McAlister, Javier Gimenez, Innocent Enyekwe, Andrew Favre D. O., Shailesh Shah, Xiaoxiang Zhou, Firuz Kamalov, Ronald Clark, Sherwin Abdoli, Tim Santens, Khalida Meer, Harrison K Wang, Kalyan Ramakrishnan, Evan Chen, Alessandro Tomasiello, G. Bruno De Luca, Shi-Zhuo Looi, Vinh-Kha Le, Noam Kolt, Niels Mündler, Avi Semler, Emma Rodman, Jacob Drori, Carl J Fossum, Milind Jagota, Ronak Pradeep, Honglu Fan, Tej Shah, Jonathan Eicher, Michael Chen, Kushal Thaman, William Merrill, Carter Harris, Jason Gross, Ilya Gusev, Asankhaya Sharma, Shashank Agnihotri, Pavel Zhelnov, Siranut Usawasutsakorn, Mohammadreza Mofayezi, Sergei Bogdanov, Alexander Piperski, Marc Carauleanu, David K. Zhang, Dylan Ler, Roman Leventov, Ignat Soroko, Thorben Jansen, Pascal Lauer, Joshua Duersch, Vage Taamazyan, Wiktor Morak, Wenjie Ma, William Held, Tran Đuc Huy, Ruicheng Xian, Armel Randy Zebaze, Mohanad Mohamed, Julian Noah Leser, Michelle X Yuan, Laila Yacar, Johannes Lengler, Hossein Shahrtash, Edson Oliveira, Joseph W. Jackson, Daniel Espinosa Gonzalez, Andy Zou, Muthu Chidambaram, Timothy Manik, Hector Haffenden, Dashiell Stander, Ali Dasouqi, Alexander Shen, Emilien Duc, Bita Golshani, David Stap, Mikalai Uzhou, Alina Borisovna Zhidkovskaya, Lukas Lewark, Mátyás Vincze, Dustin Wehr, Colin Tang, Zaki Hossain, Shaun Phillips, Jiang Muzhen, Fredrik Ekström, Angela Hammon, Oam Patel, Nicolas Remy, Faraz Farhidi, George Medley, Forough Mohammadzadeh, Madellene Peñaflor, Haile Kassahun, Alena Friedrich, Claire Sparrow, Taom Sakal, Omkar Dhamane, Ali Khajegili Mirabadi, Eric Hallman, Mike Battaglia, Mohammad Maghsoudimehrabani, Hieu Hoang, Alon Amit, Dave Hulbert, Roberto Pereira, Simon Weber, Stephen Mensah, Nathan Andre, Anton Peristyy, Chris Harjadi, Himanshu Gupta, Stephen Malina, Samuel Albanie, Will Cai, Mustafa Mehkary, Frank Reidegeld, Anna-Katharina Dick, Cary Friday, Jasdeep Sidhu, Wanyoung Kim, Mariana Costa, Hubeyb Gurdogan, Brian Weber, Harsh Kumar, Tong Jiang, Arunim Agarwal, Chiara Ceconello, Warren S. Vaz, Chao Zhuang, Haon Park, Andrew R. Tawfeek, Daattavya Aggarwal, Michael Kirchhof, Linjie Dai, Evan Kim, Johan Ferret, Yuzhou Wang, Minghao Yan, Krzysztof Burdzy, Lixin Zhang, Antonio Franca, Diana T. Pham, Kang Yong Loh, Joshua Robinson, Shreen Gul, Gunjan Chhablani, Zhehang Du, Adrian Cosma, Colin White, Robin Riblet, Prajvi Saxena, Jacob Votava, Vladimir Vinnikov, Ethan Delaney, Shiv Halasyamani, Syed M. Shahid, Jean-Christophe Mourrat, Lavr Vetoshkin, Renas Bacho, Vincent Ginis, Aleksandr Maksapetyan, Florencia de la Rosa, Xiuyu Li, Guillaume Malod, Leon Lang, Julien Laurendeau, Fatimah Adesanya, Julien Portier, Lawrence Hollom, Victor Souza, Yuchen Anna Zhou, Yiğit Yalın, Gbenga Daniel Obikoya, Luca Arnaboldi, Rai, Filippo Bigi, Kaniuar Bacho, Pierre Clavier, Gabriel Recchia, Mara Popescu, Nikita Shulga, Ngefor Mildred Tanwie, Thomas C. H. Lux, Ben Rank, Colin Ni, Alesia Yakimchyk, Huanxu, Liu, Olle Häggström, Emil Verkama, Himanshu Narayan, Hans Gundlach, Leonor Brito-Santana, Brian Amaro, Vivek Vajipey, Rynaa Grover, Yiyang Fan, Gabriel Poesia Reis e Silva, Linwei Xin, Yosi Kratish, Jakub Łucki, Wen-Ding Li, Justin Xu, Kevin Joseph Scaria, Freddie Vargus, Farzad Habibi, Long, Lian, Emanuele Rodolà, Jules Robins, Vincent Cheng, Declan Grabb, Ida Bosio, Tony Fruhauff, Ido Akov, Eve J. Y. Lo, Hao Qi, Xi Jiang, Ben Segev, Jingxuan Fan, Sarah Martinson, Erik Y. Wang, Kaylie Hausknecht, Michael P. Brenner, Mao Mao, Yibo Jiang, Xinyu Zhang, David Avagian, Eshawn Jessica Scipio, Muhammad Rehan Siddiqi, Alon Ragoler, Justin Tan, Deepakkumar Patil, Rebeka Plecnik, Aaron Kirtland, Roselynn Grace Montecillo, Stephane Durand, Omer Faruk Bodur, Zahra Adoul, Mohamed Zekry, Guillaume Douville, Ali Karakoc, Tania C. B. Santos, Samir Shamseldeen, Loukmane Karim, Anna Liakhovitskaia, Nate Resman, Nicholas Farina, Juan Carlos Gonzalez, Gabe Maayan, Sarah Hoback, Rodrigo De Oliveira Pena, Glen Sherman, Hodjat Mariji, Rasoul Pouriamanesh, Wentao Wu, Gözdenur Demir, Sandra Mendoza, Ismail Alarab, Joshua Cole, Danyelle Ferreira, Bryan Johnson, Hsiaoyun Milliron, Mohammad Safdari, Liangti Dai, Siriphan Arthornthurasuk, Alexey Pronin, Jing Fan, Angel Ramirez-Trinidad, Ashley Cartwright, Daphiny Pottmaier, Omid Taheri, David Outevsky, Stanley Stepanic, Samuel Perry, Luke Askew, Raúl Adrián Huerta Rodríguez, Abdelkader Dendane, Sam Ali, Ricardo Lorena, Krishnamurthy Iyer, Sk Md Salauddin, Murat Islam, Juan Gonzalez, Josh Ducey, Russell Campbell, Maja Somrak, Vasilios Mavroudis, Eric Vergo, Juehang Qin, Benjámin Borbás, Eric Chu, Jack Lindsey, Anil Radhakrishnan, Antoine Jallon, I. M. J. McInnis, Alex Hoover, Sören Möller, Song Bian, John Lai, Tejal Patwardhan, Summer Yue, Alexandr Wang, Dan Hendrycks
763

Benchmarks zijn belangrijke tools voor het bijhouden van de snelle vooruitgang in de mogelijkheden van grote taalmodellen (LLM's). Echter, benchmarks houden geen gelijke tred wat betreft moeilijkheidsgraad: LLM's behalen nu meer dan 90\% nauwkeurigheid op populaire benchmarks zoals MMLU, wat de geïnformeerde meting van state-of-the-art LLM-mogelijkheden beperkt. Als reactie introduceren we Humanity's Last Exam (HLE), een multimodaal benchmark aan de grens van menselijke kennis, ontworpen als de laatste gesloten academische benchmark in zijn soort met een breed onderwerpbereik. HLE bestaat uit 3.000 vragen over tientallen onderwerpen, waaronder wiskunde, geesteswetenschappen en de natuurwetenschappen. HLE wordt wereldwijd ontwikkeld door vakexperts en bestaat uit meerkeuze- en korte-antwoordvragen die geschikt zijn voor geautomatiseerde beoordeling. Elke vraag heeft een bekende oplossing die ondubbelzinnig en gemakkelijk verifieerbaar is, maar niet snel via internet kan worden opgezocht. State-of-the-art LLM's tonen lage nauwkeurigheid en kalibratie op HLE, wat wijst op een aanzienlijke kloof tussen de huidige LLM-mogelijkheden en de expertise van mensen op gesloten academische vragen. Om onderzoek en beleidsvorming te informeren met een duidelijk begrip van de modelmogelijkheden, stellen we HLE openbaar beschikbaar op https://lastexam.ai.

Keten-van-Ophaling Versterkte Generatie
Chain-of-Retrieval Augmented Generation

Jan 24, 2025
Liang Wang, Haonan Chen, Nan Yang, Xiaolong Huang, Zhicheng Dou, Furu Wei
583

Dit artikel introduceert een benadering voor het trainen van o1-achtige RAG-modellen die relevante informatie stap voor stap ophalen en redeneren voordat het uiteindelijke antwoord wordt gegenereerd. Conventionele RAG-methoden voeren meestal een enkele ophaalstap uit vóór het generatieproces, wat hun effectiviteit beperkt bij het behandelen van complexe vragen als gevolg van onvolmaakte ophaalresultaten. In tegenstelling hiermee maakt onze voorgestelde methode, CoRAG (Chain-of-Retrieval Augmented Generation), het mogelijk voor het model om dynamisch de vraag te herformuleren op basis van de evoluerende toestand. Om CoRAG effectief te trainen, maken we gebruik van afwijzingssteekproeven om automatisch tussenliggende ophaalketens te genereren, waardoor bestaande RAG-datasets worden aangevuld die alleen het juiste eindantwoord verstrekken. Bij het testen stellen we verschillende decoderingsstrategieën voor om de testtijd van het model te schalen door de lengte en het aantal bemonsterde ophaalketens te regelen. Experimentele resultaten over meerdere benchmarks bevestigen de doeltreffendheid van CoRAG, met name bij meerstapsvraag-antwoordtaken, waar we meer dan 10 punten verbetering in de EM-score waarnemen in vergelijking met sterke baselines. Op de KILT-benchmark vestigt CoRAG een nieuwe state-of-the-art prestatie over een divers scala van kennisintensieve taken. Bovendien bieden we uitgebreide analyses om het schaalgedrag van CoRAG te begrijpen, waarbij we de basis leggen voor toekomstig onderzoek gericht op het ontwikkelen van feitelijke en gefundeerde basismodellen.

RealCritic: Naar een evaluatie van taalmodellen gericht op effectiviteit
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

Jan 24, 2025
Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
342

Kritieken zijn belangrijk voor het verbeteren van de prestaties van Grote Taalmodellen (GTM's), waardoor zowel zelfverbetering als constructieve feedback voor anderen mogelijk wordt door gebreken te identificeren en verbeteringen voor te stellen. Het evalueren van de kritiekcapaciteiten van GTM's vormt echter een aanzienlijke uitdaging vanwege de open aard van de taak. In dit werk introduceren we een nieuwe benchmark die is ontworpen om de kritiekcapaciteiten van GTM's te beoordelen. In tegenstelling tot bestaande benchmarks, die doorgaans functioneren op een open-loop manier, maakt onze benadering gebruik van een gesloten-lus methodologie die de kwaliteit van correcties beoordeelt die voortkomen uit kritieken. Bovendien omvat de benchmark functies zoals zelfkritiek, kruiskritiek en iteratieve kritiek, die cruciaal zijn voor het onderscheiden van de capaciteiten van geavanceerde redeneringsmodellen van meer klassieke modellen. We implementeren deze benchmark met behulp van acht uitdagende redeneertaken. We hebben verschillende interessante bevindingen. Ten eerste, ondanks het tonen van vergelijkbare prestaties in directe gedachtenganggeneratie, blijven klassieke GTM's aanzienlijk achter bij het op redenering gebaseerde model o1-mini in alle kritiekscenario's. Ten tweede, in zelfkritiek en iteratieve kritiekinstellingen kunnen klassieke GTM's zelfs onderpresteren ten opzichte van hun basiscapaciteiten. We hopen dat deze benchmark zal dienen als een waardevolle bron om toekomstige ontwikkelingen te begeleiden. De code en gegevens zijn beschikbaar op https://github.com/tangzhy/RealCritic.

Redundantieprincipes voor MLLM's benchmarks
Redundancy Principles for MLLMs Benchmarks

Jan 20, 2025
Zicheng Zhang, Xiangyu Zhao, Xinyu Fang, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Haodong Duan, Kai Chen, Guangtao Zhai
302

Met de snelle iteratie van Multi-modaliteit Grote Taalmodellen (MLLM's) en de evoluerende eisen van het vakgebied, is het aantal benchmarks dat jaarlijks wordt geproduceerd gestegen tot in de honderden. De snelle groei heeft onvermijdelijk geleid tot aanzienlijke redundantie tussen benchmarks. Daarom is het cruciaal om een stap terug te nemen en kritisch de huidige staat van redundantie te beoordelen en gerichte principes voor het construeren van effectieve MLLM-benchmarks voor te stellen. In dit artikel richten we ons op redundantie vanuit drie belangrijke perspectieven: 1) Redundantie van benchmark capaciteitsdimensies, 2) Redundantie in het aantal testvragen, en 3) Cross-benchmark redundantie binnen specifieke domeinen. Door de uitgebreide analyse van de prestaties van honderden MLLM's over meer dan 20 benchmarks, streven we ernaar kwantitatief te meten in welke mate redundantie aanwezig is in bestaande MLLM-evaluaties, waardevolle inzichten te bieden om de toekomstige ontwikkeling van MLLM-benchmarks te sturen, en strategieën aan te bieden om redundantie effectief te verfijnen en aan te pakken.

RL + Transformer = Een Algemeen Inzetbare Probleemoplosser
RL + Transformer = A General-Purpose Problem Solver

Jan 24, 2025
Micah Rentschler, Jesse Roberts
282

Wat als kunstmatige intelligentie niet alleen problemen kon oplossen waarvoor het is getraind, maar ook kon leren zichzelf te onderwijzen om nieuwe problemen op te lossen (d.w.z. meta-leren)? In dit onderzoek tonen we aan dat een vooraf getrainde transformer, verfijnd met versterkend leren over meerdere afleveringen, de vaardigheid ontwikkelt om problemen op te lossen die het nog nooit eerder is tegengekomen - een opkomende vaardigheid genaamd In-Context Reinforcement Learning (ICRL). Deze krachtige meta-leraar excelleert niet alleen in het oplossen van ongeziene omgevingen binnen de distributie met opmerkelijke steekproefefficiëntie, maar vertoont ook sterke prestaties in omgevingen buiten de distributie. Bovendien tonen we aan dat het robuustheid vertoont ten opzichte van de kwaliteit van zijn trainingsgegevens, gedragingen naadloos samenvoegt uit de context en zich aanpast aan niet-stationaire omgevingen. Deze gedragingen tonen aan dat een met RL getrainde transformer iteratief kan verbeteren op zijn eigen oplossingen, waardoor het een uitstekende algemene probleemoplosser is.

Herbelichtbare volledige lichaam Gaussische Codec avatars.
Relightable Full-Body Gaussian Codec Avatars

Jan 24, 2025
Shaofei Wang, Tomas Simon, Igor Santesteban, Timur Bagautdinov, Junxuan Li, Vasu Agrawal, Fabian Prada, Shoou-I Yu, Pace Nalbone, Matt Gramlich, Roman Lubachersky, Chenglei Wu, Javier Romero, Jason Saragih, Michael Zollhoefer, Andreas Geiger, Siyu Tang, Shunsuke Saito
102

Wij stellen Relightable Full-Body Gaussian Codec Avatars voor, een nieuwe benadering voor het modelleren van relightable full-body avatars met fijne details, waaronder het gezicht en de handen. De unieke uitdaging bij het relighten van full-body avatars ligt in de grote vervormingen veroorzaakt door lichaamsarticulatie en de resulterende impact op het uiterlijk door lichttransport. Veranderingen in lichaamshouding kunnen de oriëntatie van lichaamsoppervlakken ten opzichte van lichten drastisch veranderen, wat zowel lokale uiterlijke veranderingen veroorzaakt door veranderingen in lokale lichttransportfuncties, als niet-lokale veranderingen door occlusie tussen lichaamsdelen. Om hiermee om te gaan, ontleden we het lichttransport in lokale en niet-lokale effecten. Lokale uiterlijke veranderingen worden gemodelleerd met behulp van leerbaar zonale harmonischen voor diffuse stralingsreflectie. In tegenstelling tot sferische harmonischen zijn zonale harmonischen zeer efficiënt om te roteren bij articulatie. Dit stelt ons in staat om diffuse stralingsreflectie te leren in een lokaal coördinatenstelsel, waardoor we de lokale stralingsreflectie kunnen scheiden van de articulatie van het lichaam. Om niet-lokale uiterlijke veranderingen te verwerken, introduceren we een schaduwnetwerk dat schaduwen voorspelt op basis van vooraf berekende inkomende stralingsdichtheid op een basismesh. Dit vergemakkelijkt het leren van niet-lokale schaduwen tussen de lichaamsdelen. Ten slotte gebruiken we een uitgestelde shadingbenadering om specular stralingsreflectie te modelleren en reflecties en hooglichten zoals oogreflecties beter vast te leggen. We tonen aan dat onze benadering succesvol zowel het lokale als niet-lokale lichttransport modelleert dat nodig is voor relightable full-body avatars, met een superieure generalisatiecapaciteit onder nieuwe verlichtingsomstandigheden en ongeziene poses.

Vraagbeantwoording op medische dossiers van patiënten met privé fijnafgestemde LLM's.
Question Answering on Patient Medical Records with Private Fine-Tuned LLMs

Jan 23, 2025
Sara Kothari, Ayush Gupta
92

Gezondheidszorgsystemen genereren voortdurend enorme hoeveelheden elektronische patiëntendossiers (EHR's), die doorgaans worden opgeslagen in de standaard voor Snelle Gezondheidsinteroperabiliteit Resources (FHIR). Ondanks de overvloed aan informatie in deze dossiers, maken hun complexiteit en omvang het moeilijk voor gebruikers om cruciale gezondheidsinzichten op te halen en te interpreteren. Recente ontwikkelingen in Grote Taalmodellen (LLM's) bieden een oplossing door semantische vraagbeantwoording (QA) over medische gegevens mogelijk te maken, waardoor gebruikers effectiever kunnen omgaan met hun gezondheidsdossiers. Het waarborgen van privacy en naleving vereist echter implementaties van LLM's aan de rand en privé. Dit artikel stelt een nieuwe benadering voor van semantische QA over EHR's door eerst de meest relevante FHIR-bronnen voor een gebruikersquery te identificeren (Taak1) en vervolgens de query te beantwoorden op basis van deze bronnen (Taak2). We onderzoeken de prestaties van privé gehoste, fijnafgestemde LLM's en evalueren ze tegen benchmarkmodellen zoals GPT-4 en GPT-4o. Onze resultaten tonen aan dat fijnafgestemde LLM's, hoewel 250x kleiner in omvang, GPT-4-familiemodellen overtreffen met 0,55% in F1-score op Taak1 en 42% op de Meteor-taak in Taak2. Daarnaast onderzoeken we geavanceerde aspecten van LLM-gebruik, waaronder sequentieel fijnafstemmen, modelzelfevaluatie (narcistische evaluatie) en de impact van trainingsgegevensomvang op prestaties. De modellen en datasets zijn hier beschikbaar: https://huggingface.co/genloop

GeoPixel: Pixelgronding van een groot multimodaal model in remote sensing
GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing

Jan 23, 2025
Akashah Shabbir, Mohammed Zumri, Mohammed Bennamoun, Fahad S. Khan, Salman Khan
82

Recente ontwikkelingen in grote multimodale modellen (LMM's) hebben fijngemalen grounding erkend als een essentiële factor voor visueel begrip en dialoog. Echter, de voordelen van dergelijke representatie in LMM's zijn beperkt tot het natuurlijke beelddomein, en deze modellen presteren slecht voor remote sensing (RS). Het afwijkende bovenaanzicht, schaalvariatie en aanwezigheid van kleine objecten in hoogwaardige RS-beelden vormen een unieke uitdaging voor regionaal begrip. Bovendien wordt de ontwikkeling van de grounding-conversatiecapaciteit van LMM's binnen RS belemmerd door het gebrek aan gedetailleerde, op RS-domein specifieke, geaarde gegevens. Om deze beperkingen aan te pakken, stellen we GeoPixel voor - de eerste end-to-end hoge resolutie RS-LMM die pixelniveau grounding ondersteunt. Deze capaciteit maakt fijngemeten visuele perceptie mogelijk door het genereren van geïnterlinieerde maskers in gesprekken. GeoPixel ondersteunt tot 4K HD-resolutie in elk aspectratio, ideaal voor hoogwaardige RS-beeldanalyse. Om de grounded conversatiegeneratie (GCG) in RS-beelden te ondersteunen, stellen we een visueel geaarde dataset GeoPixelD samen via een semi-geautomatiseerd proces dat gebruikmaakt van set-of-marks prompting en ruimtelijke prioriteiten die zijn afgestemd op RS-gegevens om het datageneratieproces methodisch te controleren. GeoPixel toont superieure prestaties in pixelniveau begrip, waarbij bestaande LMM's worden overtroffen in zowel enkelvoudige als meervoudige segmentatietaken. Onze methodologische ablatiestudies bevestigen de effectiviteit van elk onderdeel in de algehele architectuur. Onze code en gegevens zullen openbaar worden vrijgegeven.

Multiview equivariantie verbetert het begrip van driedimensionale overeenkomsten met minimale fijnafstemming van kenmerken.
Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning

Nov 29, 2024
Yang You, Yixin Li, Congyue Deng, Yue Wang, Leonidas Guibas
62

Visie foundation modellen, met name de ViT-familie, hebben de beeldbegrip gerevolutioneerd door rijke semantische kenmerken te bieden. Echter, ondanks hun succes in 2D begrip, zijn hun vermogens om 3D ruimtelijke relaties te begrijpen nog steeds onduidelijk. In dit werk evalueren en verbeteren we het 3D bewustzijn van op ViT gebaseerde modellen. We beginnen met systematisch hun vermogen te beoordelen om 3D equivariante kenmerken te leren, waarbij we specifiek de consistentie van semantische insluitingen over verschillende gezichtspunten onderzoeken. Onze bevindingen geven aan dat verbeterde 3D equivariantie leidt tot betere prestaties op verschillende downstream taken, waaronder houdingschatting, tracking en semantische overdracht. Voortbouwend op deze inzichten stellen we een eenvoudige maar effectieve fine-tuning strategie voor op basis van 3D overeenkomsten, die aanzienlijk het begrip van 3D overeenkomsten van bestaande visiemodellen verbetert. Opmerkelijk is dat zelfs fine-tuning op een enkel object voor slechts één iteratie resulteert in aanzienlijke prestatieverbeteringen. Alle code en bronnen zullen openbaar beschikbaar worden gesteld ter ondersteuning van verdere vooruitgang in 3D-bewuste visiemodellen. Onze code is beschikbaar op https://github.com/qq456cvb/3DCorrEnhance.

CatV2TON: Het temmen van Diffusion Transformers voor op visie gebaseerde virtuele pasvorm met Temporale Concatenatie
CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation

Jan 20, 2025
Zheng Chong, Wenqing Zhang, Shiyue Zhang, Jun Zheng, Xiao Dong, Haoxiang Li, Yiling Wu, Dongmei Jiang, Xiaodan Liang
53

Virtual try-on (VTON) technologie heeft aandacht gekregen vanwege het potentieel om online winkelen te transformeren door realistische kledingvisualisatie van afbeeldingen en video's mogelijk te maken. Echter, de meeste bestaande methoden hebben moeite om hoogwaardige resultaten te behalen bij zowel afbeelding- als videotry-on taken, vooral in lange videoscenario's. In dit werk introduceren we CatV2TON, een eenvoudige en effectieve op visie gebaseerde virtuele try-on (V2TON) methode die zowel afbeelding- als videotry-on taken ondersteunt met een enkel diffusie-transformermodel. Door kleding- en persoonsinvoer temporeel te concatenaten en te trainen op een mix van afbeeldings- en videodatasets, bereikt CatV2TON robuuste try-on prestaties in zowel statische als dynamische omgevingen. Voor efficiënte generatie van lange video's stellen we een overlappende clip-gebaseerde inferentiestrategie voor die sequentiële framebegeleiding gebruikt en Adaptieve Clip Normalisatie (AdaCN) om temporele consistentie te behouden met verminderde resource-eisen. We presenteren ook ViViD-S, een verfijnde videotry-on dataset, bereikt door het filteren van achterwaarts gerichte frames en het toepassen van 3D-masker smoothing voor verbeterde temporele consistentie. Uitgebreide experimenten tonen aan dat CatV2TON bestaande methoden overtreft in zowel afbeelding- als videotry-on taken, en biedt een veelzijdige en betrouwbare oplossing voor realistische virtuele try-ons in diverse scenario's.

AdaIR: Adaptieve alles-in-één beeldherstel via frequentiedetectie en modulatie
AdaIR: Adaptive All-in-One Image Restoration via Frequency Mining and Modulation

Mar 21, 2024
Yuning Cui, Syed Waqas Zamir, Salman Khan, Alois Knoll, Mubarak Shah, Fahad Shahbaz Khan
42

Bij het proces van beeldverwerving worden vaak verschillende vormen van degradatie geïntroduceerd, zoals ruis, waas en regen. Deze degradaties ontstaan doorgaans door de inherente beperkingen van camera's of ongunstige omgevingsomstandigheden. Om schone beelden te herstellen vanuit verslechterde versies, zijn tal van gespecialiseerde herstelmethoden ontwikkeld, elk gericht op een specifiek type degradatie. Onlangs hebben alles-in-één algoritmes aanzienlijke aandacht gekregen door verschillende soorten degradaties binnen één model aan te pakken zonder voorafgaande informatie over het type degradatie van de invoer te vereisen. Echter, deze methoden werken uitsluitend in het ruimtelijke domein en gaan niet in op de verschillende frequentievariaties die inherent zijn aan verschillende degradatietypes. Om deze lacune aan te pakken, stellen wij een adaptief alles-in-één beeldherstelnetwerk voor op basis van frequentie-analyse en modulatie. Onze aanpak is gemotiveerd door de observatie dat verschillende degradatietypes de beeldinhoud beïnvloeden op verschillende frequentie-subbanden, wat verschillende behandelingen vereist voor elk hersteltaken. Specifiek halen we eerst lage- en hoge-frequentie informatie uit de invoerkenmerken, geleid door de adaptief ontkoppelde spectra van het verslechterde beeld. De geëxtraheerde kenmerken worden vervolgens gemoduleerd door een bidirectionele operator om interacties tussen verschillende frequentiecomponenten te vergemakkelijken. Tenslotte worden de gemoduleerde kenmerken samengevoegd met de oorspronkelijke invoer voor een geleid herstelproces. Met deze aanpak bereikt het model adaptieve reconstructie door de informatieve frequentie-subbanden te benadrukken volgens verschillende invoer degradaties. Uitgebreide experimenten tonen aan dat de voorgestelde methode state-of-the-art prestaties behaalt op verschillende beeldhersteltaken, waaronder denoising, dehazing, deraining, motion deblurring en low-light beeldverbetering. Onze code is beschikbaar op https://github.com/c-yn/AdaIR.

Denoising als Aanpassing: Ruimte-ruis Domein Aanpassing voor Beeldherstel
Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration

Jun 26, 2024
Kang Liao, Zongsheng Yue, Zhouxia Wang, Chen Change Loy
32

Hoewel op machine learning gebaseerde methoden voor beeldherstel aanzienlijke vooruitgang hebben geboekt, hebben ze nog steeds moeite met beperkte generalisatie naar echte scenario's vanwege de aanzienlijke domeinverschillen die worden veroorzaakt door training op synthetische gegevens. Bestaande methoden pakken dit probleem aan door data synthese pipelines te verbeteren, de degradatiekernels te schatten, diep intern leren toe te passen, en domeinaanpassing en regulering uit te voeren. Vorige domeinaanpassingsmethoden hebben geprobeerd het domeinverschil te overbruggen door domein-invariante kennis te leren in zowel kenmerk- als pixelruimte. Deze technieken hebben echter vaak moeite om uit te breiden naar laag-niveau visietaken binnen een stabiel en compact kader. In dit artikel laten we zien dat het mogelijk is om domeinaanpassing uit te voeren via de ruimte van ruis met behulp van diffusiemodellen. In het bijzonder, door gebruik te maken van de unieke eigenschap van hoe hulpconditionele invoer de meerstaps denoising proces beïnvloedt, leiden we een betekenisvolle diffusieverlies af die het herstelmodel begeleidt bij het geleidelijk afstemmen van zowel herstelde synthetische als echte uitvoer op een doeldistributie. We verwijzen naar deze methode als denoising als aanpassing. Om shortcuts tijdens gezamenlijke training te voorkomen, presenteren we cruciale strategieën zoals kanaal-shuffling laag en residu-swap contrastief leren in het diffusiemodel. Ze vervagen impliciet de grenzen tussen geconditioneerde synthetische en echte gegevens en voorkomen dat het model vertrouwt op gemakkelijk herkenbare kenmerken. Experimentele resultaten op drie klassieke beeldhersteltaken, namelijk denoising, deblurring en deraining, tonen de effectiviteit van de voorgestelde methode aan.

Jan 24
Jan 27
Jan 28