ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

Die letzte Prüfung der Menschheit
Humanity's Last Exam

Jan 24, 2025
Long Phan, Alice Gatti, Ziwen Han, Nathaniel Li, Josephina Hu, Hugh Zhang, Sean Shi, Michael Choi, Anish Agrawal, Arnav Chopra, Adam Khoja, Ryan Kim, Jason Hausenloy, Oliver Zhang, Mantas Mazeika, Daron Anderson, Tung Nguyen, Mobeen Mahmood, Fiona Feng, Steven Y. Feng, Haoran Zhao, Michael Yu, Varun Gangal, Chelsea Zou, Zihan Wang, Jessica P. Wang, Pawan Kumar, Oleksandr Pokutnyi, Robert Gerbicz, Serguei Popov, John-Clark Levin, Mstyslav Kazakov, Johannes Schmitt, Geoff Galgon, Alvaro Sanchez, Yongki Lee, Will Yeadon, Scott Sauers, Marc Roth, Chidozie Agu, Søren Riis, Fabian Giska, Saiteja Utpala, Zachary Giboney, Gashaw M. Goshu, Joan of Arc Xavier, Sarah-Jane Crowson, Mohinder Maheshbhai Naiya, Noah Burns, Lennart Finke, Zerui Cheng, Hyunwoo Park, Francesco Fournier-Facio, John Wydallis, Mark Nandor, Ankit Singh, Tim Gehrunger, Jiaqi Cai, Ben McCarty, Darling Duclosel, Jungbae Nam, Jennifer Zampese, Ryan G. Hoerr, Aras Bacho, Gautier Abou Loume, Abdallah Galal, Hangrui Cao, Alexis C Garretson, Damien Sileo, Qiuyu Ren, Doru Cojoc, Pavel Arkhipov, Usman Qazi, Lianghui Li, Sumeet Motwani, Christian Schroeder de Witt, Edwin Taylor, Johannes Veith, Eric Singer, Taylor D. Hartman, Paolo Rissone, Jaehyeok Jin, Jack Wei Lun Shi, Chris G. Willcocks, Joshua Robinson, Aleksandar Mikov, Ameya Prabhu, Longke Tang, Xavier Alapont, Justine Leon Uro, Kevin Zhou, Emily de Oliveira Santos, Andrey Pupasov Maksimov, Edward Vendrow, Kengo Zenitani, Julien Guillod, Yuqi Li, Joshua Vendrow, Vladyslav Kuchkin, Ng Ze-An, Pierre Marion, Denis Efremov, Jayson Lynch, Kaiqu Liang, Andrew Gritsevskiy, Dakotah Martinez, Ben Pageler, Nick Crispino, Dimitri Zvonkine, Natanael Wildner Fraga, Saeed Soori, Ori Press, Henry Tang, Julian Salazar, Sean R. Green, Lina Brüssel, Moon Twayana, Aymeric Dieuleveut, T. Ryan Rogers, Wenjin Zhang, Bikun Li, Jinzhou Yang, Arun Rao, Gabriel Loiseau, Mikhail Kalinin, Marco Lukas, Ciprian Manolescu, Subrata Mishra, Ariel Ghislain Kemogne Kamdoum, Tobias Kreiman, Tad Hogg, Alvin Jin, Carlo Bosio, Gongbo Sun, Brian P Coppola, Tim Tarver, Haline Heidinger, Rafael Sayous, Stefan Ivanov, Joseph M Cavanagh, Jiawei Shen, Joseph Marvin Imperial, Philippe Schwaller, Shaipranesh Senthilkuma, Andres M Bran, Ali Dehghan, Andres Algaba, Brecht Verbeken, David Noever, Ragavendran P V, Lisa Schut, Ilia Sucholutsky, Evgenii Zheltonozhskii, Derek Lim, Richard Stanley, Shankar Sivarajan, Tong Yang, John Maar, Julian Wykowski, Martí Oller, Jennifer Sandlin, Anmol Sahu, Yuzheng Hu, Sara Fish, Nasser Heydari, Archimedes Apronti, Kaivalya Rawal, Tobias Garcia Vilchis, Yuexuan Zu, Martin Lackner, James Koppel, Jeremy Nguyen, Daniil S. Antonenko, Steffi Chern, Bingchen Zhao, Pierrot Arsene, Alan Goldfarb, Sergey Ivanov, Rafał Poświata, Chenguang Wang, Daofeng Li, Donato Crisostomi, Andrea Achilleos, Benjamin Myklebust, Archan Sen, David Perrella, Nurdin Kaparov, Mark H Inlow, Allen Zang, Elliott Thornley, Daniil Orel, Vladislav Poritski, Shalev Ben-David, Zachary Berger, Parker Whitfill, Michael Foster, Daniel Munro, Linh Ho, Dan Bar Hava, Aleksey Kuchkin, Robert Lauff, David Holmes, Frank Sommerhage, Keith Schneider, Zakayo Kazibwe, Nate Stambaugh, Mukhwinder Singh, Ilias Magoulas, Don Clarke, Dae Hyun Kim, Felipe Meneguitti Dias, Veit Elser, Kanu Priya Agarwal, Victor Efren Guadarrama Vilchis, Immo Klose, Christoph Demian, Ujjwala Anantheswaran, Adam Zweiger, Guglielmo Albani, Jeffery Li, Nicolas Daans, Maksim Radionov, Václav Rozhoň, Ziqiao Ma, Christian Stump, Mohammed Berkani, Jacob Platnick, Volodymyr Nevirkovets, Luke Basler, Marco Piccardo, Ferenc Jeanplong, Niv Cohen, Josef Tkadlec, Paul Rosu, Piotr Padlewski, Stanislaw Barzowski, Kyle Montgomery, Aline Menezes, Arkil Patel, Zixuan Wang, Jamie Tucker-Foltz, Jack Stade, Tom Goertzen, Fereshteh Kazemi, Jeremiah Milbauer, John Arnold Ambay, Abhishek Shukla, Yan Carlos Leyva Labrador, Alan Givré, Hew Wolff, Vivien Rossbach, Muhammad Fayez Aziz, Younesse Kaddar, Yanxu Chen, Robin Zhang, Jiayi Pan, Antonio Terpin, Niklas Muennighoff, Hailey Schoelkopf, Eric Zheng, Avishy Carmi, Adam Jones, Jainam Shah, Ethan D. L. Brown, Kelin Zhu, Max Bartolo, Richard Wheeler, Andrew Ho, Shaul Barkan, Jiaqi Wang, Martin Stehberger, Egor Kretov, Kaustubh Sridhar, Zienab EL-Wasif, Anji Zhang, Daniel Pyda, Joanna Tam, David M. Cunningham, Vladimir Goryachev, Demosthenes Patramanis, Michael Krause, Andrew Redenti, Daniel Bugas, David Aldous, Jesyin Lai, Shannon Coleman, Mohsen Bahaloo, Jiangnan Xu, Sangwon Lee, Sandy Zhao, Ning Tang, Michael K. Cohen, Micah Carroll, Orr Paradise, Jan Hendrik Kirchner, Stefan Steinerberger, Maksym Ovchynnikov, Jason O. Matos, Adithya Shenoy, Benedito Alves de Oliveira Junior, Michael Wang, Yuzhou Nie, Paolo Giordano, Philipp Petersen, Anna Sztyber-Betley, Priti Shukla, Jonathan Crozier, Antonella Pinto, Shreyas Verma, Prashant Joshi, Zheng-Xin Yong, Allison Tee, Jérémy Andréoletti, Orion Weller, Raghav Singhal, Gang Zhang, Alexander Ivanov, Seri Khoury, Hamid Mostaghimi, Kunvar Thaman, Qijia Chen, Tran Quoc Khánh, Jacob Loader, Stefano Cavalleri, Hannah Szlyk, Zachary Brown, Jonathan Roberts, William Alley, Kunyang Sun, Ryan Stendall, Max Lamparth, Anka Reuel, Ting Wang, Hanmeng Xu, Sreenivas Goud Raparthi, Pablo Hernández-Cámara, Freddie Martin, Dmitry Malishev, Thomas Preu, Tomek Korbak, Marcus Abramovitch, Dominic Williamson, Ziye Chen, Biró Bálint, M Saiful Bari, Peyman Kassani, Zihao Wang, Behzad Ansarinejad, Laxman Prasad Goswami, Yewen Sun, Hossam Elgnainy, Daniel Tordera, George Balabanian, Earth Anderson, Lynna Kvistad, Alejandro José Moyano, Rajat Maheshwari, Ahmad Sakor, Murat Eron, Isaac C. McAlister, Javier Gimenez, Innocent Enyekwe, Andrew Favre D. O., Shailesh Shah, Xiaoxiang Zhou, Firuz Kamalov, Ronald Clark, Sherwin Abdoli, Tim Santens, Khalida Meer, Harrison K Wang, Kalyan Ramakrishnan, Evan Chen, Alessandro Tomasiello, G. Bruno De Luca, Shi-Zhuo Looi, Vinh-Kha Le, Noam Kolt, Niels Mündler, Avi Semler, Emma Rodman, Jacob Drori, Carl J Fossum, Milind Jagota, Ronak Pradeep, Honglu Fan, Tej Shah, Jonathan Eicher, Michael Chen, Kushal Thaman, William Merrill, Carter Harris, Jason Gross, Ilya Gusev, Asankhaya Sharma, Shashank Agnihotri, Pavel Zhelnov, Siranut Usawasutsakorn, Mohammadreza Mofayezi, Sergei Bogdanov, Alexander Piperski, Marc Carauleanu, David K. Zhang, Dylan Ler, Roman Leventov, Ignat Soroko, Thorben Jansen, Pascal Lauer, Joshua Duersch, Vage Taamazyan, Wiktor Morak, Wenjie Ma, William Held, Tran Đuc Huy, Ruicheng Xian, Armel Randy Zebaze, Mohanad Mohamed, Julian Noah Leser, Michelle X Yuan, Laila Yacar, Johannes Lengler, Hossein Shahrtash, Edson Oliveira, Joseph W. Jackson, Daniel Espinosa Gonzalez, Andy Zou, Muthu Chidambaram, Timothy Manik, Hector Haffenden, Dashiell Stander, Ali Dasouqi, Alexander Shen, Emilien Duc, Bita Golshani, David Stap, Mikalai Uzhou, Alina Borisovna Zhidkovskaya, Lukas Lewark, Mátyás Vincze, Dustin Wehr, Colin Tang, Zaki Hossain, Shaun Phillips, Jiang Muzhen, Fredrik Ekström, Angela Hammon, Oam Patel, Nicolas Remy, Faraz Farhidi, George Medley, Forough Mohammadzadeh, Madellene Peñaflor, Haile Kassahun, Alena Friedrich, Claire Sparrow, Taom Sakal, Omkar Dhamane, Ali Khajegili Mirabadi, Eric Hallman, Mike Battaglia, Mohammad Maghsoudimehrabani, Hieu Hoang, Alon Amit, Dave Hulbert, Roberto Pereira, Simon Weber, Stephen Mensah, Nathan Andre, Anton Peristyy, Chris Harjadi, Himanshu Gupta, Stephen Malina, Samuel Albanie, Will Cai, Mustafa Mehkary, Frank Reidegeld, Anna-Katharina Dick, Cary Friday, Jasdeep Sidhu, Wanyoung Kim, Mariana Costa, Hubeyb Gurdogan, Brian Weber, Harsh Kumar, Tong Jiang, Arunim Agarwal, Chiara Ceconello, Warren S. Vaz, Chao Zhuang, Haon Park, Andrew R. Tawfeek, Daattavya Aggarwal, Michael Kirchhof, Linjie Dai, Evan Kim, Johan Ferret, Yuzhou Wang, Minghao Yan, Krzysztof Burdzy, Lixin Zhang, Antonio Franca, Diana T. Pham, Kang Yong Loh, Joshua Robinson, Shreen Gul, Gunjan Chhablani, Zhehang Du, Adrian Cosma, Colin White, Robin Riblet, Prajvi Saxena, Jacob Votava, Vladimir Vinnikov, Ethan Delaney, Shiv Halasyamani, Syed M. Shahid, Jean-Christophe Mourrat, Lavr Vetoshkin, Renas Bacho, Vincent Ginis, Aleksandr Maksapetyan, Florencia de la Rosa, Xiuyu Li, Guillaume Malod, Leon Lang, Julien Laurendeau, Fatimah Adesanya, Julien Portier, Lawrence Hollom, Victor Souza, Yuchen Anna Zhou, Yiğit Yalın, Gbenga Daniel Obikoya, Luca Arnaboldi, Rai, Filippo Bigi, Kaniuar Bacho, Pierre Clavier, Gabriel Recchia, Mara Popescu, Nikita Shulga, Ngefor Mildred Tanwie, Thomas C. H. Lux, Ben Rank, Colin Ni, Alesia Yakimchyk, Huanxu, Liu, Olle Häggström, Emil Verkama, Himanshu Narayan, Hans Gundlach, Leonor Brito-Santana, Brian Amaro, Vivek Vajipey, Rynaa Grover, Yiyang Fan, Gabriel Poesia Reis e Silva, Linwei Xin, Yosi Kratish, Jakub Łucki, Wen-Ding Li, Justin Xu, Kevin Joseph Scaria, Freddie Vargus, Farzad Habibi, Long, Lian, Emanuele Rodolà, Jules Robins, Vincent Cheng, Declan Grabb, Ida Bosio, Tony Fruhauff, Ido Akov, Eve J. Y. Lo, Hao Qi, Xi Jiang, Ben Segev, Jingxuan Fan, Sarah Martinson, Erik Y. Wang, Kaylie Hausknecht, Michael P. Brenner, Mao Mao, Yibo Jiang, Xinyu Zhang, David Avagian, Eshawn Jessica Scipio, Muhammad Rehan Siddiqi, Alon Ragoler, Justin Tan, Deepakkumar Patil, Rebeka Plecnik, Aaron Kirtland, Roselynn Grace Montecillo, Stephane Durand, Omer Faruk Bodur, Zahra Adoul, Mohamed Zekry, Guillaume Douville, Ali Karakoc, Tania C. B. Santos, Samir Shamseldeen, Loukmane Karim, Anna Liakhovitskaia, Nate Resman, Nicholas Farina, Juan Carlos Gonzalez, Gabe Maayan, Sarah Hoback, Rodrigo De Oliveira Pena, Glen Sherman, Hodjat Mariji, Rasoul Pouriamanesh, Wentao Wu, Gözdenur Demir, Sandra Mendoza, Ismail Alarab, Joshua Cole, Danyelle Ferreira, Bryan Johnson, Hsiaoyun Milliron, Mohammad Safdari, Liangti Dai, Siriphan Arthornthurasuk, Alexey Pronin, Jing Fan, Angel Ramirez-Trinidad, Ashley Cartwright, Daphiny Pottmaier, Omid Taheri, David Outevsky, Stanley Stepanic, Samuel Perry, Luke Askew, Raúl Adrián Huerta Rodríguez, Abdelkader Dendane, Sam Ali, Ricardo Lorena, Krishnamurthy Iyer, Sk Md Salauddin, Murat Islam, Juan Gonzalez, Josh Ducey, Russell Campbell, Maja Somrak, Vasilios Mavroudis, Eric Vergo, Juehang Qin, Benjámin Borbás, Eric Chu, Jack Lindsey, Anil Radhakrishnan, Antoine Jallon, I. M. J. McInnis, Alex Hoover, Sören Möller, Song Bian, John Lai, Tejal Patwardhan, Summer Yue, Alexandr Wang, Dan Hendrycks
753

Benchmarks sind wichtige Werkzeuge zur Verfolgung der schnellen Fortschritte bei den Fähigkeiten großer Sprachmodelle (LLMs). Allerdings halten Benchmarks nicht mit der Schwierigkeit Schritt: LLMs erreichen mittlerweile über 90\% Genauigkeit bei beliebten Benchmarks wie MMLU, was die informierte Messung der modernsten LLM-Fähigkeiten einschränkt. Als Reaktion darauf führen wir Humanity's Last Exam (HLE) ein, einen multimodalen Benchmark an der Grenze des menschlichen Wissens, der als abschließender geschlossener akademischer Benchmark seiner Art mit breiter Fachabdeckung konzipiert ist. HLE besteht aus 3.000 Fragen zu Dutzenden von Themen, darunter Mathematik, Geisteswissenschaften und Naturwissenschaften. HLE wird weltweit von Fachexperten entwickelt und besteht aus Multiple-Choice- und Kurzantwortfragen, die für die automatisierte Bewertung geeignet sind. Jede Frage hat eine bekannte Lösung, die eindeutig und leicht überprüfbar ist, aber nicht schnell über Internetrecherche beantwortet werden kann. Modernste LLMs zeigen eine geringe Genauigkeit und Kalibrierung bei HLE, was eine signifikante Kluft zwischen den aktuellen LLM-Fähigkeiten und der Expertengrenze des Menschen bei geschlossenen akademischen Fragen aufzeigt. Um Forschung und politische Entscheidungsfindung auf der Grundlage eines klaren Verständnisses der Modellfähigkeiten zu unterstützen, veröffentlichen wir HLE öffentlich unter https://lastexam.ai.

Generierung mit erweitertem Abrufkettenmodell
Chain-of-Retrieval Augmented Generation

Jan 24, 2025
Liang Wang, Haonan Chen, Nan Yang, Xiaolong Huang, Zhicheng Dou, Furu Wei
593

Dieses Paper stellt einen Ansatz zur Schulung von o1-ähnlichen RAG-Modellen vor, die relevante Informationen schrittweise abrufen und begründen, bevor sie die endgültige Antwort generieren. Herkömmliche RAG-Methoden führen in der Regel einen einzigen Abrufschritt vor dem Generierungsprozess durch, was ihre Wirksamkeit bei der Bearbeitung komplexer Abfragen aufgrund unvollkommener Abrufergebnisse einschränkt. Im Gegensatz dazu ermöglicht unsere vorgeschlagene Methode, CoRAG (Chain-of-Retrieval Augmented Generation), dem Modell, die Abfrage basierend auf dem sich entwickelnden Zustand dynamisch umzuformulieren. Um CoRAG effektiv zu trainieren, nutzen wir Ablehnungsabtastung, um automatisch Zwischenabrufketten zu generieren und bestehende RAG-Datensätze zu erweitern, die nur die korrekte endgültige Antwort liefern. Zur Testzeit schlagen wir verschiedene Dekodierungsstrategien vor, um die Testzeitberechnung des Modells zu skalieren, indem wir die Länge und Anzahl der abgetasteten Abrufketten steuern. Experimentelle Ergebnisse über mehrere Benchmarks bestätigen die Wirksamkeit von CoRAG, insbesondere bei Frage-Antwort-Aufgaben mit mehreren Schritten, wo wir im Vergleich zu starken Baselines eine Verbesserung des EM-Scores um mehr als 10 Punkte beobachten. Auf dem KILT-Benchmark etabliert CoRAG eine neue Bestleistung über eine vielfältige Palette von wissensintensiven Aufgaben. Darüber hinaus bieten wir umfassende Analysen an, um das Skalierungsverhalten von CoRAG zu verstehen und so die Grundlage für zukünftige Forschung zur Entwicklung von faktischen und fundierten Grundlagenmodellen zu legen.

RealCritic: Auf dem Weg zur Evaluation von Sprachmodellen basierend auf Effektivität
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

Jan 24, 2025
Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
342

Kritiken sind wichtig zur Verbesserung der Leistung von Large Language Models (LLMs), die sowohl Selbstverbesserung als auch konstruktives Feedback für andere ermöglichen, indem sie Mängel identifizieren und Verbesserungen vorschlagen. Die Bewertung der Kritikfähigkeiten von LLMs stellt jedoch aufgrund der offenen Natur der Aufgabe eine bedeutende Herausforderung dar. In dieser Arbeit stellen wir einen neuen Benchmark vor, der entwickelt wurde, um die Kritikfähigkeiten von LLMs zu bewerten. Im Gegensatz zu bestehenden Benchmarks, die typischerweise in einer offenen Schleife funktionieren, verwendet unser Ansatz eine geschlossene Methodik, die die Qualität der Korrekturen bewertet, die aus Kritiken generiert werden. Darüber hinaus beinhaltet der Benchmark Funktionen wie Selbstkritik, Kreuzkritik und iterative Kritik, die entscheidend sind, um die Fähigkeiten von fortgeschrittenen Denkmodellen von klassischeren Modellen zu unterscheiden. Wir implementieren diesen Benchmark anhand von acht anspruchsvollen Denkaufgaben. Wir haben mehrere interessante Ergebnisse. Erstens, obwohl klassische LLMs eine vergleichbare Leistung bei der direkten Gedankengenerierung aufweisen, hinken sie in allen Kritikszenarien signifikant hinter dem auf fortgeschrittenem Denken basierenden Modell o1-mini zurück. Zweitens können klassische LLMs in den Einstellungen für Selbstkritik und iterative Kritik sogar im Vergleich zu ihren Grundfähigkeiten unterdurchschnittlich abschneiden. Wir hoffen, dass dieser Benchmark als wertvolle Ressource dienen wird, um zukünftige Fortschritte zu lenken. Der Code und die Daten sind verfügbar unter https://github.com/tangzhy/RealCritic.

Redundanzprinzipien für Benchmarktests von mehrsprachigen Sprachmodellen mit großem Maßstab
Redundancy Principles for MLLMs Benchmarks

Jan 20, 2025
Zicheng Zhang, Xiangyu Zhao, Xinyu Fang, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Haodong Duan, Kai Chen, Guangtao Zhai
302

Mit der schnellen Iteration von Multi-Modalen Großen Sprachmodellen (MLLMs) und den sich entwickelnden Anforderungen des Feldes ist die Anzahl der jährlich erstellten Benchmarks auf Hunderte angestiegen. Das rasche Wachstum hat zwangsläufig zu erheblicher Redundanz unter den Benchmarks geführt. Daher ist es entscheidend, einen Schritt zurückzutreten, den aktuellen Stand der Redundanz kritisch zu bewerten und gezielte Prinzipien für die Konstruktion effektiver MLLM-Benchmarks vorzuschlagen. In diesem Paper konzentrieren wir uns auf Redundanz aus drei wesentlichen Perspektiven: 1) Redundanz der Benchmark-Fähigkeitsdimensionen, 2) Redundanz in der Anzahl der Testfragen und 3) Cross-Benchmark-Redundanz innerhalb spezifischer Domänen. Durch die umfassende Analyse von Hunderten von MLLMs-Leistungen über mehr als 20 Benchmarks hinweg zielen wir darauf ab, das Ausmaß der Redundanz in bestehenden MLLM-Evaluationen quantitativ zu messen, wertvolle Einblicke zur Leitung der zukünftigen Entwicklung von MLLM-Benchmarks zu bieten und Strategien zur effektiven Überarbeitung und Bewältigung von Redundanzproblemen anzubieten.

RL + Transformer = Ein Allzweck-Problemlöser
RL + Transformer = A General-Purpose Problem Solver

Jan 24, 2025
Micah Rentschler, Jesse Roberts
282

Was wäre, wenn künstliche Intelligenz nicht nur Probleme lösen könnte, für die sie trainiert wurde, sondern auch lernen könnte, sich selbst beizubringen, neue Probleme zu lösen (d. h. Meta-Lernen)? In dieser Studie zeigen wir, dass ein vorab trainierter Transformer, der mit Verstärkungslernen über mehrere Episoden feinabgestimmt wurde, die Fähigkeit entwickelt, Probleme zu lösen, die ihm zuvor noch nie begegnet sind - eine aufkommende Fähigkeit namens In-Context Reinforcement Learning (ICRL). Dieser leistungsstarke Meta-Lerner überzeugt nicht nur bei der Lösung von unbekannten Umgebungen mit bemerkenswerter Stichprobeneffizienz, sondern zeigt auch eine starke Leistung in Umgebungen außerhalb der Verteilung. Darüber hinaus zeigen wir, dass er robust gegenüber der Qualität seiner Trainingsdaten ist, Verhaltensweisen nahtlos aus seinem Kontext zusammenfügt und sich an nicht-stationäre Umgebungen anpasst. Diese Verhaltensweisen zeigen, dass ein mit RL trainierter Transformer iterativ seine eigenen Lösungen verbessern kann, was ihn zu einem hervorragenden Problemlöser für allgemeine Zwecke macht.

Wiederbeleuchtbarer Ganzkörper-Gauß-Codec-Avatar
Relightable Full-Body Gaussian Codec Avatars

Jan 24, 2025
Shaofei Wang, Tomas Simon, Igor Santesteban, Timur Bagautdinov, Junxuan Li, Vasu Agrawal, Fabian Prada, Shoou-I Yu, Pace Nalbone, Matt Gramlich, Roman Lubachersky, Chenglei Wu, Javier Romero, Jason Saragih, Michael Zollhoefer, Andreas Geiger, Siyu Tang, Shunsuke Saito
102

Wir schlagen Relightable Full-Body Gaussian Codec Avatare vor, einen neuen Ansatz zur Modellierung von relightbaren Ganzkörper-Avataren mit fein abgestuften Details, einschließlich Gesicht und Hände. Die einzigartige Herausforderung bei der Neubeleuchtung von Ganzkörper-Avataren liegt in den großen Verformungen, die durch die Körpergelenke verursacht werden, und den daraus resultierenden Auswirkungen auf das Erscheinungsbild durch Lichttransport. Veränderungen in der Körperhaltung können die Orientierung der Körperoberflächen in Bezug auf Lichter dramatisch verändern, was sowohl lokale Erscheinungsänderungen aufgrund von Veränderungen in lokalen Lichttransportfunktionen als auch nichtlokale Änderungen aufgrund von Okklusionen zwischen Körperteilen zur Folge hat. Um dies zu bewältigen, zerlegen wir den Lichttransport in lokale und nichtlokale Effekte. Lokale Erscheinungsänderungen werden unter Verwendung erlernbarer Zonenharmoniken für diffuse Strahlungstransfers modelliert. Im Gegensatz zu Kugelharmoniken sind Zonenharmoniken äußerst effizient bei der Rotation unter Gelenkbewegungen. Dies ermöglicht es uns, den diffusen Strahlungstransfer in einem lokalen Koordinatensystem zu erlernen, was den lokalen Strahlungstransfer von der Gelenkbewegung des Körpers trennt. Um nichtlokale Erscheinungsänderungen zu berücksichtigen, führen wir ein Schattenetzwerk ein, das Schatten vorhersagt, basierend auf vorberechneter einfallender Strahlung auf einem Basisnetz. Dies erleichtert das Erlernen von nichtlokalem Schattenwurf zwischen den Körperteilen. Schließlich verwenden wir einen verzögerten Shading-Ansatz, um den spekularen Strahlungstransfer zu modellieren und Reflexionen und Highlights wie Augenreflexionen besser einzufangen. Wir zeigen, dass unser Ansatz erfolgreich sowohl den lokalen als auch den nichtlokalen Lichttransport modelliert, der für relightbare Ganzkörper-Avatare erforderlich ist, mit einer überlegenen Verallgemeinerungsfähigkeit unter neuen Beleuchtungsbedingungen und unbekannten Posen.

Fragebeantwortung in Patientenkrankengeschichten mit privat feinabgestimmten LLMs
Question Answering on Patient Medical Records with Private Fine-Tuned LLMs

Jan 23, 2025
Sara Kothari, Ayush Gupta
92

Gesundheitssysteme erzeugen kontinuierlich große Mengen an elektronischen Gesundheitsakten (EHRs), die üblicherweise im Standard für schnelle Gesundheitsinteroperabilität (FHIR) gespeichert sind. Trotz des Reichtums an Informationen in diesen Aufzeichnungen erschweren ihre Komplexität und Menge es den Benutzern, entscheidende Gesundheitseinblicke abzurufen und zu interpretieren. Neueste Fortschritte in Large Language Models (LLMs) bieten eine Lösung, die semantische Fragebeantwortung (QA) über medizinische Daten ermöglicht und es den Benutzern ermöglicht, effektiver mit ihren Gesundheitsakten zu interagieren. Die Sicherstellung von Datenschutz und Einhaltung erfordert jedoch Edge- und private Bereitstellungen von LLMs. Dieser Artikel schlägt einen neuartigen Ansatz zur semantischen QA über EHRs vor, indem zunächst die relevantesten FHIR-Ressourcen für eine Benutzeranfrage identifiziert werden (Aufgabe 1) und anschließend die Anfrage basierend auf diesen Ressourcen beantwortet wird (Aufgabe 2). Wir untersuchen die Leistung von privat gehosteten, feinabgestimmten LLMs und evaluieren sie im Vergleich zu Benchmark-Modellen wie GPT-4 und GPT-4o. Unsere Ergebnisse zeigen, dass feinabgestimmte LLMs, obwohl sie um den Faktor 250 kleiner sind, die Modelle der GPT-4-Familie um 0,55 % im F1-Score in Aufgabe 1 und um 42 % in der Meteor-Aufgabe in Aufgabe 2 übertreffen. Darüber hinaus untersuchen wir fortgeschrittene Aspekte der LLM-Nutzung, einschließlich sequenzieller Feinabstimmung, Modell-Selbstbewertung (narzisstische Bewertung) und den Einfluss der Trainingsdatengröße auf die Leistung. Die Modelle und Datensätze sind hier verfügbar: https://huggingface.co/genloop

GeoPixel: Pixelverankerung eines großen multimodalen Modells in der Fernerkundung
GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing

Jan 23, 2025
Akashah Shabbir, Mohammed Zumri, Mohammed Bennamoun, Fahad S. Khan, Salman Khan
82

In jüngster Zeit haben Fortschritte bei großen multimodalen Modellen (LMMs) die feinkörnige Verankerung als einen entscheidenden Faktor für das visuelle Verständnis und den Dialog anerkannt. Die Vorteile einer solchen Repräsentation in LMMs beschränken sich jedoch auf den natürlichen Bildbereich, und diese Modelle erzielen schlechte Leistungen für die Fernerkundung (RS). Die unterschiedliche Überblicksperspektive, die Skalenvielfalt und das Vorhandensein kleiner Objekte in hochauflösenden RS-Bildern stellen eine einzigartige Herausforderung für das Verständnis auf Regionsebene dar. Darüber hinaus wird die Entwicklung der Verankerungsfähigkeit von LMMs im RS-Bereich durch den Mangel an granularen, RS-domänenspezifischen verankerten Daten behindert. Um diese Einschränkungen anzugehen, schlagen wir GeoPixel vor - das erste End-to-End-Hochauflösungs-RS-LMM, das eine Verankerung auf Pixel-Ebene unterstützt. Diese Fähigkeit ermöglicht ein feinkörniges visuelles Verständnis durch die Erzeugung ineinandergreifender Masken im Dialog. GeoPixel unterstützt Auflösungen von bis zu 4K HD in jedem Seitenverhältnis, ideal für die hochpräzise Analyse von RS-Bildern. Um die Erzeugung von verankerten Gesprächen (GCG) in RS-Bildern zu unterstützen, kuratieren wir einen visuell verankerten Datensatz GeoPixelD durch eine teilautomatisierte Pipeline, die Set-of-Marks-Prompting und speziell für RS-Daten angepasste räumliche Prioritäten nutzt, um den Datenerzeugungsprozess methodisch zu steuern. GeoPixel zeigt eine überlegene Leistung im Verständnis auf Pixel-Ebene und übertrifft bestehende LMMs sowohl bei Einzelziel- als auch bei Mehrziel-Segmentierungsaufgaben. Unsere methodischen Ablationsstudien bestätigen die Wirksamkeit jedes Bestandteils in der Gesamtarchitektur. Unser Code und unsere Daten werden öffentlich zugänglich gemacht.

Multiview-Äquivarianz verbessert das Verständnis der 3D-Korrespondenz mit minimalem Feinabstimmungsbedarf von Merkmalen.
Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning

Nov 29, 2024
Yang You, Yixin Li, Congyue Deng, Yue Wang, Leonidas Guibas
62

Die Grundlagenmodelle für die visuelle Wahrnehmung, insbesondere die ViT-Familie, haben die Bildverarbeitung revolutioniert, indem sie reichhaltige semantische Merkmale bereitstellen. Trotz ihres Erfolgs bei der zweidimensionalen Verarbeitung sind ihre Fähigkeiten zur Erfassung räumlicher 3D-Beziehungen noch unklar. In dieser Arbeit bewerten und verbessern wir das 3D-Bewusstsein von ViT-basierten Modellen. Wir beginnen mit der systematischen Bewertung ihrer Fähigkeit, 3D-äquivariante Merkmale zu erlernen, wobei wir insbesondere die Konsistenz semantischer Einbettungen aus verschiedenen Blickwinkeln untersuchen. Unsere Ergebnisse deuten darauf hin, dass eine verbesserte 3D-Äquivarianz zu besseren Leistungen bei verschiedenen nachgelagerten Aufgaben führt, einschließlich Posenabschätzung, Verfolgung und semantischer Übertragung. Aufbauend auf dieser Erkenntnis schlagen wir eine einfache, aber effektive Feinabstimmungsstrategie auf der Grundlage von 3D-Korrespondenzen vor, die das Verständnis für 3D-Korrespondenzen bestehender Visionmodelle signifikant verbessert. Bemerkenswerterweise führt selbst eine Feinabstimmung an einem einzelnen Objekt für nur eine Iteration zu erheblichen Leistungssteigerungen. Der gesamte Code und die Ressourcen werden öffentlich zugänglich gemacht, um weitere Fortschritte bei 3D-bewussten Visionmodellen zu unterstützen. Unser Code ist verfügbar unter https://github.com/qq456cvb/3DCorrEnhance.

CatV2TON: Die Bändigung von Diffusionstransformatoren für Vision-basiertes virtuelles Anprobieren mit zeitlicher Konkatenation
CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation

Jan 20, 2025
Zheng Chong, Wenqing Zhang, Shiyue Zhang, Jun Zheng, Xiao Dong, Haoxiang Li, Yiling Wu, Dongmei Jiang, Xiaodan Liang
53

Die Virtual Try-On (VTON)-Technologie hat aufgrund ihres Potenzials, die Online-Einzelhandelsbranche durch die realistische Visualisierung von Kleidungsstücken in Bildern und Videos zu transformieren, Aufmerksamkeit erregt. Allerdings haben die meisten bestehenden Methoden Schwierigkeiten, hochwertige Ergebnisse bei Bild- und Video-Anprobetätigkeiten zu erzielen, insbesondere in langen Videoszenarien. In dieser Arbeit stellen wir CatV2TON vor, eine einfache und effektive, auf Vision basierende Virtual Try-On (V2TON)-Methode, die sowohl Bild- als auch Video-Anprobetätigkeiten mit einem einzigen Diffusionstransformer-Modell unterstützt. Durch die zeitliche Verknüpfung von Kleidungsstücken und Personeneingaben und das Training an einer Mischung aus Bild- und Videodatensätzen erzielt CatV2TON robuste Anprobeleistungen in statischen und dynamischen Umgebungen. Für die effiziente Generierung von langen Videos schlagen wir eine überlappende Clip-basierte Inferenzstrategie vor, die sequenzielle Rahmenführung und Adaptive Clip Normalization (AdaCN) verwendet, um die zeitliche Konsistenz bei reduziertem Ressourcenbedarf aufrechtzuerhalten. Wir präsentieren auch ViViD-S, einen verfeinerten Video-Anprobdatensatz, der durch Filterung von rückwärts gerichteten Rahmen und Anwendung von 3D-Maskenglättung zur Verbesserung der zeitlichen Konsistenz erreicht wurde. Umfassende Experimente zeigen, dass CatV2TON bestehende Methoden sowohl bei Bild- als auch bei Video-Anprobetätigkeiten übertrifft und eine vielseitige und zuverlässige Lösung für realistische virtuelle Anproben in verschiedenen Szenarien bietet.

AdaIR: Adaptive All-in-One Bildwiederherstellung durch Frequenzanalyse und Modulation
AdaIR: Adaptive All-in-One Image Restoration via Frequency Mining and Modulation

Mar 21, 2024
Yuning Cui, Syed Waqas Zamir, Salman Khan, Alois Knoll, Mubarak Shah, Fahad Shahbaz Khan
42

Im Bildaufnahmeprozess werden häufig verschiedene Formen der Degradierung, einschließlich Rauschen, Dunst und Regen, eingeführt. Diese Degradierungen entstehen typischerweise aus den inhärenten Einschränkungen von Kameras oder ungünstigen Umgebungsbedingungen. Um saubere Bilder aus degradierten Versionen wiederherzustellen, wurden zahlreiche spezialisierte Restaurierungsmethoden entwickelt, die jeweils auf einen bestimmten Typ von Degradierung abzielen. In letzter Zeit haben All-in-One-Algorithmen erhebliche Aufmerksamkeit erregt, indem sie verschiedene Arten von Degradierungen innerhalb eines einzigen Modells behandeln, ohne vorherige Informationen über den Eingabetyp der Degradierung zu benötigen. Diese Methoden arbeiten jedoch ausschließlich im Ortsbereich und gehen nicht auf die unterschiedlichen Frequenzvariationen ein, die verschiedenen Degradierungstypen innewohnen. Um diese Lücke zu schließen, schlagen wir ein adaptives All-in-One-Bildrestaurierungsnetzwerk auf der Grundlage von Frequenzanalyse und Modulation vor. Unser Ansatz wird durch die Beobachtung motiviert, dass verschiedene Degradierungstypen den Bildinhalt in verschiedenen Frequenzunterbändern beeinflussen, was unterschiedliche Behandlungen für jede Restaurierungsaufgabe erfordert. Konkret extrahieren wir zunächst Nieder- und Hochfrequenzinformationen aus den Eingabemerkmale, geleitet durch die adaptiv entkoppelten Spektren des degradierten Bildes. Die extrahierten Merkmale werden dann von einem bidirektionalen Operator moduliert, um Interaktionen zwischen verschiedenen Frequenzkomponenten zu erleichtern. Schließlich werden die modulierten Merkmale in die ursprüngliche Eingabe für eine progressiv geführte Restaurierung zusammengeführt. Mit diesem Ansatz erreicht das Modell eine adaptive Rekonstruktion, indem es die informativen Frequenzunterbänder je nach verschiedenen Eingabedegradierungen betont. Umfangreiche Experimente zeigen, dass die vorgeschlagene Methode eine Spitzenleistung bei verschiedenen Bildrestaurierungsaufgaben wie Rauschunterdrückung, Dunstentfernung, Regenentfernung, Bewegungsunschärfe und Aufhellung bei schwachem Licht erzielt. Unser Code ist verfügbar unter https://github.com/c-yn/AdaIR.

Rauschunterdrückung als Anpassung: Adaptation im Rauschraum für die Bildwiederherstellung
Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration

Jun 26, 2024
Kang Liao, Zongsheng Yue, Zhouxia Wang, Chen Change Loy
32

Obwohl lernbasierte Bildrestaurierungsmethoden signifikante Fortschritte gemacht haben, haben sie immer noch Schwierigkeiten mit einer begrenzten Verallgemeinerung auf reale Szenarien aufgrund der erheblichen Domänenlücke, die durch das Training mit synthetischen Daten verursacht wird. Bestehende Methoden gehen dieses Problem an, indem sie die Datensynthesepipelines verbessern, Degradationskerne schätzen, tiefes internes Lernen nutzen und Domänenanpassung und Regularisierung durchführen. Frühere Domänenanpassungsmethoden haben versucht, die Domänenlücke zu überbrücken, indem sie domäneninvariante Kenntnisse entweder im Merkmal- oder Pixelraum erlernen. Diese Techniken haben jedoch oft Schwierigkeiten, sich auf Niedrigpegel-Visionaufgaben innerhalb eines stabilen und kompakten Rahmens auszudehnen. In diesem Papier zeigen wir, dass es möglich ist, Domänenanpassung über den Rauschraum mithilfe von Diffusionsmodellen durchzuführen. Insbesondere, indem wir die einzigartige Eigenschaft nutzen, wie Hilfsbedingungseingaben den mehrstufigen Denoisierungsprozess beeinflussen, leiten wir einen sinnvollen Diffusionsverlust her, der das Restaurierungsmodell dabei unterstützt, sowohl wiederhergestellte synthetische als auch reale Ausgaben progressiv mit einer sauberen Zielverteilung auszurichten. Wir bezeichnen diese Methode als "Denoising as Adaptation". Um Abkürzungen während des gemeinsamen Trainings zu verhindern, präsentieren wir entscheidende Strategien wie Kanal-Umordnungsschicht und Rest-Swapping-Kontrastives Lernen im Diffusionsmodell. Sie verwischen implizit die Grenzen zwischen konditionierten synthetischen und realen Daten und verhindern die Abhängigkeit des Modells von leicht unterscheidbaren Merkmalen. Experimentelle Ergebnisse zu drei klassischen Bildrestaurierungsaufgaben, nämlich Denoising, Deblurring und Deraining, zeigen die Wirksamkeit der vorgeschlagenen Methode.

Jan 24
Jan 27
Jan 28