papers.title

papers.description

GPT-4-Systemkarte
GPT-4o System Card

Oct 25

ByOpenAI, Aaron Hurst, Adam Lerer, Adam P. Goucher, Adam Perelman, Aditya Ramesh, Aidan Clark, AJ Ostrow, Akila Welihinda, Alan Hayes, Alec Radford, Aleksander Mądry, Alex Baker-Whitcomb, Alex Beutel, Alex Borzunov, Alex Carney, Alex Chow, Alex Kirillov, Alex Nichol, Alex Paino, Alex Renzin, Alex Tachard Passos, Alexander Kirillov, Alexi Christakis, Alexis Conneau, Ali Kamali, Allan Jabri, Allison Moyer, Allison Tam, Amadou Crookes, Amin Tootoochian, Amin Tootoonchian, Ananya Kumar, Andrea Vallone, Andrej Karpathy, Andrew Braunstein, Andrew Cann, Andrew Codispoti, Andrew Galu, Andrew Kondrich, Andrew Tulloch, Andrey Mishchenko, Angela Baek, Angela Jiang, Antoine Pelisse, Antonia Woodford, Anuj Gosalia, Arka Dhar, Ashley Pantuliano, Avi Nayak, Avital Oliver, Barret Zoph, Behrooz Ghorbani, Ben Leimberger, Ben Rossen, Ben Sokolowsky, Ben Wang, Benjamin Zweig, Beth Hoover, Blake Samic, Bob McGrew, Bobby Spero, Bogo Giertler, Bowen Cheng, Brad Lightcap, Brandon Walkin, Brendan Quinn, Brian Guarraci, Brian Hsu, Bright Kellogg, Brydon Eastman, Camillo Lugaresi, Carroll Wainwright, Cary Bassin, Cary Hudson, Casey Chu, Chad Nelson, Chak Li, Chan Jun Shern, Channing Conger, Charlotte Barette, Chelsea Voss, Chen Ding, Cheng Lu, Chong Zhang, Chris Beaumont, Chris Hallacy, Chris Koch, Christian Gibson, Christina Kim, Christine Choi, Christine McLeavey, Christopher Hesse, Claudia Fischer, Clemens Winter, Coley Czarnecki, Colin Jarvis, Colin Wei, Constantin Koumouzelis, Dane Sherburn, Daniel Kappler, Daniel Levin, Daniel Levy, David Carr, David Farhi, David Mely, David Robinson, David Sasaki, Denny Jin, Dev Valladares, Dimitris Tsipras, Doug Li, Duc Phong Nguyen, Duncan Findlay, Edede Oiwoh, Edmund Wong, Ehsan Asdar, Elizabeth Proehl, Elizabeth Yang, Eric Antonow, Eric Kramer, Eric Peterson, Eric Sigler, Eric Wallace, Eugene Brevdo, Evan Mays, Farzad Khorasani, Felipe Petroski Such, Filippo Raso, Francis Zhang, Fred von Lohmann, Freddie Sulit, Gabriel Goh, Gene Oden, Geoff Salmon, Giulio Starace, Greg Brockman, Hadi Salman, Haiming Bao, Haitang Hu, Hannah Wong, Haoyu Wang, Heather Schmidt, Heather Whitney, Heewoo Jun, Hendrik Kirchner, Henrique Ponde de Oliveira Pinto, Hongyu Ren, Huiwen Chang, Hyung Won Chung, Ian Kivlichan, Ian O'Connell, Ian O'Connell, Ian Osband, Ian Silber, Ian Sohl, Ibrahim Okuyucu, Ikai Lan, Ilya Kostrikov, Ilya Sutskever, Ingmar Kanitscheider, Ishaan Gulrajani, Jacob Coxon, Jacob Menick, Jakub Pachocki, James Aung, James Betker, James Crooks, James Lennon, Jamie Kiros, Jan Leike, Jane Park, Jason Kwon, Jason Phang, Jason Teplitz, Jason Wei, Jason Wolfe, Jay Chen, Jeff Harris, Jenia Varavva, Jessica Gan Lee, Jessica Shieh, Ji Lin, Jiahui Yu, Jiayi Weng, Jie Tang, Jieqi Yu, Joanne Jang, Joaquin Quinonero Candela, Joe Beutler, Joe Landers, Joel Parish, Johannes Heidecke, John Schulman, Jonathan Lachman, Jonathan McKay, Jonathan Uesato, Jonathan Ward, Jong Wook Kim, Joost Huizinga, Jordan Sitkin, Jos Kraaijeveld, Josh Gross, Josh Kaplan, Josh Snyder, Joshua Achiam, Joy Jiao, Joyce Lee, Juntang Zhuang, Justyn Harriman, Kai Fricke, Kai Hayashi, Karan Singhal, Katy Shi, Kavin Karthik, Kayla Wood, Kendra Rimbach, Kenny Hsu, Kenny Nguyen, Keren Gu-Lemberg, Kevin Button, Kevin Liu, Kiel Howe, Krithika Muthukumar, Kyle Luther, Lama Ahmad, Larry Kai, Lauren Itow, Lauren Workman, Leher Pathak, Leo Chen, Li Jing, Lia Guy, Liam Fedus, Liang Zhou, Lien Mamitsuka, Lilian Weng, Lindsay McCallum, Lindsey Held, Long Ouyang, Louis Feuvrier, Lu Zhang, Lukas Kondraciuk, Lukasz Kaiser, Luke Hewitt, Luke Metz, Lyric Doshi, Mada Aflak, Maddie Simens, Madelaine Boyd, Madeleine Thompson, Marat Dukhan, Mark Chen, Mark Gray, Mark Hudnall, Marvin Zhang, Marwan Aljubeh, Mateusz Litwin, Matthew Zeng, Max Johnson, Maya Shetty, Mayank Gupta, Meghan Shah, Mehmet Yatbaz, Meng Jia Yang, Mengchao Zhong, Mia Glaese, Mianna Chen, Michael Janner, Michael Lampe, Michael Petrov, Michael Wu, Michele Wang, Michelle Fradin, Michelle Pokrass, Miguel Castro, Miguel Oom Temudo de Castro, Mikhail Pavlov, Miles Brundage, Miles Wang, Minal Khan, Mira Murati, Mo Bavarian, Molly Lin, Murat Yesildal, Nacho Soto, Natalia Gimelshein, Natalie Cone, Natalie Staudacher, Natalie Summers, Natan LaFontaine, Neil Chowdhury, Nick Ryder, Nick Stathas, Nick Turley, Nik Tezak, Niko Felix, Nithanth Kudige, Nitish Keskar, Noah Deutsch, Noel Bundick, Nora Puckett, Ofir Nachum, Ola Okelola, Oleg Boiko, Oleg Murk, Oliver Jaffe, Olivia Watkins, Olivier Godement, Owen Campbell-Moore, Patrick Chao, Paul McMillan, Pavel Belov, Peng Su, Peter Bak, Peter Bakkum, Peter Deng, Peter Dolan, Peter Hoeschele, Peter Welinder, Phil Tillet, Philip Pronin, Philippe Tillet, Prafulla Dhariwal, Qiming Yuan, Rachel Dias, Rachel Lim, Rahul Arora, Rajan Troll, Randall Lin, Rapha Gontijo Lopes, Raul Puri, Reah Miyara, Reimar Leike, Renaud Gaubert, Reza Zamani, Ricky Wang, Rob Donnelly, Rob Honsby, Rocky Smith, Rohan Sahai, Rohit Ramchandani, Romain Huet, Rory Carmichael, Rowan Zellers, Roy Chen, Ruby Chen, Ruslan Nigmatullin, Ryan Cheu, Saachi Jain, Sam Altman, Sam Schoenholz, Sam Toizer, Samuel Miserendino, Sandhini Agarwal, Sara Culver, Scott Ethersmith, Scott Gray, Sean Grove, Sean Metzger, Shamez Hermani, Shantanu Jain, Shengjia Zhao, Sherwin Wu, Shino Jomoto, Shirong Wu, Shuaiqi, Xia, Sonia Phene, Spencer Papay, Srinivas Narayanan, Steve Coffey, Steve Lee, Stewart Hall, Suchir Balaji, Tal Broda, Tal Stramer, Tao Xu, Tarun Gogineni, Taya Christianson, Ted Sanders, Tejal Patwardhan, Thomas Cunninghman, Thomas Degry, Thomas Dimson, Thomas Raoux, Thomas Shadwell, Tianhao Zheng, Todd Underwood, Todor Markov, Toki Sherbakov, Tom Rubin, Tom Stasi, Tomer Kaftan, Tristan Heywood, Troy Peterson, Tyce Walters, Tyna Eloundou, Valerie Qi, Veit Moeller, Vinnie Monaco, Vishal Kuo, Vlad Fomenko, Wayne Chang, Weiyi Zheng, Wenda Zhou, Wesam Manassra, Will Sheu, Wojciech Zaremba, Yash Patil, Yilei Qian, Yongjik Kim, Youlong Cheng, Yu Zhang, Yuchen He, Yuchen Zhang, Yujia Jin, Yunxing Dai, Yury Malkov

GPT-4o ist ein autoregressives Omni-Modell, das jede Kombination von Text, Audio, Bild und Video als Eingabe akzeptiert und jede Kombination von Text, Audio und Bild als Ausgabe generiert. Es wird end-to-end über Text, Vision und Audio trainiert, was bedeutet, dass alle Eingaben und Ausgaben vom selben neuronalen Netzwerk verarbeitet werden. GPT-4o kann auf Audioeingaben in nur 232 Millisekunden reagieren, mit einem Durchschnitt von 320 Millisekunden, was ähnlich ist wie die menschliche Reaktionszeit in Gesprächen. Es erreicht die Leistung des GPT-4 Turbo bei Texten in Englisch und Code, mit signifikanter Verbesserung bei Texten in nicht-englischen Sprachen, während es auch schneller ist und 50\% günstiger in der API. GPT-4o ist insbesondere besser in der Vision- und Audioverarbeitung im Vergleich zu bestehenden Modellen. Im Einklang mit unserem Engagement für die sichere Entwicklung von KI und unseren freiwilligen Verpflichtungen gegenüber dem Weißen Haus teilen wir die GPT-4o Systemkarte, die unsere Bewertungen des Vorbereitungsrahmens enthält. In dieser Systemkarte bieten wir einen detaillierten Einblick in die Fähigkeiten, Einschränkungen und Sicherheitsbewertungen von GPT-4o in verschiedenen Kategorien, wobei der Schwerpunkt auf der Sprach-zu-Sprach-Verarbeitung liegt, während auch Text- und Bildfähigkeiten bewertet werden, sowie Maßnahmen, die wir implementiert haben, um sicherzustellen, dass das Modell sicher und ausgerichtet ist. Wir beinhalten auch Bewertungen von Drittanbietern zu gefährlichen Fähigkeiten sowie Diskussionen über potenzielle gesellschaftliche Auswirkungen der Text- und Bildfähigkeiten von GPT-4o.

Bielik 7B v0.1: Ein polnisches Sprachmodell - Entwicklung, Erkenntnisse und Bewertung
Bielik 7B v0.1: A Polish Language Model -- Development, Insights, and Evaluation

Oct 24

ByKrzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwoździej, Remigiusz Kinas

Wir stellen Bielik 7B v0.1 vor, ein generatives Textmodell mit 7 Milliarden Parametern für die Verarbeitung der polnischen Sprache. Trainiert anhand kuratierter polnischer Korpora, begegnet dieses Modell zentralen Herausforderungen bei der Entwicklung von Sprachmodellen durch innovative Techniken. Dazu gehören das gewichtete Anweisungs-Kreuzentropie-Verlust, das das Lernen verschiedener Anweisungstypen ausbalanciert, und die adaptive Lernrate, die basierend auf dem Trainingsfortschritt dynamisch die Lernrate anpasst. Zur Bewertung der Leistung haben wir das Open PL LLM Leaderboard und Polish MT-Bench erstellt, neuartige Rahmenwerke zur Bewertung verschiedener NLP-Aufgaben und Konversationsfähigkeiten. Bielik 7B v0.1 zeigt signifikante Verbesserungen, erreicht eine 9-Prozentpunkte-Steigerung im durchschnittlichen Score im Vergleich zu Mistral-7B-v0.1 bei der RAG Reader-Aufgabe. Es überzeugt auch im Polish MT-Bench, insbesondere in den Kategorien Reasoning (6,15/10) und Role-playing (7,83/10). Dieses Modell stellt einen bedeutenden Fortschritt im Bereich der polnischen Sprach-KI dar, bietet ein leistungsstarkes Werkzeug für vielfältige linguistische Anwendungen und setzt neue Maßstäbe in der Branche.

Eine Untersuchung von kleinen Sprachmodellen.
A Survey of Small Language Models

Oct 25

ByChien Van Nguyen, Xuan Shen, Ryan Aponte, Yu Xia, Samyadeep Basu, Zhengmian Hu, Jian Chen, Mihir Parmar, Sasidhar Kunapuli, Joe Barrow, Junda Wu, Ashish Singh, Yu Wang, Jiuxiang Gu, Franck Dernoncourt, Nesreen K. Ahmed, Nedim Lipka, Ruiyi Zhang, Xiang Chen, Tong Yu, Sungchul Kim, Hanieh Deilamsalehy, Namyong Park, Mike Rimer, Zhehao Zhang, Huanrui Yang, Ryan A. Rossi, Thien Huu Nguyen

Kleine Sprachmodelle (SLMs) sind aufgrund ihrer Effizienz und Leistungsfähigkeit bei der Durchführung verschiedener Sprachaufgaben mit minimalen Rechenressourcen zunehmend wichtig geworden, was sie ideal für verschiedene Anwendungen wie On-Device, mobile, Edge-Geräte und viele andere macht. In diesem Artikel präsentieren wir eine umfassende Übersicht über SLMs, wobei wir uns auf ihre Architekturen, Trainingsmethoden und Modellkomprimierungstechniken konzentrieren. Wir schlagen eine neue Taxonomie zur Kategorisierung der Methoden vor, die zur Optimierung von SLMs verwendet werden, einschließlich Modellkomprimierung, Pruning und Quantisierungstechniken. Wir fassen die Benchmark-Datensätze zusammen, die nützlich sind, um SLMs zu benchmarken, zusammen mit den üblicherweise verwendeten Bewertungsmetriken. Darüber hinaus heben wir wichtige offene Herausforderungen hervor, die noch angegangen werden müssen. Unsere Übersicht soll als wertvolle Ressource für Forscher und Praktiker dienen, die daran interessiert sind, kleine, aber effiziente Sprachmodelle zu entwickeln und einzusetzen.

AgentStore: Skalierbare Integration heterogener Agenten als spezialisierte Generalisten-Computerassistenten.
AgentStore: Scalable Integration of Heterogeneous Agents As Specialized Generalist Computer Assistant

Oct 24

ByChengyou Jia, Minnan Luo, Zhuohang Dang, Qiushi Sun, Fangzhi Xu, Junlin Hu, Tianbao Xie, Zhiyong Wu

Digitale Agenten, die komplexe Computer-Aufgaben automatisieren können, haben aufgrund ihres enormen Potenzials zur Verbesserung der Mensch-Computer-Interaktion erhebliche Aufmerksamkeit erregt. Allerdings weisen bestehende Agentenmethoden Mängel in ihren Verallgemeinerungs- und Spezialisierungsfähigkeiten auf, insbesondere bei der Bewältigung offener Computer-Aufgaben in realen Umgebungen. Inspiriert von der umfangreichen Funktionalität des App Stores präsentieren wir AgentStore, eine skalierbare Plattform, die darauf ausgelegt ist, heterogene Agenten dynamisch zu integrieren, um Computer-Aufgaben zu automatisieren. AgentStore ermöglicht es Benutzern, Agenten von Drittanbietern zu integrieren, wodurch das System kontinuierlich seine Fähigkeiten erweitern und sich an schnelllebig verändernde Betriebssysteme anpassen kann. Darüber hinaus schlagen wir einen neuartigen Kern-MetaAgenten mit der AgentToken-Strategie vor, um diverse Agenten effizient zu verwalten und ihre spezialisierten und generalistischen Fähigkeiten sowohl für domänenspezifische als auch systemweite Aufgaben zu nutzen. Umfangreiche Experimente an drei anspruchsvollen Benchmarks zeigen, dass AgentStore die Einschränkungen früherer Systeme mit engen Fähigkeiten übertrifft, insbesondere eine signifikante Verbesserung von 11,21\% auf 23,85\% beim OSWorld-Benchmark erzielt, was mehr als eine Verdopplung der bisherigen Ergebnisse bedeutet. Umfassende quantitative und qualitative Ergebnisse zeigen weiterhin die Fähigkeit von AgentStore, Agentensysteme sowohl in der Verallgemeinerung als auch Spezialisierung zu verbessern und unterstreichen sein Potenzial zur Entwicklung des spezialisierten Generalisten-Computerassistenten. Alle unsere Codes werden öffentlich unter https://chengyou-jia.github.io/AgentStore-Home verfügbar sein.

Dokumentenanalyse enthüllt: Techniken, Herausforderungen und Aussichten für die strukturierte Informationsextraktion.
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction

Oct 28

ByQintong Zhang, Victor Shea-Jay Huang, Bin Wang, Junyuan Zhang, Zhengren Wang, Hao Liang, Shawn Wang, Matthieu Lin, Wentao Zhang, Conghui He

Die Dokumentenanalyse ist entscheidend für die Umwandlung von unstrukturierten und halbstrukturierten Dokumenten - wie Verträgen, wissenschaftlichen Arbeiten und Rechnungen - in strukturierte, maschinenlesbare Daten. Die Dokumentenanalyse extrahiert zuverlässige strukturierte Daten aus unstrukturierten Eingaben und bietet enorme Bequemlichkeit für zahlreiche Anwendungen. Insbesondere mit den jüngsten Fortschritten bei großen Sprachmodellen spielt die Dokumentenanalyse eine unverzichtbare Rolle sowohl beim Aufbau von Wissensdatenbanken als auch bei der Generierung von Trainingsdaten. Diese Übersicht bietet eine umfassende Bewertung des aktuellen Standes der Dokumentenanalyse, die wichtige Methoden von modularen Pipeline-Systemen bis hin zu End-to-End-Modellen, die von großen Bildsprachmodellen angetrieben werden, abdeckt. Kernkomponenten wie Layout-Erkennung, Inhaltsextraktion (einschließlich Text, Tabellen und mathematischer Ausdrücke) und die Integration multimodaler Daten werden im Detail untersucht. Darüber hinaus diskutiert dieser Artikel die Herausforderungen, mit denen modulare Dokumentenanalyse-Systeme und Bildsprachmodelle bei der Bewältigung komplexer Layouts, der Integration mehrerer Module und der Erkennung von Texten hoher Dichte konfrontiert sind. Er betont die Bedeutung der Entwicklung größerer und vielfältigerer Datensätze und skizziert zukünftige Forschungsrichtungen.

MarDini: Maskierte autoregressive Diffusion zur Videogenerierung im großen Maßstab
MarDini: Masked Autoregressive Diffusion for Video Generation at Scale

Oct 26

ByHaozhe Liu, Shikun Liu, Zijian Zhou, Mengmeng Xu, Yanping Xie, Xiao Han, Juan C. Pérez, Ding Liu, Kumara Kahatapitiya, Menglin Jia, Jui-Chieh Wu, Sen He, Tao Xiang, Jürgen Schmidhuber, Juan-Manuel Pérez-Rúa

Wir stellen MarDini vor, eine neue Familie von Videodiffusionsmodellen, die die Vorteile der maskierten Auto-Regression (MAR) in ein vereinheitlichtes Diffusionsmodell (DM) integrieren. Hier übernimmt MAR die zeitliche Planung, während DM sich auf die räumliche Generierung in einem asymmetrischen Netzwerkdesign konzentriert: i) Ein auf MAR basierendes Planungsmodell, das die meisten Parameter enthält, generiert Planungssignale für jedes maskierte Frame unter Verwendung eines Eingangs mit geringer Auflösung; ii) Ein leichtgewichtiges Generierungsmodell verwendet diese Signale, um hochauflösende Frames über Diffusionsrauschen zu erzeugen. MarDinis MAR ermöglicht die Videogenerierung, die auf einer beliebigen Anzahl von maskierten Frames an beliebigen Frame-Positionen bedingt ist: Ein einzelnes Modell kann die Videointerpolation (z.B. Maskierung von mittleren Frames), die Bild-zu-Video-Generierung (z.B. Maskierung ab dem zweiten Frame) und die Videoerweiterung (z.B. Maskierung der Hälfte der Frames) bewältigen. Das effiziente Design weist den Großteil der Rechenressourcen dem Planungsmodell mit geringer Auflösung zu, was es ermöglicht, rechenintensive, aber wichtige räumlich-zeitliche Aufmerksamkeit in großem Maßstab durchzuführen. MarDini setzt einen neuen Stand der Technik für die Videointerpolation; währenddessen generiert es effizient innerhalb weniger Inferenzschritte Videos auf dem Niveau von deutlich teureren fortschrittlichen Bild-zu-Video-Modellen.

COAT: Komprimierung von Optimizer-Zuständen und Aktivierungen für speicher-effizientes FP8-Training
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training

Oct 25

ByHaocheng Xi, Han Cai, Ligeng Zhu, Yao Lu, Kurt Keutzer, Jianfei Chen, Song Han

FP8-Training hat sich als vielversprechende Methode zur Verbesserung der Trainingseffizienz herausgestellt. Bestehende Frameworks beschleunigen das Training, indem sie FP8-Berechnungen auf lineare Schichten anwenden, während Optimizer-Zustände und Aktivierungen in höherer Präzision belassen werden, was jedoch nicht vollständig die Speicherauslastung optimiert. Dieses Paper stellt COAT (Compressing Optimizer States and Activations for FP8 Training) vor, ein neuartiges FP8-Trainingsframework, das darauf abzielt, den Speicherbedarf beim Training großer Modelle signifikant zu reduzieren. COAT begegnet aktuellen Einschränkungen durch zwei Schlüsselinnovationen: (1) Dynamische Bereichserweiterung, die Optimizer-Zustandsverteilungen enger an den FP8-Repräsentationsbereich anpasst, wodurch die Quantisierungsfehler reduziert werden, und (2) Gemischte Granularitätsaktivierungsquantisierung, die die Aktivierungsspeicherung mithilfe einer Kombination von pro-Tensor- und pro-Gruppen-Quantisierungsstrategien optimiert. Experimente zeigen, dass COAT den Gesamtspeicherbedarf für das Training um das 1,54-fache im Vergleich zu BF16 effektiv reduziert, während nahezu verlustfreie Leistung bei verschiedenen Aufgaben wie dem Vorabtraining und Feintuning großer Sprachmodelle sowie dem Training von Vision-Sprachmodellen erzielt wird. COAT erreicht auch eine 1,43-fache Beschleunigung des Gesamttrainings im Vergleich zu BF16 und liegt dabei auf Augenhöhe oder übertrifft die Beschleunigung von TransformerEngine. COAT ermöglicht effizientes Training großer Modelle mit allen Parametern auf weniger GPUs und erleichtert die Verdopplung der Batch-Größe in verteilten Trainingseinstellungen, was eine praktische Lösung für das Skalieren des Trainings großer Modelle darstellt. Der Code ist verfügbar unter https://github.com/NVlabs/COAT.

DreamClear: Hochkapazitive Bildwiederherstellung in der realen Welt mit datenschutzfreundlicher Datensatzkuratierung
DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

Oct 24

ByYuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang

Die Bildwiederherstellung (IR) in realen Szenarien stellt aufgrund des Mangels an leistungsstarken Modellen und umfassenden Datensätzen erhebliche Herausforderungen dar. Um diesen Problemen zu begegnen, präsentieren wir eine doppelte Strategie: GenIR, eine innovative Datenkuratierungspipeline, und DreamClear, ein hochmodernes Bildwiederherstellungsmodell auf Basis des Diffusion Transformers (DiT). GenIR, unser bahnbrechender Beitrag, ist eine doppelte Lernpipeline, die die Einschränkungen bestehender Datensätze überwindet, die in der Regel nur aus einigen tausend Bildern bestehen und somit eine begrenzte Verallgemeinerbarkeit für größere Modelle bieten. GenIR vereinfacht den Prozess in drei Phasen: Konstruktion von Bild-Text-Paaren, Feinabstimmung auf Basis von doppelten Anweisungen und Datengenerierung und -filterung. Dieser Ansatz umgeht den mühsamen Prozess des Datensammelns, gewährleistet die Einhaltung des Urheberrechts und bietet eine kostengünstige, datenschutzsichere Lösung für den Aufbau von IR-Datensätzen. Das Ergebnis ist ein Datensatz im großen Maßstab von einer Million hochwertigen Bildern. Unser zweiter Beitrag, DreamClear, ist ein auf DiT basierendes Bildwiederherstellungsmodell. Es nutzt die generativen Voraussetzungen von Text-zu-Bild-Diffusionsmodellen und die robusten wahrnehmungsfähigen Fähigkeiten von multimodalen großen Sprachmodellen (MLLMs), um fotorealistische Wiederherstellung zu erreichen. Um die Anpassungsfähigkeit des Modells an verschiedene reale Degradierungen zu verbessern, führen wir das Mixture of Adaptive Modulator (MoAM) ein. Es verwendet tokenweise Degradierungsvoraussetzungen, um verschiedene Wiederherstellungsexperten dynamisch zu integrieren und somit den Bereich der Degradierungen zu erweitern, die das Modell bewältigen kann. Unsere umfangreichen Experimente bestätigen die überlegene Leistung von DreamClear und unterstreichen die Wirksamkeit unserer doppelten Strategie für die Bildwiederherstellung in realen Szenarien. Der Code und die vorab trainierten Modelle sind verfügbar unter: https://github.com/shallowdream204/DreamClear.

LongReward: Verbesserung von Sprachmodellen mit großem Kontext durch KI-Feedback
LongReward: Improving Long-context Large Language Models with AI Feedback

Oct 28

ByJiajie Zhang, Zhongni Hou, Xin Lv, Shulin Cao, Zhenyu Hou, Yilin Niu, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li

Obwohl bedeutende Fortschritte bei der Entwicklung von großangelegten Sprachmodellen mit langem Kontext (LLMs) erzielt wurden, beeinträchtigt die beeinträchtigte Qualität der von LLMs synthetisierten Daten für das überwachte Feintuning (SFT) häufig die Leistung von SFT-Modellen im langen Kontext und führt zu inhärenten Einschränkungen. Grundsätzlich kann die Verstärkungslernmethode (RL) mit geeigneten Belohnungssignalen die Kapazitäten von Modellen weiter verbessern. Es bleibt jedoch unerforscht, wie zuverlässige Belohnungen in Szenarien mit langem Kontext erhalten werden können. Zu diesem Zweck schlagen wir LongReward vor, eine neuartige Methode, die ein sofort einsatzbereites LLM verwendet, um Belohnungen für Modellantworten im langen Kontext aus vier menschlich bewerteten Dimensionen bereitzustellen: Hilfreichkeit, Logik, Treue und Vollständigkeit, jede mit einer sorgfältig gestalteten Bewertungspipeline. Durch die Kombination von LongReward und dem Offline-RL-Algorithmus DPO können wir die Leistung von SFT-Modellen im langen Kontext effektiv verbessern. Unsere Experimente zeigen, dass LongReward nicht nur die Leistung von Modellen im langen Kontext signifikant verbessert, sondern auch ihre Fähigkeit verbessert, kurzen Anweisungen zu folgen. Wir stellen auch fest, dass der langkontextige DPO mit LongReward und der konventionelle kurzkontextige DPO gemeinsam verwendet werden können, ohne die Leistung des einen oder des anderen zu beeinträchtigen.

GrounDiT: Verankerung von Diffusions-Transformatoren mittels verrauschter Patch-Transplantation
GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation

Oct 27

ByPhillip Y. Lee, Taehoon Yoon, Minhyuk Sung

Wir stellen eine neuartige, trainingsfreie räumliche Verankerungstechnik für die Text-zu-Bild-Generierung unter Verwendung von Diffusion-Transformern (DiT) vor. Die räumliche Verankerung mit Begrenzungsrahmen hat aufgrund ihrer Einfachheit und Vielseitigkeit Aufmerksamkeit erregt und ermöglicht eine verbesserte Benutzerkontrolle bei der Bildgenerierung. Bisherige trainingsfreie Ansätze stützen sich jedoch oft auf die Aktualisierung des verrauschten Bildes während des umgekehrten Diffusionsprozesses über Backpropagation aus benutzerdefinierten Verlustfunktionen, die häufig Schwierigkeiten haben, eine präzise Kontrolle über einzelne Begrenzungsrahmen zu bieten. In dieser Arbeit nutzen wir die Flexibilität der Transformer-Architektur und zeigen, dass DiT rauschhafte Patches generieren kann, die jedem Begrenzungsrahmen entsprechen, das Zielobjekt vollständig codierend und eine fein abgestimmte Kontrolle über jeden Bereich ermöglichen. Unser Ansatz baut auf einer faszinierenden Eigenschaft von DiT auf, die wir als semantisches Teilen bezeichnen. Aufgrund des semantischen Teilens werden kleinere Patches gemeinsam mit einem generierbaren Bild während des Entfernungsvorgangs zu "semantischen Klonen". Jeder Patch wird in seinem eigenen Zweig des Generierungsprozesses entrauscht und dann zu jedem Zeitpunkt in den entsprechenden Bereich des ursprünglichen verrauschten Bildes transplantiert, was zu einer robusten räumlichen Verankerung für jeden Begrenzungsrahmen führt. In unseren Experimenten an den HRS- und DrawBench-Benchmarks erzielen wir im Vergleich zu früheren trainingsfreien räumlichen Verankerungsansätzen eine Spitzenleistung.

Vision-Suchassistent: Stärkung von Vision-Sprach-Modellen als multimodale Suchmaschinen
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines

Oct 28

ByZhixin Zhang, Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue

Suchmaschinen ermöglichen die Wiederbeschaffung unbekannter Informationen anhand von Texten. Traditionelle Methoden stoßen jedoch an ihre Grenzen, wenn es darum geht, unbekannte visuelle Inhalte zu verstehen, wie z.B. die Identifizierung eines Objekts, das das Modell noch nie zuvor gesehen hat. Diese Herausforderung ist besonders ausgeprägt bei großen Vision-Language-Modellen (VLMs): Wenn das Modell noch nicht mit dem in einem Bild dargestellten Objekt in Kontakt gekommen ist, hat es Schwierigkeiten, zuverlässige Antworten auf die Frage des Benutzers zu diesem Bild zu generieren. Darüber hinaus ist es aufgrund hoher Rechenlasten unpraktisch, VLMs häufig zu aktualisieren, da ständig neue Objekte und Ereignisse auftauchen. Um diese Einschränkung zu überwinden, schlagen wir den Vision Search Assistant vor, ein neuartiges Framework, das die Zusammenarbeit zwischen VLMs und Web-Agenten erleichtert. Dieser Ansatz nutzt die visuellen Verständnisfähigkeiten von VLMs und den Echtzeit-Informationszugriff von Web-Agenten, um über das Web eine offene Retrieval-Augmented Generation durchzuführen. Durch die Integration von visuellen und textuellen Darstellungen durch diese Zusammenarbeit kann das Modell informierte Antworten geben, selbst wenn das Bild für das System neu ist. Umfangreiche Experimente, die an sowohl offenen als auch geschlossenen Frage-Antwort-Benchmarks durchgeführt wurden, zeigen, dass der Vision Search Assistant signifikant besser abschneidet als andere Modelle und weitreichend auf bestehende VLMs angewendet werden kann.

Schnelles Best-of-N-Decodieren durch spekulative Ablehnung.
Fast Best-of-N Decoding via Speculative Rejection

Oct 26

ByHanshi Sun, Momin Haider, Ruiqi Zhang, Huitao Yang, Jiahao Qiu, Ming Yin, Mengdi Wang, Peter Bartlett, Andrea Zanette

Die sichere und effektive Bereitstellung von Large Language Models (LLMs) beinhaltet einen entscheidenden Schritt namens Ausrichtung, der sicherstellt, dass die Antworten des Modells mit menschlichen Präferenzen übereinstimmen. Vorherrschende Ausrichtungstechniken wie DPO, PPO und deren Varianten richten LLMs aus, indem sie die vortrainierten Modellgewichte während einer Phase namens Post-Training ändern. Obwohl vorherrschend, fügen diese post-training Methoden erhebliche Komplexität hinzu, bevor LLMs eingesetzt werden können. Ausrichtungsmethoden zur Inferenzzeit umgehen den komplexen Post-Training-Schritt und lenken stattdessen die Generierung auf Antworten, die mit menschlichen Präferenzen übereinstimmen. Die bekannteste Ausrichtungsmethode zur Inferenzzeit, genannt Best-of-N, ist genauso effektiv wie die modernsten post-training Verfahren. Leider erfordert Best-of-N bei der Inferenzzeit erheblich mehr Ressourcen als Standard-Decodierungsstrategien, was es rechnerisch nicht machbar macht. In dieser Arbeit stellen wir Speculative Rejection vor, einen rechnerisch machbaren Ausrichtungsalgorithmus zur Inferenzzeit. Er generiert hoch bewertete Antworten gemäß eines gegebenen Belohnungsmodells, ähnlich wie Best-of-N, und ist dabei zwischen 16 und 32 Mal rechnerisch effizienter.

LARP: Tokenisierung von Videos mit einem erlernten autoregressiven generativen Prior
LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior

Oct 28

ByHanyu Wang, Saksham Suri, Yixuan Ren, Hao Chen, Abhinav Shrivastava

Wir präsentieren LARP, einen innovativen Videotokenizer, der entwickelt wurde, um die Einschränkungen in aktuellen Videotokenisierungsmethoden für autoregressive (AR) generative Modelle zu überwinden. Im Gegensatz zu traditionellen patchweisen Tokenizern, die lokale visuelle Patches direkt in diskrete Tokens codieren, führt LARP ein ganzheitliches Tokenisierungsschema ein, das Informationen aus dem visuellen Inhalt mithilfe eines Satzes von erlernten ganzheitlichen Abfragen sammelt. Dieses Design ermöglicht es LARP, globalere und semantischere Repräsentationen zu erfassen, anstatt auf lokale Patch-Ebene beschränkt zu sein. Darüber hinaus bietet es Flexibilität, indem es eine beliebige Anzahl diskreter Tokens unterstützt, was eine anpassungsfähige und effiziente Tokenisierung basierend auf den spezifischen Anforderungen der Aufgabe ermöglicht. Um den diskreten Tokenraum mit nachgelagerten AR-Generierungsaufgaben abzustimmen, integriert LARP ein leichtgewichtiges AR-Transformermodell als Trainingszeit-Prior-Modell, das das nächste Token in seinem diskreten latenten Raum vorhersagt. Durch die Einbeziehung des Prior-Modells während des Trainings lernt LARP einen latenten Raum, der nicht nur für die Videorekonstruktion optimiert ist, sondern auch strukturiert ist, um die autoregressive Generierung zu fördern. Darüber hinaus definiert dieser Prozess eine sequenzielle Reihenfolge für die diskreten Tokens, die sie während des Trainings progressiv in Richtung einer optimalen Konfiguration drängt, um eine reibungslosere und genauere AR-Generierung zur Inferenzzeit zu gewährleisten. Umfassende Experimente zeigen die starke Leistung von LARP, die einen state-of-the-art FVD auf dem UCF101 klassenkonditionalen Videogenerierungsbenchmark erreicht. LARP verbessert die Kompatibilität von AR-Modellen mit Videos und eröffnet das Potenzial, vereinheitlichte hochwertige multimodale große Sprachmodelle (MLLMs) zu erstellen.

EoRA: Training-freie Kompensation für komprimierte LLM mit Eigenraum-Niedrig-Rang-Approximation
EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

Oct 28

ByShih-Yang Liu, Huck Yang, Chein-Yi Wang, Nai Chit Fung, Hongxu Yin, Charbel Sakr, Saurav Muralidharan, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen

In dieser Arbeit formulieren wir das Modellkompressionsproblem neu als das individualisierte Kompensationsproblem: Angesichts eines komprimierten Modells zielen wir darauf ab, residuale Pfade mit niedriger Rangstufe einzuführen, um Kompressionsfehler unter individuellen Anforderungen von Benutzern (z. B. Aufgaben, Kompressionsverhältnisse) auszugleichen, was zu einer größeren Flexibilität bei der Anpassung der Gesamtkapazität führt, ohne durch spezifische Kompressionsformate eingeschränkt zu sein. Allerdings führt die naive Anwendung der Singulärwertzerlegung (SVD) zur Ableitung residueller Pfade zu einer suboptimalen Nutzung der Kapazität der Darstellung mit niedriger Rangstufe. Stattdessen schlagen wir Training-free Eigenspace Low-Rank Approximation (EoRA) vor, eine Methode, die Kompressionsfehler direkt minimiert, ohne auf Gradienten-basiertes Training angewiesen zu sein, und eine schnelle Optimierung in Minuten unter Verwendung einer geringen Menge an Kalibrierungsdaten erreicht. EoRA projiziert Kompressionsfehler in den Eigenraum der Eingangsaktivierungen, wobei Eigenwerte genutzt werden, um die Rekonstruktion von Fehlerkomponenten hoher Bedeutung effektiv zu priorisieren. Darüber hinaus kann EoRA nahtlos mit Feinabstimmung und Quantisierung integriert werden, um die Wirksamkeit und Effizienz weiter zu verbessern. EoRA übertrifft konsistent frühere Methoden bei der Kompensation von Fehlern für komprimierte LLaMA2/3-Modelle in verschiedenen Aufgabenbereichen, wie Sprachgenerierung, Common-Sense-Argumentation und mathematische Argumentation (z. B. 31,31 %/12,88 % und 9,69 % Verbesserungen bei ARC-Easy/ARC-Challenge und MathQA bei der Kompensation von LLaMA3-8B, das auf 4 Bit quantisiert und auf eine 2:4-Spärlichkeit reduziert wurde). EoRA bietet eine skalierbare, training-freie Lösung zur Kompensation von Kompressionsfehlern und ist somit ein leistungsstarkes Werkzeug zur Bereitstellung von LLMs bei verschiedenen Kapazitäts- und Effizienzanforderungen.

VideoWebArena: Evaluierung von multimodalen Agenten mit langem Kontext bei der Videoverarbeitung für Web-Aufgaben.
VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks

Oct 24

ByLawrence Jang, Yinheng Li, Charles Ding, Justin Lin, Paul Pu Liang, Dan Zhao, Rogerio Bonatti, Kazuhito Koishida

Videos werden häufig verwendet, um zu lernen oder die erforderlichen Informationen zu extrahieren, um Aufgaben auf andere Weise zu vervollständigen, als es Text und statische Bilder allein bieten können. Viele bestehende Agenten-Benchmarks vernachlässigen jedoch das Verständnis von Videos mit langem Kontext und konzentrieren sich stattdessen auf Text- oder statische Bildinputs. Um diese Lücke zu schließen, stellen wir VideoWebArena (VideoWA) vor, einen Benchmark zur Bewertung der Fähigkeiten von multimodalen Agenten mit langem Kontext im Bereich des Videoverständnisses. VideoWA besteht aus 2.021 Web-Agenten-Aufgaben, die auf manuell erstellten Video-Tutorials basieren und insgesamt fast vier Stunden Inhalt umfassen. Für unseren Benchmark definieren wir eine Taxonomie von langkontextbasierten Agentenaufgaben mit zwei Hauptbereichen: Fähigkeitserhaltung und Faktenerhaltung. Während Fähigkeitserhaltungsaufgaben bewerten, ob ein Agent eine gegebene menschliche Demonstration effizient nutzen kann, bewertet die Faktenerhaltungsaufgabe, ob ein Agent instruktionsrelevante Informationen aus einem Video abrufen kann, um eine Aufgabe zu vervollständigen. Wir stellen fest, dass das beste Modell eine Erfolgsquote von 13,3% bei Faktenerhaltungsaufgaben und 45,8% bei Faktenerhaltungs-Fragen-Antwort-Paaren erzielt, weit unter der menschlichen Leistung von 73,9% bzw. 79,3%. Bei Fähigkeitserhaltungsaufgaben schneiden Modelle mit langem Kontext schlechter ab, wenn Tutorials verwendet werden, mit einer Leistungsminderung von 5% bei WebArena-Aufgaben und 10,3% bei VisualWebArena-Aufgaben. Unsere Arbeit unterstreicht die Notwendigkeit, die agentischen Fähigkeiten von multimodalen Modellen mit langem Kontext zu verbessern, und bietet eine Testumgebung für zukünftige Entwicklungen mit Agenten für Videos mit langem Kontext.

Entspannte rekursive Transformer: Effektives Parameter-Sharing mit schichtweisem LoRA
Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA

Oct 28

BySangmin Bae, Adam Fisch, Hrayr Harutyunyan, Ziwei Ji, Seungyeon Kim, Tal Schuster

Große Sprachmodelle (LLMs) sind teuer in der Bereitstellung. Das Teilen von Parametern bietet einen möglichen Weg zur Reduzierung ihrer Größe und Kosten, aber seine Wirksamkeit in modernen LLMs bleibt recht begrenzt. In dieser Arbeit überdenken wir "Layer Tying" als Form des Parameterteilens in Transformern und führen neue Methoden ein, um bestehende LLMs in kleinere "Rekursive Transformer" umzuwandeln, die Parameter über Schichten hinweg teilen, mit minimalem Leistungsverlust. Hier werden unsere Rekursiven Transformer effizient von standardmäßig vorab trainierten Transformern initialisiert, verwenden jedoch nur einen einzigen Block einzigartiger Schichten, der dann mehrmals in einer Schleife wiederholt wird. Wir verbessern die Leistung weiter, indem wir "Relaxed Recursive Transformers" einführen, die über Tiefen-weise Low-Rank-Anpassung (LoRA) Module Flexibilität zur Schichtbindung hinzufügen, aber dennoch die Kompaktheit des Gesamtmodells bewahren. Wir zeigen, dass unsere rekursiven Modelle (z. B. rekursive Gemma 1B) sowohl ähnlich großen vorab trainierten Modellen (wie TinyLlama 1.1B und Pythia 1B) und Wissensverdichtungs-Baselines übertreffen - und sogar die meisten der Leistung des ursprünglichen "Vollgrößen"-Modells (z. B. Gemma 2B ohne gemeinsame Parameter) wiederherstellen können. Abschließend schlagen wir kontinuierliches Tiefen-Weises Batching vor, ein vielversprechendes neues Inferenz-Paradigma, das durch den Rekursiven Transformer in Verbindung mit frühzeitigem Beenden ermöglicht wird. In einer theoretischen Analyse zeigen wir, dass dies das Potenzial hat, zu signifikanten (2-3-fachen) Gewinnen bei der Inferenzdurchsatz zu führen.

Dialog2Flow: Vorabtraining von Soft-Kontrastiven Aktionsgesteuerten Satz-Einbettungen zur automatischen Extraktion des Dialogflusses
Dialog2Flow: Pre-training Soft-Contrastive Action-Driven Sentence Embeddings for Automatic Dialog Flow Extraction

Oct 24

BySergio Burdisso, Srikanth Madikeri, Petr Motlicek

Die effiziente Ableitung strukturierter Workflows aus unannotierten Dialogen bleibt eine wenig erforschte und gewaltige Herausforderung in der Computerlinguistik. Die Automatisierung dieses Prozesses könnte die manuelle Gestaltung von Workflows in neuen Bereichen erheblich beschleunigen und die Verankerung großer Sprachmodelle in domänenspezifischen Flussdiagrammen ermöglichen, was die Transparenz und Steuerbarkeit verbessert. In diesem Artikel stellen wir Dialog2Flow (D2F)-Einbettungen vor, die sich von herkömmlichen Satzeinbettungen unterscheiden, indem sie Äußerungen in einen latenten Raum abbilden, in dem sie nach ihren kommunikativen und informativen Funktionen gruppiert werden (d. h. die Aktionen, die sie repräsentieren). D2F ermöglicht die Modellierung von Dialogen als kontinuierliche Trajektorien in einem latenten Raum mit unterschiedlichen aktionsbezogenen Regionen. Durch Clustering von D2F-Einbettungen wird der latente Raum quantisiert, und Dialoge können in Sequenzen von Region-/Aktions-IDs umgewandelt werden, was die Extraktion des zugrunde liegenden Workflows erleichtert. Um D2F vorzuschulen, erstellen wir einen umfassenden Datensatz, indem wir zwanzig aufgabenorientierte Dialogdatensätze mit normalisierten Aktionsannotationen pro Runde vereinheitlichen. Wir führen auch eine neuartige weiche kontrastive Verlustfunktion ein, die die semantischen Informationen dieser Aktionen nutzt, um den Repräsentationslernprozess zu lenken, und zeigen eine überlegene Leistung im Vergleich zum Standard überwachten kontrastiven Verlust. Die Evaluation gegen verschiedene Satzeinbettungen, einschließlich dialogspezifischer, zeigt, dass D2F überlegene qualitative und quantitative Ergebnisse in verschiedenen Bereichen liefert.

Neuronale Felder in der Robotik: Eine Übersicht
Neural Fields in Robotics: A Survey

Oct 26

ByMuhammad Zubair Irshad, Mauro Comi, Yen-Chen Lin, Nick Heppert, Abhinav Valada, Rares Ambrus, Zsolt Kira, Jonathan Tremblay

Neuronale Felder haben sich als ein transformativer Ansatz für die 3D-Szenendarstellung in der Computer Vision und Robotik herausgebildet, der eine präzise Inferenz von Geometrie, 3D-Semantik und Dynamik aus 2D-Daten ermöglicht. Durch die Nutzung der differentiellen Darstellung umfassen Neuronale Felder sowohl kontinuierliche implizite als auch explizite neuronale Repräsentationen, die eine hochwertige 3D-Rekonstruktion, die Integration von multimodalen Sensordaten und die Generierung neuer Ansichten ermöglichen. Diese Übersicht erforscht ihre Anwendungen in der Robotik und betont ihr Potenzial zur Verbesserung von Wahrnehmung, Planung und Steuerung. Ihre Kompaktheit, Speichereffizienz und Differentiierbarkeit sowie ihre nahtlose Integration mit Grundlagen- und Generativmodellen machen sie ideal für Echtzeitanwendungen, die die Anpassungsfähigkeit und Entscheidungsfindung von Robotern verbessern. Dieser Artikel bietet eine gründliche Untersuchung von Neuronalen Feldern in der Robotik, kategorisiert Anwendungen in verschiedenen Bereichen und bewertet ihre Stärken und Grenzen auf der Grundlage von über 200 Artikeln. Zunächst präsentieren wir vier wichtige Neuronale Felder-Frameworks: Besetzungsnetze, Vorzeichenabstandsnetze, Neuronale Strahlungsfelder und Gaußsches Splatting. Zweitens erläutern wir die Anwendungen von Neuronalen Feldern in fünf wichtigen Robotikbereichen: Pose-Schätzung, Manipulation, Navigation, Physik und autonomes Fahren, wobei Schlüsselarbeiten hervorgehoben und Erkenntnisse sowie offene Herausforderungen diskutiert werden. Abschließend skizzieren wir die aktuellen Einschränkungen von Neuronalen Feldern in der Robotik und schlagen vielversprechende Forschungsrichtungen für die Zukunft vor. Projektseite: https://robonerf.github.io

Sprachmodelle und ein Anwendungsfall für eine Zweitmeinung: Der Taschenprofi
Language Models And A Second Opinion Use Case: The Pocket Professional

Oct 27

ByDavid Noever

Diese Forschung untersucht die Rolle von Large Language Models (LLMs) als formale Zweitmeinungswerkzeuge in professionellen Entscheidungsprozessen, wobei der Fokus insbesondere auf komplexen medizinischen Fällen liegt, bei denen selbst erfahrene Ärzte um Rat von Kollegen ersuchen. Die Arbeit analysierte 183 herausfordernde medizinische Fälle von Medscape über einen Zeitraum von 20 Monaten und testete die Leistung mehrerer LLMs im Vergleich zu den Antworten von Ärzten, die über Crowdsourcing gesammelt wurden. Eine wichtige Erkenntnis war die hohe Gesamtpunktzahl, die mit den neuesten grundlegenden Modellen erzielt werden konnte (>80% Genauigkeit im Vergleich zur Konsensmeinung), was die meisten von Menschen gemeldeten Metriken zu denselben klinischen Fällen (450 Seiten mit Patientenprofilen, Testergebnissen) übertrifft. Die Studie bewertet die Leistungsunterschiede der LLMs zwischen einfachen Fällen (>81% Genauigkeit) und komplexen Szenarien (43% Genauigkeit), insbesondere in Fällen, die unter menschlichen Ärzten zu erheblichen Debatten führen. Die Forschung zeigt, dass LLMs möglicherweise wertvoll sind als Ersteller umfassender differenzialdiagnostischer Ansätze anstelle von primären diagnostischen Werkzeugen, was potenziell dazu beitragen könnte, kognitive Verzerrungen in klinischen Entscheidungsprozessen zu bekämpfen, kognitive Belastungen zu reduzieren und somit einige Quellen für medizinische Fehler zu beseitigen. Die Einbeziehung eines zweiten vergleichenden rechtlichen Datensatzes (Supreme Court-Fälle, N=21) liefert zusätzlichen empirischen Kontext für die Verwendung von KI zur Förderung von Zweitmeinungen, obwohl sich herausstellte, dass diese rechtlichen Herausforderungen für LLMs deutlich einfacher zu analysieren waren. Neben den ursprünglichen Beiträgen empirischer Beweise für die Genauigkeit von LLMs aggregierte die Forschung einen neuen Benchmark, an dem andere die Zuverlässigkeit hoch umstrittener Fragen und Antworten zwischen LLMs und widersprechenden menschlichen Praktikern bewerten können. Diese Ergebnisse legen nahe, dass der optimale Einsatz von LLMs in professionellen Umgebungen sich erheblich von den derzeitigen Ansätzen unterscheiden könnte, die die Automatisierung routinemäßiger Aufgaben betonen.

Die Nutzung der Lokalität zur Steigerung der Stichproben-Effizienz in der robotergestützten Manipulation.
Leveraging Locality to Boost Sample Efficiency in Robotic Manipulation

Jun 15

ByTong Zhang, Yingdong Hu, Jiacheng You, Yang Gao

Angesichts der hohen Kosten für die Erfassung von Roboterdaten in der realen Welt ist die Effizienz bei der Datenerfassung in der Robotik ein durchgehend überzeugendes Ziel. In diesem Artikel stellen wir SGRv2 vor, ein Imitationslern-Framework, das die Datenerfassungseffizienz durch verbesserte visuelle und Aktionsrepräsentationen steigert. Zentral für das Design von SGRv2 ist die Integration eines kritischen induktiven Bias - der Aktionslokalität, der besagt, dass die Aktionen des Roboters hauptsächlich von dem Zielobjekt und dessen Interaktionen mit der lokalen Umgebung beeinflusst werden. Umfangreiche Experimente in simulierten und realen Umgebungen zeigen, dass die Aktionslokalität entscheidend ist, um die Datenerfassungseffizienz zu steigern. SGRv2 zeichnet sich in RLBench-Aufgaben mit Keyframe-Steuerung aus, wobei lediglich 5 Demonstrationen verwendet werden, und übertrifft die RVT-Basislinie in 23 von 26 Aufgaben. Darüber hinaus liegt die Erfolgsquote von SGRv2 bei der Bewertung anhand von ManiSkill2 und MimicGen mit dichter Steuerung um 2,54-mal höher als die von SGR. In realen Umgebungen kann SGRv2 mit nur acht Demonstrationen eine Vielzahl von Aufgaben mit einer deutlich höheren Erfolgsquote als Basismodelle ausführen. Projektwebsite: http://sgrv2-robot.github.io

Zweistufige Bewegungsnachahmung für humanoide Roboter
Bi-Level Motion Imitation for Humanoid Robots

Oct 2

ByWenshuai Zhao, Yi Zhao, Joni Pajarinen, Michael Muehlebach

Das Imitationslernen anhand von menschlichen Bewegungsdaten aus der Bewegungserfassung (MoCap) bietet einen vielversprechenden Weg, um humanoide Roboter zu trainieren. Aufgrund von Unterschieden in der Morphologie, wie unterschiedlichen Grade an Gelenkfreiheit und Kraftgrenzen, ist eine exakte Nachbildung menschlichen Verhaltens für humanoide Roboter möglicherweise nicht machbar. Daher kann die Einbeziehung physikalisch nicht realisierbarer MoCap-Daten in Trainingsdatensätzen die Leistung der Roboterstrategie negativ beeinflussen. Um dieses Problem zu lösen, schlagen wir ein Imitationslern-Framework auf Basis einer zweistufigen Optimierung vor, das abwechselnd die Optimierung sowohl der Roboterstrategie als auch der Ziel-MoCap-Daten vornimmt. Konkret entwickeln wir zunächst ein generatives latentes Dynamikmodell unter Verwendung eines neuartigen selbstkonsistenten Autoencoders, der spärliche und strukturierte Bewegungsrepräsentationen lernt und dabei gewünschte Bewegungsmuster im Datensatz erfasst. Das Dynamikmodell wird dann genutzt, um Referenzbewegungen zu generieren, während die latente Repräsentation den zweistufigen Bewegungsimitationsprozess reguliert. Simulationen mit einem realistischen Modell eines humanoiden Roboters zeigen, dass unsere Methode die Roboterstrategie verbessert, indem Referenzbewegungen so modifiziert werden, dass sie physisch konsistent sind.

papers.title

papers.description

GPT-4-Systemkarte
GPT-4o System Card

Oct 25

Bielik 7B v0.1: Ein polnisches Sprachmodell - Entwicklung, Erkenntnisse und Bewertung
Bielik 7B v0.1: A Polish Language Model -- Development, Insights, and Evaluation

Oct 24

ByKrzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwoździej, Remigiusz Kinas

Eine Untersuchung von kleinen Sprachmodellen.
A Survey of Small Language Models

Oct 25

AgentStore: Skalierbare Integration heterogener Agenten als spezialisierte Generalisten-Computerassistenten.
AgentStore: Scalable Integration of Heterogeneous Agents As Specialized Generalist Computer Assistant

Oct 24

ByChengyou Jia, Minnan Luo, Zhuohang Dang, Qiushi Sun, Fangzhi Xu, Junlin Hu, Tianbao Xie, Zhiyong Wu

Dokumentenanalyse enthüllt: Techniken, Herausforderungen und Aussichten für die strukturierte Informationsextraktion.
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction

Oct 28

ByQintong Zhang, Victor Shea-Jay Huang, Bin Wang, Junyuan Zhang, Zhengren Wang, Hao Liang, Shawn Wang, Matthieu Lin, Wentao Zhang, Conghui He

MarDini: Maskierte autoregressive Diffusion zur Videogenerierung im großen Maßstab
MarDini: Masked Autoregressive Diffusion for Video Generation at Scale

Oct 26

COAT: Komprimierung von Optimizer-Zuständen und Aktivierungen für speicher-effizientes FP8-Training
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training

Oct 25

ByHaocheng Xi, Han Cai, Ligeng Zhu, Yao Lu, Kurt Keutzer, Jianfei Chen, Song Han

DreamClear: Hochkapazitive Bildwiederherstellung in der realen Welt mit datenschutzfreundlicher Datensatzkuratierung
DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

Oct 24

ByYuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang

LongReward: Verbesserung von Sprachmodellen mit großem Kontext durch KI-Feedback
LongReward: Improving Long-context Large Language Models with AI Feedback

Oct 28

ByJiajie Zhang, Zhongni Hou, Xin Lv, Shulin Cao, Zhenyu Hou, Yilin Niu, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li

GrounDiT: Verankerung von Diffusions-Transformatoren mittels verrauschter Patch-Transplantation
GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation

Oct 27

ByPhillip Y. Lee, Taehoon Yoon, Minhyuk Sung

Vision-Suchassistent: Stärkung von Vision-Sprach-Modellen als multimodale Suchmaschinen
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines

Oct 28

ByZhixin Zhang, Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue

Schnelles Best-of-N-Decodieren durch spekulative Ablehnung.
Fast Best-of-N Decoding via Speculative Rejection

Oct 26

ByHanshi Sun, Momin Haider, Ruiqi Zhang, Huitao Yang, Jiahao Qiu, Ming Yin, Mengdi Wang, Peter Bartlett, Andrea Zanette

LARP: Tokenisierung von Videos mit einem erlernten autoregressiven generativen Prior
LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior

Oct 28

ByHanyu Wang, Saksham Suri, Yixuan Ren, Hao Chen, Abhinav Shrivastava

EoRA: Training-freie Kompensation für komprimierte LLM mit Eigenraum-Niedrig-Rang-Approximation
EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

Oct 28

ByShih-Yang Liu, Huck Yang, Chein-Yi Wang, Nai Chit Fung, Hongxu Yin, Charbel Sakr, Saurav Muralidharan, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen