ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Erklärende Anweisungen: Hin zu einem einheitlichen Verständnis von Sehaufgaben und Null-Schuss Generalisierung
Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

Dec 24
ByYang Shen, Xiu-Shen Wei, Yifan Sun, Yuxin Song, Tao Yuan, Jian Jin, Heyang Xu, Yazhou Yao, Errui Ding
75
2

Die Computer Vision (CV) hat bisher noch nicht die Null-Schuss-Aufgabenverallgemeinerung erreicht, die in der Natural Language Processing (NLP) beobachtet wurde, obwohl sie viele der Meilensteine in der NLP befolgt, wie z.B. große Transformer-Modelle, umfangreiches Pre-Training und das Auto-Regression-Paradigma, unter anderem. In diesem Paper untersuchen wir die Idee, dass die CV diskrete und terminologische Aufgabendefinitionen (z.B. "Bildsegmentierung") übernimmt, die ein wesentliches Hindernis für die Null-Schuss-Aufgabenverallgemeinerung darstellen könnten. Unsere Hypothese besagt, dass tiefe Modelle aufgrund dieser terminologischen Definitionen Schwierigkeiten haben, zu neuen Aufgaben zu generalisieren, da sie zuvor gesehene Aufgaben nicht wirklich verstehen. Um dies zu überprüfen, führen wir Erklärende Anweisungen ein, die eine intuitive Möglichkeit bieten, CV-Aufgabenziele durch detaillierte sprachliche Transformationen von Eingabebildern zu Ausgaben zu definieren. Wir erstellen einen Datensatz im großen Maßstab, der 12 Millionen "Bild-Eingabe zu erklärender Anweisung zu Ausgabe"-Triplets umfasst, und trainieren ein auf Auto-Regression basierendes Modell für Bildsprache (AR-basiertes VLM), das sowohl Bilder als auch erklärende Anweisungen als Eingabe erhält. Indem es lernt, diesen Anweisungen zu folgen, erreicht das AR-basierte VLM eine Null-Schuss-Fähigkeit auf Anweisungsebene für zuvor gesehene Aufgaben und zeigt eine starke Null-Schuss-Verallgemeinerung für ungesehene CV-Aufgaben. Der Code und der Datensatz werden in unserem GitHub-Repository öffentlich verfügbar sein.

2

Zur kompositorischen Verallgemeinerung von multimodalen LLMs für die medizinische Bildgebung
On the Compositional Generalization of Multimodal LLMs for Medical Imaging

Dec 28
ByZhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
45
4

Multimodale große Sprachmodelle (MLLMs) haben ein erhebliches Potenzial im medizinischen Bereich, aber ihre Fähigkeiten sind oft durch unzureichende Daten in bestimmten medizinischen Bereichen begrenzt, was die Notwendigkeit betont zu verstehen, welche Arten von Bildern von MLLMs zur Verallgemeinerung verwendet werden können. Aktuelle Forschungsergebnisse legen nahe, dass das Mehrfachaufgabentraining das Einzelaufgabentraining übertrifft, da sich verschiedene Aufgaben gegenseitig nutzen können, aber oft die internen Beziehungen innerhalb dieser Aufgaben übersehen und nur begrenzte Anleitung zur Auswahl von Datensätzen zur Verbesserung spezifischer Aufgaben bieten. Um dieses Phänomen zu analysieren, haben wir versucht, die kompositorische Verallgemeinerung (CG) - die Fähigkeit von Modellen, neue Kombinationen zu verstehen, indem gelernte Elemente neu kombiniert werden - als Leitfaden zu verwenden. Da medizinische Bilder genau durch Modalität, anatomisches Gebiet und Aufgabe definiert werden können und somit eine Umgebung für die Erforschung von CG bieten. Daher haben wir 106 medizinische Datensätze zusammengestellt, um Med-MAT für umfassende Experimente zu erstellen. Die Experimente bestätigten, dass MLLMs CG nutzen können, um unbekannte medizinische Bilder zu verstehen, und identifizierten CG als einen der Haupttreiber der beobachteten Verallgemeinerung im Mehrfachaufgabentraining. Zusätzliche Studien zeigten, dass CG Datensätze mit begrenzten Daten effektiv unterstützt und eine konsistente Leistung über verschiedene Grundstrukturen liefert, was seine Vielseitigkeit und breite Anwendbarkeit unterstreicht. Med-MAT ist öffentlich unter https://github.com/FreedomIntelligence/Med-MAT verfügbar.

3

Effiziente Bedienung von LLM-Argumentationsprogrammen mit Certaindex.
Efficiently Serving LLM Reasoning Programs with Certaindex

Dec 30
ByYichao Fu, Junda Chen, Siqi Zhu, Zheyu Fu, Zhongdongming Dai, Aurick Qiao, Hao Zhang
37
2

Die rasante Entwicklung großer Sprachmodelle (LLMs) hat ihre Fähigkeiten bei fortgeschrittenen Denkaufgaben wie mathematischer Problemlösung, Codegenerierung und juristischer Analyse erschlossen. Zentral für diesen Fortschritt sind Inferenzzeit-Reasoning-Algorithmen, die die Ausgaben verfeinern, indem sie mehrere Lösungswege erkunden, jedoch auf Kosten steigender Rechenanforderungen und Antwortverzögerungen. Bestehende Bedienungssysteme scheitern daran, sich an das Skalierungsverhalten dieser Algorithmen oder die variierende Schwierigkeit von Anfragen anzupassen, was zu ineffizienter Ressourcennutzung und unerfüllten Latenzzielen führt. Wir stellen Dynasor vor, ein System, das die Rechenleistung zur Inferenzzeit für LLM-Reasoning-Anfragen optimiert. Im Gegensatz zu traditionellen Engines verfolgt und plant Dynasor Anfragen innerhalb von Reasoning-Anfragen und verwendet Certaindex, einen Proxy, der den statistischen Reasoning-Fortschritt basierend auf Modellgewissheit misst, um die Rechenzuweisung dynamisch zu steuern. Dynasor passt die Planung an den Reasoning-Fortschritt an: Es weist mehr Rechenleistung für schwierige Anfragen zu, reduziert die Rechenleistung für einfachere Anfragen und beendet aussichtslose Anfragen frühzeitig, um Genauigkeit, Latenz und Kosten auszubalancieren. Auf verschiedenen Datensätzen und Algorithmen reduziert Dynasor die Rechenleistung bei Stapelverarbeitung um bis zu 50 % und ermöglicht 3,3-mal höhere Anfragraten oder 4,7-mal engere Latenz-SLOs bei der Online-Bedienung.

4

Edicho: Konsistente Bildbearbeitung in freier Wildbahn
Edicho: Consistent Image Editing in the Wild

Dec 30
ByQingyan Bai, Hao Ouyang, Yinghao Xu, Qiuyu Wang, Ceyuan Yang, Ka Leong Cheng, Yujun Shen, Qifeng Chen
23
2

Als eine bestätigte Notwendigkeit bleibt die konsistente Bearbeitung von In-the-Wild-Bildern aufgrund verschiedener unkontrollierbarer Faktoren wie Objektposen, Lichtverhältnisse und Fotoumgebungen eine technische Herausforderung. Edicho bietet eine trainingsfreie Lösung auf Basis von Diffusionsmodellen, die auf einem grundlegenden Gestaltungsprinzip beruht, nämlich der Verwendung expliziter Bildkorrespondenz zur Steuerung der Bearbeitung. Die Schlüsselkomponenten umfassen ein Aufmerksamkeitsmanipulationsmodul und eine sorgfältig verfeinerte klassifizierungsfreie Anleitung (CFG)-Rauschunterdrückungsstrategie, die beide die vorab geschätzte Korrespondenz berücksichtigen. Ein solcher Inferenzzeit-Algorithmus zeichnet sich durch seine Plug-and-Play-Natur aus und ist mit den meisten diffusionsbasierten Bearbeitungsmethoden wie ControlNet und BrushNet kompatibel. Umfangreiche Ergebnisse zeigen die Wirksamkeit von Edicho bei der konsistenten Bearbeitung von Bildern unter verschiedenen Einstellungen. Wir werden den Code veröffentlichen, um zukünftige Studien zu erleichtern.

5

PERSE: Personalisierte 3D-generative Avatare aus einem einzigen Porträt
PERSE: Personalized 3D Generative Avatars from A Single Portrait

Dec 30
ByHyunsoo Cha, Inhee Lee, Hanbyul Joo
20
3

Wir präsentieren PERSE, eine Methode zur Erstellung eines animierbaren personalisierten generativen Avatars aus einem Referenzporträt. Unser Avatar-Modell ermöglicht die Bearbeitung von Gesichtsmerkmalen in einem kontinuierlichen und entwirrten latenten Raum, um jedes Gesichtsmerkmal zu steuern, während die Identität der Person erhalten bleibt. Um dies zu erreichen, beginnt unsere Methode mit der Synthese von groß angelegten synthetischen 2D-Video-Datensätzen, wobei jedes Video konsistente Veränderungen in der Gesichtsausdruck und Blickwinkel enthält, kombiniert mit einer Variation eines spezifischen Gesichtsmerkmals des ursprünglichen Eingangs. Wir schlagen eine neuartige Pipeline zur Erzeugung hochwertiger, fotorealistischer 2D-Videos mit der Bearbeitung von Gesichtsmerkmalen vor. Unter Verwendung dieses synthetischen Merkmalsdatensatzes präsentieren wir eine personalisierte Avatar-Erstellungsmethode basierend auf dem 3D-Gauß-Splatting, die einen kontinuierlichen und entwirrten latenten Raum für intuitive Bearbeitung von Gesichtsmerkmalen lernt. Um sanfte Übergänge in diesem latenten Raum zu erzwingen, führen wir eine Technik zur Regularisierung des latenten Raums ein, indem wir interpolierte 2D-Gesichter als Aufsicht verwenden. Im Vergleich zu früheren Ansätzen zeigen wir, dass PERSE hochwertige Avatare mit interpolierten Merkmalen generiert und dabei die Identität der Referenzperson bewahrt.

6

Die Anpassung großer Sprachmodelle für die russische Sprache durch gelernte Embedding-Propagation.
Facilitating large language model Russian adaptation with Learned Embedding Propagation

Dec 30
ByMikhail Tikhomirov, Daniil Chernyshev
18
2

Die raschen Fortschritte bei Technologien großer Sprachmodelle (LLM) führten zur Einführung leistungsstarker Open-Source-Instruktions-abgestimmter LLMs, die über die gleiche Textgenerierungsqualität wie Spitzenmodelle wie GPT-4 verfügen. Während das Aufkommen solcher Modelle die Übernahme von LLM-Technologien in sensiblen Informationsumgebungen beschleunigt, offenbaren die Autoren solcher Modelle nicht die für die Reproduktion der Ergebnisse erforderlichen Trainingsdaten, wodurch die Errungenschaften modellspezifisch werden. Da diese Open-Source-Modelle auch mehrsprachig sind, verringert sich dadurch der Nutzen des Trainings von sprachspezifischen LLMs, da eine verbesserte Inferenzberechnungseffizienz der einzige garantierte Vorteil dieses kostspieligen Verfahrens ist. Kostengünstigere Optionen wie die Erweiterung des Vokabulars und anschließendes fortgesetztes Vor-Training werden auch durch den Mangel an Zugang zu hochwertigen Instruktions-Abstimmungsdaten behindert, da dies der Hauptfaktor für die resultierenden Fähigkeiten der LLM-Aufgabenlösung ist. Um die Einschränkungen zu bewältigen und die Kosten des Sprachanpassungsprozesses zu senken, schlagen wir Learned Embedding Propagation (LEP) vor. Im Gegensatz zu bestehenden Ansätzen hat unsere Methode aufgrund des minimalen Einflusses auf vorhandenes LLM-Wissen geringere Anforderungen an die Trainingsdatengröße, das wir mithilfe eines neuartigen Ad-hoc-Embedding-Propagationsverfahrens verstärken, das es ermöglicht, den Schritt der Instruktions-Abstimmung zu überspringen und stattdessen das neue Sprachwissen direkt in jede vorhandene instruktions-abgestimmte Variante zu implementieren. Wir haben vier russische Vokabelanpassungen für LLaMa-3-8B und Mistral-7B evaluiert und gezeigt, dass LEP mit traditionellen Instruktions-Abstimmungsmethoden konkurrieren kann, indem eine Leistung erzielt wird, die mit OpenChat 3.5 und LLaMa-3-8B-Instruct vergleichbar ist, wobei weitere Verbesserungen durch Selbstkalibrierung und fortgesetzte Abstimmung die Fähigkeiten zur Aufgabenlösung verbessern.

7

OneKE: Ein Dockerisiertes System zur Wissensextraktion basierend auf einem Schema-geführten LLM-Agenten
OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System

Dec 28
ByYujie Luo, Xiangyuan Ru, Kangwei Liu, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Lanning Wei, Da Zheng, Haofen Wang, Huajun Chen
17
2

Wir stellen OneKE vor, ein dockerisiertes, schema-geführtes Wissensextraktionssystem, das Wissen aus dem Web und Roh-PDF-Büchern extrahieren kann und verschiedene Bereiche (Wissenschaft, Nachrichten usw.) unterstützt. Speziell haben wir OneKE mit mehreren Agenten und einer konfigurierbaren Wissensbasis entworfen. Unterschiedliche Agenten erfüllen ihre jeweiligen Rollen, um Unterstützung für verschiedene Extraktionsszenarien zu ermöglichen. Die konfigurierbare Wissensbasis erleichtert die Schema-Konfiguration, die Fehlerfall-Debugging und -Korrektur, was die Leistung weiter verbessert. Empirische Bewertungen anhand von Benchmark-Datensätzen zeigen die Wirksamkeit von OneKE, während Fallstudien seine Anpassungsfähigkeit an vielfältige Aufgaben in verschiedenen Bereichen verdeutlichen und sein Potenzial für breite Anwendungen hervorheben. Wir haben den Code unter https://github.com/zjunlp/OneKE veröffentlicht und ein Video unter http://oneke.openkg.cn/demo.mp4 veröffentlicht.

8

Langsame Wahrnehmung: Lassen Sie uns geometrische Figuren schrittweise wahrnehmen.
Slow Perception: Let's Perceive Geometric Figures Step-by-step

Dec 30
ByHaoran Wei, Youyang Yin, Yumeng Li, Jia Wang, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang
16
2

In letzter Zeit begann "visuelle o1" in das Blickfeld der Menschen zu gelangen, mit der Erwartung, dass dieses langsam denkende Design visuelle Denkaufgaben lösen kann, insbesondere geometrische mathematische Probleme. Die Realität ist jedoch, dass aktuelle LVLMs (Große Vision-Sprachmodelle) kaum in der Lage sind, eine geometrische Figur genau zu kopieren, geschweige denn die komplexe inhärente Logik und die räumlichen Beziehungen innerhalb geometrischer Formen wirklich zu verstehen. Wir glauben, dass ein genaues Kopieren (starke Wahrnehmung) der erste Schritt zu visuellem o1 ist. Dementsprechend führen wir das Konzept der "langsamen Wahrnehmung" (SP) ein, das das Modell dazu anleitet, allmählich grundlegende Punkt-Linien-Kombinationen wahrzunehmen, während unsere Menschen komplexe geometrische Strukturen progressiv rekonstruieren. Es gibt zweifache Stufen in SP: a) Wahrnehmungsaufschlüsselung. Wahrnehmung ist nicht augenblicklich. In dieser Stufe werden komplexe geometrische Figuren in grundlegende einfache Einheiten zerlegt, um die geometrische Darstellung zu vereinheitlichen. b) Wahrnehmungsfluss, der anerkennt, dass das genaue Verfolgen einer Linie keine leichte Aufgabe ist. Diese Stufe zielt darauf ab, "lange visuelle Sprünge" beim Zurückverfolgen von Linienabschnitten zu vermeiden, indem ein vorgeschlagenes "Wahrnehmungslineal" verwendet wird, um jede Linie Strich für Strich nachzuverfolgen. Überraschenderweise genießt eine derart menschenähnliche Wahrnehmungsweise ein Inferenzzeit-Skalierungsgesetz - je langsamer, desto besser. Forscher haben in der Vergangenheit versucht, die Wahrnehmung des Modells zu beschleunigen, aber wir verlangsamen sie erneut, um dem Modell zu ermöglichen, das Bild schrittweise und sorgfältig zu lesen.

9

HumanEval Pro und MBPP Pro: Evaluierung großer Sprachmodelle bei der Generierung von selbstaufrufendem Code
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

Dec 30
ByZhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang
14
3

Wir stellen die selbstaufrufende Codegenerierung vor, eine neue Aufgabe, die entwickelt wurde, um die fortschrittlichen Denk- und Problemlösungsfähigkeiten von LLMs zu bewerten. In dieser Aufgabe werden den Modellen ein Grundproblem und ein damit verbundenes, komplexeres Problem präsentiert. Sie müssen das Grundproblem lösen und dann dessen Lösung nutzen, um das komplexere Problem anzugehen. Diese Arbeit umfasst drei wesentliche Beiträge. Erstens schlagen wir ein allgemeines Rezept zur Erzeugung anspruchsvollerer Versionen bestehender Benchmarks vor, was zur Schaffung von drei neuen Benchmarks führt: HumanEval Pro, MBPP Pro und BigCodeBench-Lite Pro, die speziell entwickelt wurden, um LLMs in der selbstaufrufenden Codegenerierung zu bewerten. Zweitens haben wir aus der Analyse experimenteller Ergebnisse über zwanzig LLMs auf unseren Benchmarks zwei wichtige Beobachtungen gemacht: (i) Die meisten LLMs glänzen in traditionellen Codegenerierungsbenchmarks wie HumanEval und MBPP, aber ihre Leistung sinkt bei selbstaufrufenden Aufgaben. Zum Beispiel erreicht o1-mini 96,2% Pass@1 bei HumanEval, aber nur 76,2% bei HumanEval Pro. (ii) Bei der selbstaufrufenden Codegenerierungsaufgabe zeigen die anweisungsgesteuerten Modelle nur marginale Verbesserungen im Vergleich zu den Grundmodellen. Drittens offenbaren wir die Arten von Fehlermodi, die in unseren Evaluierungsergebnissen existieren. All diese Ergebnisse unterstreichen die Notwendigkeit weiterer Fortschritte bei selbstaufrufenden Codegenerierungsaufgaben und bieten eine neue Richtung für zukünftige Forschung zur Verbesserung der Code-Argumentationsfähigkeiten von LLMs.

Dec 30
Dec 31
Jan 1