papers.description
Die Computer Vision (CV) hat bisher noch nicht die Null-Schuss-Aufgabenverallgemeinerung erreicht, die in der Natural Language Processing (NLP) beobachtet wurde, obwohl sie viele der Meilensteine in der NLP befolgt, wie z.B. große Transformer-Modelle, umfangreiches Pre-Training und das Auto-Regression-Paradigma, unter anderem. In diesem Paper untersuchen wir die Idee, dass die CV diskrete und terminologische Aufgabendefinitionen (z.B. "Bildsegmentierung") übernimmt, die ein wesentliches Hindernis für die Null-Schuss-Aufgabenverallgemeinerung darstellen könnten. Unsere Hypothese besagt, dass tiefe Modelle aufgrund dieser terminologischen Definitionen Schwierigkeiten haben, zu neuen Aufgaben zu generalisieren, da sie zuvor gesehene Aufgaben nicht wirklich verstehen. Um dies zu überprüfen, führen wir Erklärende Anweisungen ein, die eine intuitive Möglichkeit bieten, CV-Aufgabenziele durch detaillierte sprachliche Transformationen von Eingabebildern zu Ausgaben zu definieren. Wir erstellen einen Datensatz im großen Maßstab, der 12 Millionen "Bild-Eingabe zu erklärender Anweisung zu Ausgabe"-Triplets umfasst, und trainieren ein auf Auto-Regression basierendes Modell für Bildsprache (AR-basiertes VLM), das sowohl Bilder als auch erklärende Anweisungen als Eingabe erhält. Indem es lernt, diesen Anweisungen zu folgen, erreicht das AR-basierte VLM eine Null-Schuss-Fähigkeit auf Anweisungsebene für zuvor gesehene Aufgaben und zeigt eine starke Null-Schuss-Verallgemeinerung für ungesehene CV-Aufgaben. Der Code und der Datensatz werden in unserem GitHub-Repository öffentlich verfügbar sein.
Multimodale große Sprachmodelle (MLLMs) haben ein erhebliches Potenzial im medizinischen Bereich, aber ihre Fähigkeiten sind oft durch unzureichende Daten in bestimmten medizinischen Bereichen begrenzt, was die Notwendigkeit betont zu verstehen, welche Arten von Bildern von MLLMs zur Verallgemeinerung verwendet werden können. Aktuelle Forschungsergebnisse legen nahe, dass das Mehrfachaufgabentraining das Einzelaufgabentraining übertrifft, da sich verschiedene Aufgaben gegenseitig nutzen können, aber oft die internen Beziehungen innerhalb dieser Aufgaben übersehen und nur begrenzte Anleitung zur Auswahl von Datensätzen zur Verbesserung spezifischer Aufgaben bieten. Um dieses Phänomen zu analysieren, haben wir versucht, die kompositorische Verallgemeinerung (CG) - die Fähigkeit von Modellen, neue Kombinationen zu verstehen, indem gelernte Elemente neu kombiniert werden - als Leitfaden zu verwenden. Da medizinische Bilder genau durch Modalität, anatomisches Gebiet und Aufgabe definiert werden können und somit eine Umgebung für die Erforschung von CG bieten. Daher haben wir 106 medizinische Datensätze zusammengestellt, um Med-MAT für umfassende Experimente zu erstellen. Die Experimente bestätigten, dass MLLMs CG nutzen können, um unbekannte medizinische Bilder zu verstehen, und identifizierten CG als einen der Haupttreiber der beobachteten Verallgemeinerung im Mehrfachaufgabentraining. Zusätzliche Studien zeigten, dass CG Datensätze mit begrenzten Daten effektiv unterstützt und eine konsistente Leistung über verschiedene Grundstrukturen liefert, was seine Vielseitigkeit und breite Anwendbarkeit unterstreicht. Med-MAT ist öffentlich unter https://github.com/FreedomIntelligence/Med-MAT verfügbar.
Die rasante Entwicklung großer Sprachmodelle (LLMs) hat ihre Fähigkeiten bei fortgeschrittenen Denkaufgaben wie mathematischer Problemlösung, Codegenerierung und juristischer Analyse erschlossen. Zentral für diesen Fortschritt sind Inferenzzeit-Reasoning-Algorithmen, die die Ausgaben verfeinern, indem sie mehrere Lösungswege erkunden, jedoch auf Kosten steigender Rechenanforderungen und Antwortverzögerungen. Bestehende Bedienungssysteme scheitern daran, sich an das Skalierungsverhalten dieser Algorithmen oder die variierende Schwierigkeit von Anfragen anzupassen, was zu ineffizienter Ressourcennutzung und unerfüllten Latenzzielen führt. Wir stellen Dynasor vor, ein System, das die Rechenleistung zur Inferenzzeit für LLM-Reasoning-Anfragen optimiert. Im Gegensatz zu traditionellen Engines verfolgt und plant Dynasor Anfragen innerhalb von Reasoning-Anfragen und verwendet Certaindex, einen Proxy, der den statistischen Reasoning-Fortschritt basierend auf Modellgewissheit misst, um die Rechenzuweisung dynamisch zu steuern. Dynasor passt die Planung an den Reasoning-Fortschritt an: Es weist mehr Rechenleistung für schwierige Anfragen zu, reduziert die Rechenleistung für einfachere Anfragen und beendet aussichtslose Anfragen frühzeitig, um Genauigkeit, Latenz und Kosten auszubalancieren. Auf verschiedenen Datensätzen und Algorithmen reduziert Dynasor die Rechenleistung bei Stapelverarbeitung um bis zu 50 % und ermöglicht 3,3-mal höhere Anfragraten oder 4,7-mal engere Latenz-SLOs bei der Online-Bedienung.
Als eine bestätigte Notwendigkeit bleibt die konsistente Bearbeitung von In-the-Wild-Bildern aufgrund verschiedener unkontrollierbarer Faktoren wie Objektposen, Lichtverhältnisse und Fotoumgebungen eine technische Herausforderung. Edicho bietet eine trainingsfreie Lösung auf Basis von Diffusionsmodellen, die auf einem grundlegenden Gestaltungsprinzip beruht, nämlich der Verwendung expliziter Bildkorrespondenz zur Steuerung der Bearbeitung. Die Schlüsselkomponenten umfassen ein Aufmerksamkeitsmanipulationsmodul und eine sorgfältig verfeinerte klassifizierungsfreie Anleitung (CFG)-Rauschunterdrückungsstrategie, die beide die vorab geschätzte Korrespondenz berücksichtigen. Ein solcher Inferenzzeit-Algorithmus zeichnet sich durch seine Plug-and-Play-Natur aus und ist mit den meisten diffusionsbasierten Bearbeitungsmethoden wie ControlNet und BrushNet kompatibel. Umfangreiche Ergebnisse zeigen die Wirksamkeit von Edicho bei der konsistenten Bearbeitung von Bildern unter verschiedenen Einstellungen. Wir werden den Code veröffentlichen, um zukünftige Studien zu erleichtern.
Wir präsentieren PERSE, eine Methode zur Erstellung eines animierbaren personalisierten generativen Avatars aus einem Referenzporträt. Unser Avatar-Modell ermöglicht die Bearbeitung von Gesichtsmerkmalen in einem kontinuierlichen und entwirrten latenten Raum, um jedes Gesichtsmerkmal zu steuern, während die Identität der Person erhalten bleibt. Um dies zu erreichen, beginnt unsere Methode mit der Synthese von groß angelegten synthetischen 2D-Video-Datensätzen, wobei jedes Video konsistente Veränderungen in der Gesichtsausdruck und Blickwinkel enthält, kombiniert mit einer Variation eines spezifischen Gesichtsmerkmals des ursprünglichen Eingangs. Wir schlagen eine neuartige Pipeline zur Erzeugung hochwertiger, fotorealistischer 2D-Videos mit der Bearbeitung von Gesichtsmerkmalen vor. Unter Verwendung dieses synthetischen Merkmalsdatensatzes präsentieren wir eine personalisierte Avatar-Erstellungsmethode basierend auf dem 3D-Gauß-Splatting, die einen kontinuierlichen und entwirrten latenten Raum für intuitive Bearbeitung von Gesichtsmerkmalen lernt. Um sanfte Übergänge in diesem latenten Raum zu erzwingen, führen wir eine Technik zur Regularisierung des latenten Raums ein, indem wir interpolierte 2D-Gesichter als Aufsicht verwenden. Im Vergleich zu früheren Ansätzen zeigen wir, dass PERSE hochwertige Avatare mit interpolierten Merkmalen generiert und dabei die Identität der Referenzperson bewahrt.
Die raschen Fortschritte bei Technologien großer Sprachmodelle (LLM) führten zur Einführung leistungsstarker Open-Source-Instruktions-abgestimmter LLMs, die über die gleiche Textgenerierungsqualität wie Spitzenmodelle wie GPT-4 verfügen. Während das Aufkommen solcher Modelle die Übernahme von LLM-Technologien in sensiblen Informationsumgebungen beschleunigt, offenbaren die Autoren solcher Modelle nicht die für die Reproduktion der Ergebnisse erforderlichen Trainingsdaten, wodurch die Errungenschaften modellspezifisch werden. Da diese Open-Source-Modelle auch mehrsprachig sind, verringert sich dadurch der Nutzen des Trainings von sprachspezifischen LLMs, da eine verbesserte Inferenzberechnungseffizienz der einzige garantierte Vorteil dieses kostspieligen Verfahrens ist. Kostengünstigere Optionen wie die Erweiterung des Vokabulars und anschließendes fortgesetztes Vor-Training werden auch durch den Mangel an Zugang zu hochwertigen Instruktions-Abstimmungsdaten behindert, da dies der Hauptfaktor für die resultierenden Fähigkeiten der LLM-Aufgabenlösung ist. Um die Einschränkungen zu bewältigen und die Kosten des Sprachanpassungsprozesses zu senken, schlagen wir Learned Embedding Propagation (LEP) vor. Im Gegensatz zu bestehenden Ansätzen hat unsere Methode aufgrund des minimalen Einflusses auf vorhandenes LLM-Wissen geringere Anforderungen an die Trainingsdatengröße, das wir mithilfe eines neuartigen Ad-hoc-Embedding-Propagationsverfahrens verstärken, das es ermöglicht, den Schritt der Instruktions-Abstimmung zu überspringen und stattdessen das neue Sprachwissen direkt in jede vorhandene instruktions-abgestimmte Variante zu implementieren. Wir haben vier russische Vokabelanpassungen für LLaMa-3-8B und Mistral-7B evaluiert und gezeigt, dass LEP mit traditionellen Instruktions-Abstimmungsmethoden konkurrieren kann, indem eine Leistung erzielt wird, die mit OpenChat 3.5 und LLaMa-3-8B-Instruct vergleichbar ist, wobei weitere Verbesserungen durch Selbstkalibrierung und fortgesetzte Abstimmung die Fähigkeiten zur Aufgabenlösung verbessern.
Wir stellen OneKE vor, ein dockerisiertes, schema-geführtes Wissensextraktionssystem, das Wissen aus dem Web und Roh-PDF-Büchern extrahieren kann und verschiedene Bereiche (Wissenschaft, Nachrichten usw.) unterstützt. Speziell haben wir OneKE mit mehreren Agenten und einer konfigurierbaren Wissensbasis entworfen. Unterschiedliche Agenten erfüllen ihre jeweiligen Rollen, um Unterstützung für verschiedene Extraktionsszenarien zu ermöglichen. Die konfigurierbare Wissensbasis erleichtert die Schema-Konfiguration, die Fehlerfall-Debugging und -Korrektur, was die Leistung weiter verbessert. Empirische Bewertungen anhand von Benchmark-Datensätzen zeigen die Wirksamkeit von OneKE, während Fallstudien seine Anpassungsfähigkeit an vielfältige Aufgaben in verschiedenen Bereichen verdeutlichen und sein Potenzial für breite Anwendungen hervorheben. Wir haben den Code unter https://github.com/zjunlp/OneKE veröffentlicht und ein Video unter http://oneke.openkg.cn/demo.mp4 veröffentlicht.
In letzter Zeit begann "visuelle o1" in das Blickfeld der Menschen zu gelangen, mit der Erwartung, dass dieses langsam denkende Design visuelle Denkaufgaben lösen kann, insbesondere geometrische mathematische Probleme. Die Realität ist jedoch, dass aktuelle LVLMs (Große Vision-Sprachmodelle) kaum in der Lage sind, eine geometrische Figur genau zu kopieren, geschweige denn die komplexe inhärente Logik und die räumlichen Beziehungen innerhalb geometrischer Formen wirklich zu verstehen. Wir glauben, dass ein genaues Kopieren (starke Wahrnehmung) der erste Schritt zu visuellem o1 ist. Dementsprechend führen wir das Konzept der "langsamen Wahrnehmung" (SP) ein, das das Modell dazu anleitet, allmählich grundlegende Punkt-Linien-Kombinationen wahrzunehmen, während unsere Menschen komplexe geometrische Strukturen progressiv rekonstruieren. Es gibt zweifache Stufen in SP: a) Wahrnehmungsaufschlüsselung. Wahrnehmung ist nicht augenblicklich. In dieser Stufe werden komplexe geometrische Figuren in grundlegende einfache Einheiten zerlegt, um die geometrische Darstellung zu vereinheitlichen. b) Wahrnehmungsfluss, der anerkennt, dass das genaue Verfolgen einer Linie keine leichte Aufgabe ist. Diese Stufe zielt darauf ab, "lange visuelle Sprünge" beim Zurückverfolgen von Linienabschnitten zu vermeiden, indem ein vorgeschlagenes "Wahrnehmungslineal" verwendet wird, um jede Linie Strich für Strich nachzuverfolgen. Überraschenderweise genießt eine derart menschenähnliche Wahrnehmungsweise ein Inferenzzeit-Skalierungsgesetz - je langsamer, desto besser. Forscher haben in der Vergangenheit versucht, die Wahrnehmung des Modells zu beschleunigen, aber wir verlangsamen sie erneut, um dem Modell zu ermöglichen, das Bild schrittweise und sorgfältig zu lesen.
Wir stellen die selbstaufrufende Codegenerierung vor, eine neue Aufgabe, die entwickelt wurde, um die fortschrittlichen Denk- und Problemlösungsfähigkeiten von LLMs zu bewerten. In dieser Aufgabe werden den Modellen ein Grundproblem und ein damit verbundenes, komplexeres Problem präsentiert. Sie müssen das Grundproblem lösen und dann dessen Lösung nutzen, um das komplexere Problem anzugehen. Diese Arbeit umfasst drei wesentliche Beiträge. Erstens schlagen wir ein allgemeines Rezept zur Erzeugung anspruchsvollerer Versionen bestehender Benchmarks vor, was zur Schaffung von drei neuen Benchmarks führt: HumanEval Pro, MBPP Pro und BigCodeBench-Lite Pro, die speziell entwickelt wurden, um LLMs in der selbstaufrufenden Codegenerierung zu bewerten. Zweitens haben wir aus der Analyse experimenteller Ergebnisse über zwanzig LLMs auf unseren Benchmarks zwei wichtige Beobachtungen gemacht: (i) Die meisten LLMs glänzen in traditionellen Codegenerierungsbenchmarks wie HumanEval und MBPP, aber ihre Leistung sinkt bei selbstaufrufenden Aufgaben. Zum Beispiel erreicht o1-mini 96,2% Pass@1 bei HumanEval, aber nur 76,2% bei HumanEval Pro. (ii) Bei der selbstaufrufenden Codegenerierungsaufgabe zeigen die anweisungsgesteuerten Modelle nur marginale Verbesserungen im Vergleich zu den Grundmodellen. Drittens offenbaren wir die Arten von Fehlermodi, die in unseren Evaluierungsergebnissen existieren. All diese Ergebnisse unterstreichen die Notwendigkeit weiterer Fortschritte bei selbstaufrufenden Codegenerierungsaufgaben und bieten eine neue Richtung für zukünftige Forschung zur Verbesserung der Code-Argumentationsfähigkeiten von LLMs.