Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Computer Vision (CV) hat bisher noch nicht die Null-Schuss-Aufgabenverallgemeinerung erreicht, die in der Natural Language Processing (NLP) beobachtet wurde, obwohl sie viele der Meilensteine in der NLP befolgt, wie z.B. große Transformer-Modelle, umfangreiches Pre-Training und das Auto-Regression-Paradigma, unter anderem. In diesem Paper untersuchen wir die Idee, dass die CV diskrete und terminologische Aufgabendefinitionen (z.B. "Bildsegmentierung") übernimmt, die ein wesentliches Hindernis für die Null-Schuss-Aufgabenverallgemeinerung darstellen könnten. Unsere Hypothese besagt, dass tiefe Modelle aufgrund dieser terminologischen Definitionen Schwierigkeiten haben, zu neuen Aufgaben zu generalisieren, da sie zuvor gesehene Aufgaben nicht wirklich verstehen. Um dies zu überprüfen, führen wir Erklärende Anweisungen ein, die eine intuitive Möglichkeit bieten, CV-Aufgabenziele durch detaillierte sprachliche Transformationen von Eingabebildern zu Ausgaben zu definieren. Wir erstellen einen Datensatz im großen Maßstab, der 12 Millionen "Bild-Eingabe zu erklärender Anweisung zu Ausgabe"-Triplets umfasst, und trainieren ein auf Auto-Regression basierendes Modell für Bildsprache (AR-basiertes VLM), das sowohl Bilder als auch erklärende Anweisungen als Eingabe erhält. Indem es lernt, diesen Anweisungen zu folgen, erreicht das AR-basierte VLM eine Null-Schuss-Fähigkeit auf Anweisungsebene für zuvor gesehene Aufgaben und zeigt eine starke Null-Schuss-Verallgemeinerung für ungesehene CV-Aufgaben. Der Code und der Datensatz werden in unserem GitHub-Repository öffentlich verfügbar sein.
Multimodale große Sprachmodelle (MLLMs) haben ein erhebliches Potenzial im medizinischen Bereich, aber ihre Fähigkeiten sind oft durch unzureichende Daten in bestimmten medizinischen Bereichen begrenzt, was die Notwendigkeit betont zu verstehen, welche Arten von Bildern von MLLMs zur Verallgemeinerung verwendet werden können. Aktuelle Forschungsergebnisse legen nahe, dass das Mehrfachaufgabentraining das Einzelaufgabentraining übertrifft, da sich verschiedene Aufgaben gegenseitig nutzen können, aber oft die internen Beziehungen innerhalb dieser Aufgaben übersehen und nur begrenzte Anleitung zur Auswahl von Datensätzen zur Verbesserung spezifischer Aufgaben bieten. Um dieses Phänomen zu analysieren, haben wir versucht, die kompositorische Verallgemeinerung (CG) - die Fähigkeit von Modellen, neue Kombinationen zu verstehen, indem gelernte Elemente neu kombiniert werden - als Leitfaden zu verwenden. Da medizinische Bilder genau durch Modalität, anatomisches Gebiet und Aufgabe definiert werden können und somit eine Umgebung für die Erforschung von CG bieten. Daher haben wir 106 medizinische Datensätze zusammengestellt, um Med-MAT für umfassende Experimente zu erstellen. Die Experimente bestätigten, dass MLLMs CG nutzen können, um unbekannte medizinische Bilder zu verstehen, und identifizierten CG als einen der Haupttreiber der beobachteten Verallgemeinerung im Mehrfachaufgabentraining. Zusätzliche Studien zeigten, dass CG Datensätze mit begrenzten Daten effektiv unterstützt und eine konsistente Leistung über verschiedene Grundstrukturen liefert, was seine Vielseitigkeit und breite Anwendbarkeit unterstreicht. Med-MAT ist öffentlich unter https://github.com/FreedomIntelligence/Med-MAT verfügbar.
Die bemerkenswerte Leistung von Modellen wie dem OpenAI o1 kann auf ihre Fähigkeit zurückgeführt werden, menschenähnliches Langzeitdenken während der Inferenz zu emulieren. Diese Modelle verwenden erweiterte Denkprozesse (Chain-of-Thought, CoT), um mehrere Strategien zu erkunden und die Problemlösungsfähigkeiten zu verbessern. Eine entscheidende Frage bleibt jedoch offen: Wie lassen sich die Rechenressourcen während der Tests intelligent und effizient skalieren? Dieser Artikel präsentiert die erste umfassende Studie zum weit verbreiteten Problem des Überdenkens in diesen Modellen, bei dem übermäßige Rechenressourcen für einfache Probleme mit minimalem Nutzen allokiert werden. Wir führen neue Effizienzmetriken aus Ergebnis- und Prozessperspektiven ein, um den rationalen Einsatz von Rechenressourcen durch o1-ähnliche Modelle zu bewerten. Unter Verwendung eines Selbsttrainingsparadigmas schlagen wir Strategien vor, um das Überdenken zu reduzieren, die Denkprozesse zu optimieren, ohne die Genauigkeit zu beeinträchtigen. Experimentelle Ergebnisse zeigen, dass unser Ansatz den Rechenaufwand erfolgreich reduziert, während die Modellleistung über eine Reihe von Testsets mit unterschiedlichen Schwierigkeitsgraden wie GSM8K, MATH500, GPQA und AIME erhalten bleibt.
Neueste Fortschritte in der generativen Modellierung ermöglichen nun die Erstellung von 4D-Inhalten (bewegliche 3D-Objekte), die mit Texteingaben gesteuert werden. Die 4D-Generierung birgt großes Potenzial in Anwendungen wie virtuellen Welten, Medien und Spielen, jedoch bieten bestehende Methoden nur eine begrenzte Kontrolle über das Aussehen und die Geometrie der generierten Inhalte. In dieser Arbeit stellen wir eine Methode zur Animation von vom Benutzer bereitgestellten 3D-Objekten vor, die durch textuelle Eingaben zur Steuerung der 4D-Generierung führt, wodurch benutzerdefinierte Animationen ermöglicht werden, während die Identität des Originalobjekts erhalten bleibt. Zunächst wandeln wir ein 3D-Gitter in ein "statisches" 4D-Neural Radiance Field (NeRF) um, das die visuellen Merkmale des Eingabeobjekts bewahrt. Anschließend animieren wir das Objekt mithilfe eines Bild-zu-Video-Diffusionsmodells, das durch Text gesteuert wird. Zur Verbesserung der Bewegungsrealität führen wir ein inkrementelles Blickwinkelauswahlprotokoll zur Auswahl von Perspektiven ein, um lebensechte Bewegungen zu fördern, sowie einen maskierten Score Distillation Sampling (SDS)-Verlust, der Aufmerksamkeitskarten nutzt, um die Optimierung auf relevante Regionen zu fokussieren. Wir evaluieren unser Modell hinsichtlich zeitlicher Kohärenz, Einhaltung der Eingabeaufforderungen und visueller Treue und stellen fest, dass unsere Methode Baselines, die auf anderen Ansätzen basieren, übertrifft, indem sie bis zu dreifache Verbesserungen bei der Identitätserhaltung erzielt, gemessen an LPIPS-Werten, und visuelle Qualität effektiv mit dynamischen Inhalten ausbalanciert.
Die rasante Entwicklung großer Sprachmodelle (LLMs) hat ihre Fähigkeiten bei fortgeschrittenen Denkaufgaben wie mathematischer Problemlösung, Codegenerierung und juristischer Analyse erschlossen. Zentral für diesen Fortschritt sind Inferenzzeit-Reasoning-Algorithmen, die die Ausgaben verfeinern, indem sie mehrere Lösungswege erkunden, jedoch auf Kosten steigender Rechenanforderungen und Antwortverzögerungen. Bestehende Bedienungssysteme scheitern daran, sich an das Skalierungsverhalten dieser Algorithmen oder die variierende Schwierigkeit von Anfragen anzupassen, was zu ineffizienter Ressourcennutzung und unerfüllten Latenzzielen führt. Wir stellen Dynasor vor, ein System, das die Rechenleistung zur Inferenzzeit für LLM-Reasoning-Anfragen optimiert. Im Gegensatz zu traditionellen Engines verfolgt und plant Dynasor Anfragen innerhalb von Reasoning-Anfragen und verwendet Certaindex, einen Proxy, der den statistischen Reasoning-Fortschritt basierend auf Modellgewissheit misst, um die Rechenzuweisung dynamisch zu steuern. Dynasor passt die Planung an den Reasoning-Fortschritt an: Es weist mehr Rechenleistung für schwierige Anfragen zu, reduziert die Rechenleistung für einfachere Anfragen und beendet aussichtslose Anfragen frühzeitig, um Genauigkeit, Latenz und Kosten auszubalancieren. Auf verschiedenen Datensätzen und Algorithmen reduziert Dynasor die Rechenleistung bei Stapelverarbeitung um bis zu 50 % und ermöglicht 3,3-mal höhere Anfragraten oder 4,7-mal engere Latenz-SLOs bei der Online-Bedienung.
Wir präsentieren SWE-Gym, die erste Umgebung zur Schulung von Agenten für Softwaretechnik (SWE) in der realen Welt. SWE-Gym enthält 2.438 Python-Aufgaben aus der realen Welt, von denen jede eine Codebasis mit einer ausführbaren Laufzeitumgebung, Modultests und eine in natürlicher Sprache spezifizierte Aufgabe umfasst. Wir verwenden SWE-Gym zur Schulung von auf Sprachmodellen basierenden SWE-Agenten und erzielen dabei bis zu 19% absolute Verbesserungen der Lösungsrate auf den beliebten SWE-Bench Verified und Lite Testsets. Wir experimentieren auch mit der Skalierung zur Inferenzzeit durch Verifizierer, die auf Agententrajektorien trainiert sind, die aus SWE-Gym entnommen wurden. In Kombination mit unseren feinabgestimmten SWE-Agenten erreichen wir 32,0% bzw. 26,0% auf SWE-Bench Verified und Lite und setzen damit einen neuen Stand der Technik für offengewichtige SWE-Agenten. Um weitere Forschung zu erleichtern, veröffentlichen wir SWE-Gym, Modelle und Agententrajektorien öffentlich.
Wir stellen TangoFlux vor, ein effizientes Text-zu-Audio (TTA) Generativmodell mit 515 Millionen Parametern, das in der Lage ist, innerhalb von nur 3,7 Sekunden auf einer einzelnen A40 GPU bis zu 30 Sekunden 44,1 kHz Audio zu generieren. Eine zentrale Herausforderung bei der Ausrichtung von TTA-Modellen besteht in der Schwierigkeit, Präferenzpaare zu erstellen, da TTA keine strukturierten Mechanismen wie überprüfbare Belohnungen oder Goldstandard-Antworten bietet, die für große Sprachmodelle (LLMs) verfügbar sind. Um diesem Problem zu begegnen, schlagen wir CLAP-Ranked Preference Optimization (CRPO) vor, ein neuartiges Framework, das iterativ Präferenzdaten generiert und optimiert, um die Ausrichtung von TTA zu verbessern. Wir zeigen, dass das mit CRPO generierte Audio-Präferenzdatenset bestehende Alternativen übertrifft. Mit diesem Framework erzielt TangoFlux Spitzenleistungen in objektiven und subjektiven Benchmarks. Wir stellen den gesamten Code und die Modelle als Open Source zur Verfügung, um weitere Forschung in der TTA-Generierung zu unterstützen.
Als eine bestätigte Notwendigkeit bleibt die konsistente Bearbeitung von In-the-Wild-Bildern aufgrund verschiedener unkontrollierbarer Faktoren wie Objektposen, Lichtverhältnisse und Fotoumgebungen eine technische Herausforderung. Edicho bietet eine trainingsfreie Lösung auf Basis von Diffusionsmodellen, die auf einem grundlegenden Gestaltungsprinzip beruht, nämlich der Verwendung expliziter Bildkorrespondenz zur Steuerung der Bearbeitung. Die Schlüsselkomponenten umfassen ein Aufmerksamkeitsmanipulationsmodul und eine sorgfältig verfeinerte klassifizierungsfreie Anleitung (CFG)-Rauschunterdrückungsstrategie, die beide die vorab geschätzte Korrespondenz berücksichtigen. Ein solcher Inferenzzeit-Algorithmus zeichnet sich durch seine Plug-and-Play-Natur aus und ist mit den meisten diffusionsbasierten Bearbeitungsmethoden wie ControlNet und BrushNet kompatibel. Umfangreiche Ergebnisse zeigen die Wirksamkeit von Edicho bei der konsistenten Bearbeitung von Bildern unter verschiedenen Einstellungen. Wir werden den Code veröffentlichen, um zukünftige Studien zu erleichtern.
Wir präsentieren PERSE, eine Methode zur Erstellung eines animierbaren personalisierten generativen Avatars aus einem Referenzporträt. Unser Avatar-Modell ermöglicht die Bearbeitung von Gesichtsmerkmalen in einem kontinuierlichen und entwirrten latenten Raum, um jedes Gesichtsmerkmal zu steuern, während die Identität der Person erhalten bleibt. Um dies zu erreichen, beginnt unsere Methode mit der Synthese von groß angelegten synthetischen 2D-Video-Datensätzen, wobei jedes Video konsistente Veränderungen in der Gesichtsausdruck und Blickwinkel enthält, kombiniert mit einer Variation eines spezifischen Gesichtsmerkmals des ursprünglichen Eingangs. Wir schlagen eine neuartige Pipeline zur Erzeugung hochwertiger, fotorealistischer 2D-Videos mit der Bearbeitung von Gesichtsmerkmalen vor. Unter Verwendung dieses synthetischen Merkmalsdatensatzes präsentieren wir eine personalisierte Avatar-Erstellungsmethode basierend auf dem 3D-Gauß-Splatting, die einen kontinuierlichen und entwirrten latenten Raum für intuitive Bearbeitung von Gesichtsmerkmalen lernt. Um sanfte Übergänge in diesem latenten Raum zu erzwingen, führen wir eine Technik zur Regularisierung des latenten Raums ein, indem wir interpolierte 2D-Gesichter als Aufsicht verwenden. Im Vergleich zu früheren Ansätzen zeigen wir, dass PERSE hochwertige Avatare mit interpolierten Merkmalen generiert und dabei die Identität der Referenzperson bewahrt.
Die raschen Fortschritte bei Technologien großer Sprachmodelle (LLM) führten zur Einführung leistungsstarker Open-Source-Instruktions-abgestimmter LLMs, die über die gleiche Textgenerierungsqualität wie Spitzenmodelle wie GPT-4 verfügen. Während das Aufkommen solcher Modelle die Übernahme von LLM-Technologien in sensiblen Informationsumgebungen beschleunigt, offenbaren die Autoren solcher Modelle nicht die für die Reproduktion der Ergebnisse erforderlichen Trainingsdaten, wodurch die Errungenschaften modellspezifisch werden. Da diese Open-Source-Modelle auch mehrsprachig sind, verringert sich dadurch der Nutzen des Trainings von sprachspezifischen LLMs, da eine verbesserte Inferenzberechnungseffizienz der einzige garantierte Vorteil dieses kostspieligen Verfahrens ist. Kostengünstigere Optionen wie die Erweiterung des Vokabulars und anschließendes fortgesetztes Vor-Training werden auch durch den Mangel an Zugang zu hochwertigen Instruktions-Abstimmungsdaten behindert, da dies der Hauptfaktor für die resultierenden Fähigkeiten der LLM-Aufgabenlösung ist. Um die Einschränkungen zu bewältigen und die Kosten des Sprachanpassungsprozesses zu senken, schlagen wir Learned Embedding Propagation (LEP) vor. Im Gegensatz zu bestehenden Ansätzen hat unsere Methode aufgrund des minimalen Einflusses auf vorhandenes LLM-Wissen geringere Anforderungen an die Trainingsdatengröße, das wir mithilfe eines neuartigen Ad-hoc-Embedding-Propagationsverfahrens verstärken, das es ermöglicht, den Schritt der Instruktions-Abstimmung zu überspringen und stattdessen das neue Sprachwissen direkt in jede vorhandene instruktions-abgestimmte Variante zu implementieren. Wir haben vier russische Vokabelanpassungen für LLaMa-3-8B und Mistral-7B evaluiert und gezeigt, dass LEP mit traditionellen Instruktions-Abstimmungsmethoden konkurrieren kann, indem eine Leistung erzielt wird, die mit OpenChat 3.5 und LLaMa-3-8B-Instruct vergleichbar ist, wobei weitere Verbesserungen durch Selbstkalibrierung und fortgesetzte Abstimmung die Fähigkeiten zur Aufgabenlösung verbessern.
Wir stellen OneKE vor, ein dockerisiertes, schema-geführtes Wissensextraktionssystem, das Wissen aus dem Web und Roh-PDF-Büchern extrahieren kann und verschiedene Bereiche (Wissenschaft, Nachrichten usw.) unterstützt. Speziell haben wir OneKE mit mehreren Agenten und einer konfigurierbaren Wissensbasis entworfen. Unterschiedliche Agenten erfüllen ihre jeweiligen Rollen, um Unterstützung für verschiedene Extraktionsszenarien zu ermöglichen. Die konfigurierbare Wissensbasis erleichtert die Schema-Konfiguration, die Fehlerfall-Debugging und -Korrektur, was die Leistung weiter verbessert. Empirische Bewertungen anhand von Benchmark-Datensätzen zeigen die Wirksamkeit von OneKE, während Fallstudien seine Anpassungsfähigkeit an vielfältige Aufgaben in verschiedenen Bereichen verdeutlichen und sein Potenzial für breite Anwendungen hervorheben. Wir haben den Code unter https://github.com/zjunlp/OneKE veröffentlicht und ein Video unter http://oneke.openkg.cn/demo.mp4 veröffentlicht.
In letzter Zeit begann "visuelle o1" in das Blickfeld der Menschen zu gelangen, mit der Erwartung, dass dieses langsam denkende Design visuelle Denkaufgaben lösen kann, insbesondere geometrische mathematische Probleme. Die Realität ist jedoch, dass aktuelle LVLMs (Große Vision-Sprachmodelle) kaum in der Lage sind, eine geometrische Figur genau zu kopieren, geschweige denn die komplexe inhärente Logik und die räumlichen Beziehungen innerhalb geometrischer Formen wirklich zu verstehen. Wir glauben, dass ein genaues Kopieren (starke Wahrnehmung) der erste Schritt zu visuellem o1 ist. Dementsprechend führen wir das Konzept der "langsamen Wahrnehmung" (SP) ein, das das Modell dazu anleitet, allmählich grundlegende Punkt-Linien-Kombinationen wahrzunehmen, während unsere Menschen komplexe geometrische Strukturen progressiv rekonstruieren. Es gibt zweifache Stufen in SP: a) Wahrnehmungsaufschlüsselung. Wahrnehmung ist nicht augenblicklich. In dieser Stufe werden komplexe geometrische Figuren in grundlegende einfache Einheiten zerlegt, um die geometrische Darstellung zu vereinheitlichen. b) Wahrnehmungsfluss, der anerkennt, dass das genaue Verfolgen einer Linie keine leichte Aufgabe ist. Diese Stufe zielt darauf ab, "lange visuelle Sprünge" beim Zurückverfolgen von Linienabschnitten zu vermeiden, indem ein vorgeschlagenes "Wahrnehmungslineal" verwendet wird, um jede Linie Strich für Strich nachzuverfolgen. Überraschenderweise genießt eine derart menschenähnliche Wahrnehmungsweise ein Inferenzzeit-Skalierungsgesetz - je langsamer, desto besser. Forscher haben in der Vergangenheit versucht, die Wahrnehmung des Modells zu beschleunigen, aber wir verlangsamen sie erneut, um dem Modell zu ermöglichen, das Bild schrittweise und sorgfältig zu lesen.
Wir stellen die selbstaufrufende Codegenerierung vor, eine neue Aufgabe, die entwickelt wurde, um die fortschrittlichen Denk- und Problemlösungsfähigkeiten von LLMs zu bewerten. In dieser Aufgabe werden den Modellen ein Grundproblem und ein damit verbundenes, komplexeres Problem präsentiert. Sie müssen das Grundproblem lösen und dann dessen Lösung nutzen, um das komplexere Problem anzugehen. Diese Arbeit umfasst drei wesentliche Beiträge. Erstens schlagen wir ein allgemeines Rezept zur Erzeugung anspruchsvollerer Versionen bestehender Benchmarks vor, was zur Schaffung von drei neuen Benchmarks führt: HumanEval Pro, MBPP Pro und BigCodeBench-Lite Pro, die speziell entwickelt wurden, um LLMs in der selbstaufrufenden Codegenerierung zu bewerten. Zweitens haben wir aus der Analyse experimenteller Ergebnisse über zwanzig LLMs auf unseren Benchmarks zwei wichtige Beobachtungen gemacht: (i) Die meisten LLMs glänzen in traditionellen Codegenerierungsbenchmarks wie HumanEval und MBPP, aber ihre Leistung sinkt bei selbstaufrufenden Aufgaben. Zum Beispiel erreicht o1-mini 96,2% Pass@1 bei HumanEval, aber nur 76,2% bei HumanEval Pro. (ii) Bei der selbstaufrufenden Codegenerierungsaufgabe zeigen die anweisungsgesteuerten Modelle nur marginale Verbesserungen im Vergleich zu den Grundmodellen. Drittens offenbaren wir die Arten von Fehlermodi, die in unseren Evaluierungsergebnissen existieren. All diese Ergebnisse unterstreichen die Notwendigkeit weiterer Fortschritte bei selbstaufrufenden Codegenerierungsaufgaben und bieten eine neue Richtung für zukünftige Forschung zur Verbesserung der Code-Argumentationsfähigkeiten von LLMs.