Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Der Durchbruch von OpenAI o1 hebt das Potenzial hervor, die Argumentation zur Verbesserung von LLM zu stärken. Dennoch hat sich die meiste Forschung zur Argumentation auf mathematische Aufgaben konzentriert, wodurch Bereiche wie die Medizin untererforscht geblieben sind. Der medizinische Bereich, obwohl von der Mathematik verschieden, erfordert ebenfalls robuste Argumentation, um zuverlässige Antworten zu liefern, angesichts hoher Gesundheitsstandards. Die Überprüfung medizinischer Argumentation ist jedoch herausfordernd im Gegensatz zu jener in der Mathematik. Um dem entgegenzuwirken, schlagen wir vor, überprüfbare medizinische Probleme mit einem medizinischen Verifizierer vorzulegen, um die Korrektheit der Modellausgaben zu überprüfen. Diese überprüfbare Natur ermöglicht Fortschritte in der medizinischen Argumentation durch einen zweistufigen Ansatz: (1) Verwendung des Verifizierers, um die Suche nach einer komplexen Argumentationstrajectorie zur Feinabstimmung von LLMs zu lenken, (2) Anwendung von Verstärkendem Lernen (RL) mit verifiziererbasierten Belohnungen, um die komplexe Argumentation weiter zu verbessern. Schließlich stellen wir HuatuoGPT-o1 vor, ein medizinisches LLM, das zu komplexer Argumentation fähig ist und allgemeine sowie medizinisch-spezifische Baselines mit nur 40.000 überprüfbaren Problemen übertrifft. Experimente zeigen, dass komplexe Argumentation die Lösung medizinischer Probleme verbessert und stärker von RL profitiert. Wir hoffen, dass unser Ansatz Fortschritte in der Argumentation in medizinischen und anderen spezialisierten Bereichen inspiriert.
Wir präsentieren 1,58-Bit FLUX, den ersten erfolgreichen Ansatz zur Quantisierung des modernsten Text-zu-Bild-Generierungsmodells, FLUX.1-dev, unter Verwendung von 1,58-Bit-Gewichten (d. h. Werten in {-1, 0, +1}), während eine vergleichbare Leistung für die Generierung von 1024 x 1024 Bildern beibehalten wird. Bemerkenswert ist, dass unsere Quantisierungsmethode ohne Zugriff auf Bilddaten funktioniert und ausschließlich auf der Selbstüberwachung des FLUX.1-dev-Modells beruht. Darüber hinaus entwickeln wir einen benutzerdefinierten Kernel, der für 1,58-Bit-Operationen optimiert ist und eine 7,7-fache Reduzierung des Modellspeichers, eine 5,1-fache Reduzierung des Inferenzspeichers und eine verbesserte Inferenzlatenz erreicht. Umfangreiche Bewertungen anhand der GenEval- und T2I Compbench-Benchmarks zeigen die Wirksamkeit von 1,58-Bit FLUX bei der Aufrechterhaltung der Generierungsqualität und gleichzeitigen signifikanten Verbesserung der Recheneffizienz.
Aufbauend auf den Grundlagen des Sprachmodellierens in der natürlichen Sprachverarbeitung hat sich die Next Token Prediction (NTP) zu einem vielseitigen Schulungsziel für maschinelles Lernen in verschiedenen Modalitäten entwickelt und dabei beträchtlichen Erfolg erzielt. Da Large Language Models (LLMs) sich weiterentwickelt haben, um Verständnis- und Generierungsaufgaben innerhalb der textuellen Modalität zu vereinen, hat die jüngste Forschung gezeigt, dass Aufgaben aus verschiedenen Modalitäten ebenfalls effektiv im NTP-Framework zusammengefasst werden können, wodurch multimodale Informationen in Tokens umgewandelt und das nächste Token basierend auf dem Kontext vorhergesagt wird. Diese Übersicht stellt eine umfassende Taxonomie vor, die sowohl Verständnis als auch Generierung im multimodalen Lernen durch die Linse von NTP vereint. Die vorgeschlagene Taxonomie umfasst fünf Schlüsselaspekte: Multimodale Tokenisierung, MMNTP-Modellarchitekturen, vereinheitlichte Aufgabenrepräsentation, Datensätze \& Evaluierung sowie offene Herausforderungen. Diese neue Taxonomie zielt darauf ab, Forscher bei der Erforschung multimodaler Intelligenz zu unterstützen. Ein zugehöriges GitHub-Repository, das die neuesten Arbeiten und Repos sammelt, ist unter https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction verfügbar.
Die Orientierung ist ein Schlüsseleigenschaft von Objekten, die entscheidend ist, um ihre räumliche Ausrichtung und Anordnung in Bildern zu verstehen. Dennoch bleiben praktische Lösungen für eine genaue Orientierungsschätzung aus einem einzigen Bild weitgehend unerforscht. In dieser Arbeit stellen wir Orient Anything vor, das erste Experten- und grundlegende Modell, das entwickelt wurde, um die Objektorientierung in einem einzelnen- und freien Bild zu schätzen. Aufgrund des Mangels an gelabelten Daten schlagen wir vor, Wissen aus der 3D-Welt zu extrahieren. Durch die Entwicklung eines Workflows zur Annotation der Vorderseite von 3D-Objekten und zur Erzeugung von Bildern aus zufälligen Ansichten sammeln wir 2 Millionen Bilder mit präzisen Orientierungsannotationen. Um den Datensatz voll auszuschöpfen, entwerfen wir ein robustes Trainingsziel, das die 3D-Orientierung als Wahrscheinlichkeitsverteilungen von drei Winkeln modelliert und die Objektorientierung durch Anpassung dieser Verteilungen vorhersagt. Darüber hinaus setzen wir mehrere Strategien ein, um den Transfer von synthetischen zu realen Daten zu verbessern. Unser Modell erreicht eine Orientierungsschätzungsgenauigkeit auf dem neuesten Stand der Technik sowohl in gerenderten als auch in realen Bildern und zeigt eine beeindruckende Zero-Shot-Fähigkeit in verschiedenen Szenarien. Noch wichtiger ist, dass unser Modell viele Anwendungen verbessert, wie das Verständnis und die Generierung komplexer räumlicher Konzepte und die Anpassung der 3D-Objektposition.
Aktuelle multimodale große Sprachmodelle (MLLMs) haben Schwierigkeiten mit der feinkörnigen oder präzisen Erfassung von visuellen Inhalten, obwohl sie ein umfassendes Verständnis und eine Argumentation in einem breiten Spektrum von Anwendungen im Bereich der Bildverarbeitung bieten. In jüngsten Studien wurden entweder Werkzeuge entwickelt oder spezifische visuelle Aufgaben in das autoregressive Framework integriert, oft auf Kosten der Gesamtleistung der multimodalen Modelle. Um dieses Problem anzugehen und MLLMs auf skalierbare Weise mit visuellen Aufgaben zu verbessern, schlagen wir die Methode der Task-Präferenz-Optimierung (TPO) vor, die auf differenzierbaren Aufgabenvorlieben basiert, die von typischen feinkörnigen visuellen Aufgaben abgeleitet sind. TPO führt lernbare Aufgabentoken ein, die Verbindungen zwischen mehreren aufgabenbezogenen Köpfen und dem MLLM herstellen. Durch die Nutzung von umfangreichen visuellen Labels während des Trainings verbessert TPO signifikant die multimodalen Fähigkeiten des MLLMs und die aufgabenbezogene Leistung. Durch das Co-Training mehrerer Aufgaben innerhalb von TPO beobachten wir synergistische Vorteile, die die Leistung einzelner Aufgaben über das hinaus steigern, was durch Einzelaufgabentrainingsmethoden erreichbar ist. Unsere Umsetzung dieses Ansatzes mit VideoChat und LLaVA zeigt eine insgesamt um 14,6 % verbesserte multimodale Leistung im Vergleich zu Basismodellen. Darüber hinaus zeigt MLLM-TPO robuste Zero-Shot-Fähigkeiten über verschiedene Aufgaben hinweg und liefert vergleichbare Ergebnisse wie modernste überwachte Modelle. Der Code wird unter https://github.com/OpenGVLab/TPO veröffentlicht.
In dieser Arbeit untersuchen wir die automatische Designkomposition aus multimodalen grafischen Elementen. Obwohl in jüngsten Studien verschiedene generative Modelle für Grafikdesign entwickelt wurden, stehen sie in der Regel vor den folgenden Einschränkungen: Sie konzentrieren sich nur auf bestimmte Teilaufgaben und sind weit davon entfernt, die Designkompositionsaufgabe zu erreichen; sie berücksichtigen nicht die hierarchischen Informationen von Grafikdesigns während des Generierungsprozesses. Um diese Probleme zu bewältigen, führen wir das Schichtdesignprinzip in Large Multimodal Models (LMMs) ein und schlagen einen neuen Ansatz namens LaDeCo vor, um diese anspruchsvolle Aufgabe zu bewältigen. Konkret führt LaDeCo zunächst eine Schichtplanung für einen gegebenen Elementesatz durch, indem es die Eingabeelemente basierend auf ihrem Inhalt in verschiedene semantische Schichten aufteilt. Basierend auf den Planungsergebnissen sagt es anschließend Elementattribute vorher, die die Designkomposition schichtweise steuern, und integriert das gerenderte Bild der zuvor generierten Schichten in den Kontext. Mit diesem aufschlussreichen Design zerlegt LaDeCo die schwierige Aufgabe in kleinere, überschaubare Schritte, was den Generierungsprozess reibungsloser und klarer macht. Die experimentellen Ergebnisse zeigen die Wirksamkeit von LaDeCo in der Designkomposition. Darüber hinaus zeigen wir, dass LaDeCo einige interessante Anwendungen im Grafikdesign ermöglicht, wie beispielsweise Auflösungsanpassung, Elementfüllung, Designvariation usw. Darüber hinaus übertrifft es sogar spezialisierte Modelle in einigen Design-Teilaufgaben ohne jegliches aufgabenspezifisches Training.
Die personalisierte Videoerstellung ohne vorheriges Training hat aufgrund ihres erheblichen Anwendungspotenzials erhebliche Aufmerksamkeit erlangt. Bestehende Methoden setzen zusätzliche Modelle ein, um Referenzmerkmale des Subjekts zu extrahieren und einzufügen, da angenommen wird, dass das Video Diffusion Model (VDM) allein für die personalisierte Videoerstellung ohne vorheriges Training nicht ausreicht. Diese Methoden haben jedoch oft Schwierigkeiten, ein konsistentes Erscheinungsbild des Subjekts aufrechtzuerhalten, aufgrund von suboptimalen Techniken zur Merkmalsextraktion und -einspeisung. In diesem Papier zeigen wir auf, dass das VDM von Natur aus die Fähigkeit besitzt, Subjektmerkmale zu extrahieren und einzufügen. Abweichend von früheren heuristischen Ansätzen stellen wir ein neuartiges Framework vor, das die inhärente Kraft des VDM nutzt, um eine hochwertige personalisierte Videoerstellung ohne vorheriges Training zu ermöglichen. Speziell für die Merkmalsextraktion führen wir Referenzbilder direkt in das VDM ein und nutzen seinen intrinsischen Prozess der Merkmalsextraktion, der nicht nur feingranulare Merkmale liefert, sondern auch signifikant mit dem vorab trainierten Wissen des VDM übereinstimmt. Für die Merkmalseinspeisung entwickeln wir eine innovative bidirektionale Interaktion zwischen Subjektmerkmalen und generiertem Inhalt durch räumliche Selbst-Aufmerksamkeit innerhalb des VDM, um sicherzustellen, dass das VDM eine bessere Subjekttreue aufweist, während die Vielfalt des generierten Videos erhalten bleibt. Experimente zur personalisierten menschlichen und objektbezogenen Videoerstellung bestätigen die Wirksamkeit unseres Frameworks.
Die kambrische Explosion leicht zugänglicher vortrainierter Diffusionsmodelle deutet auf einen Bedarf an Methoden hin, die mehrere verschiedene vortrainierte Diffusionsmodelle kombinieren, ohne die signifikante Rechenlast eines erneuten Trainings eines größeren kombinierten Modells zu verursachen. In diesem Artikel formulieren wir das Problem der Kombination mehrerer vortrainierter Diffusionsmodelle in der Generierungsphase unter einem neu vorgeschlagenen Rahmen namens Superposition. Theoretisch leiten wir Superposition aus strengen Grundprinzipien ab, die aus der bekannten Kontinuitätsgleichung stammen, und entwerfen zwei neuartige Algorithmen, die speziell für die Kombination von Diffusionsmodellen in SuperDiff entwickelt wurden. SuperDiff nutzt einen neuen skalierbaren It\^o-Dichteschätzer für die Log-Likelihood der Diffusions-SDE, der im Vergleich zum bekannten Hutchinson-Schätzer für Divergenzberechnungen keine zusätzlichen Kosten verursacht. Wir zeigen, dass SuperDiff für große vortrainierte Diffusionsmodelle skalierbar ist, da die Superposition ausschließlich durch Komposition während der Inferenz durchgeführt wird. Zudem bietet es eine problemlose Implementierung, da es verschiedene vortrainierte Vektorfelder durch ein automatisches Neugewichtungsschema kombiniert. Beachtenswert ist, dass SuperDiff effizient während der Inferenzzeit ist und traditionelle Kompositionsoperatoren wie das logische ODER und das logische UND nachahmt. Wir zeigen empirisch den Nutzen von SuperDiff bei der Erzeugung vielfältigerer Bilder auf CIFAR-10, bei der treuen prompt-konditionierten Bildbearbeitung mit Stable Diffusion und bei der verbesserten bedingungslosen de-novo-Strukturdesign von Proteinen. https://github.com/necludov/super-diffusion
Das Feintuning großer Sprachmodelle (LLMs) für nachgelagerte Aufgaben ist ein weit verbreiteter Ansatz, führt jedoch oft zu einer Verschlechterung der Sicherheit bei sicherheitsausgerichteten LLMs. Derzeit adressieren viele Lösungen dieses Problem, indem sie zusätzliche Sicherheitsdaten einbeziehen, was in vielen Fällen jedoch unpraktisch sein kann. In diesem Artikel behandeln wir die Frage: Wie können wir die Leistung bei nachgelagerten Aufgaben verbessern, während wir die Sicherheit in LLMs bewahren, ohne auf zusätzliche Sicherheitsdaten angewiesen zu sein? Wir schlagen eine einfache und effektive Methode vor, die die inhärente Sicherheit von LLMs bewahrt und gleichzeitig ihre Leistung bei nachgelagerten Aufgaben verbessert: das Zusammenführen der Gewichte von vor- und nach dem Feintuning sicherheitsausgerichteter Modelle. Experimentelle Ergebnisse über verschiedene nachgelagerte Aufgaben, Modelle und Zusammenführungsmethoden zeigen, dass dieser Ansatz die Sicherheitsverschlechterung effektiv mildert, während die Leistung bei nachgelagerten Aufgaben verbessert wird. Dies bietet eine praktische Lösung zur Anpassung von sicherheitsausgerichteten LLMs.
Die Abfrage von Graphdaten ist entscheidend, um große Sprachmodelle (LLM) sowohl mit Wissensdaten aus dem Open Domain als auch mit privaten Unternehmensdaten zu erweitern, und sie ist auch eine Schlüsselkomponente im kürzlich vorgestellten GraphRAG-System (Edge et al., 2024). Trotz jahrzehntelanger Forschung zu Wissensgraphen und Wissensdatenbank-Fragenbeantwortung haben führende LLM-Frameworks (z. B. Langchain und LlamaIndex) nur minimale Unterstützung für die Abfrage von modernen enzyklopädischen Wissensgraphen wie Wikidata. In diesem Artikel analysieren wir die Ursache und schlagen vor, dass moderne RDF-Wissensgraphen (z. B. Wikidata, Freebase) aufgrund übermäßig großer Schemata, die den typischen LLM-Kontextbereich bei weitem überschreiten, der Verwendung von Ressourcenidentifikatoren, sich überschneidender Beziehungstypen und fehlender Normalisierung, weniger effizient für LLMs sind. Als Lösung schlagen wir Property-Graph-Ansichten über dem zugrunde liegenden RDF-Graphen vor, die effizient von LLMs mithilfe von Cypher abgefragt werden können. Wir haben diese Idee auf Wikidata umgesetzt und CypherBench eingeführt, den ersten Benchmark mit 11 groß angelegten, multidomänen Property-Graphen mit 7,8 Millionen Entitäten und über 10.000 Fragen. Um dies zu erreichen, haben wir mehrere Schlüsselherausforderungen bewältigt, darunter die Entwicklung eines RDF-zu-Property-Graph-Konvertierungsmotors, die Erstellung einer systematischen Pipeline für die Generierung von Text-zu-Cypher-Aufgaben und das Design neuer Bewertungsmetriken.
Der Aufbau eines umfangreichen Figuren-Frage-Antwort-Datensatzes erfordert eine beträchtliche Menge an Arbeit, angefangen bei der Sammlung und Auswahl von Figuren bis hin zur Extraktion von Attributen wie Text, Zahlen und Farben sowie der Generierung von Fragen und Antworten. Obwohl jüngste Entwicklungen bei großen Sprachmodellen zu Bemühungen geführt haben, Figuren zu synthetisieren, konzentrieren sich die meisten davon hauptsächlich auf die Generierung von Frage-Antwort-Paaren. Darüber hinaus treten bei der direkten Erstellung von Figuren mithilfe von Sprachmodellen häufig Probleme wie Codefehler, ähnlich aussehende Figuren und repetitive Inhalte in den Figuren auf. Um dieses Problem anzugehen, präsentieren wir SBSFigures (Stage-by-Stage Synthetic Figures), einen Datensatz für das Vor-Training von Figuren-Frage-Antwort-Paaren. Unsere vorgeschlagene Pipeline ermöglicht die Erstellung von Diagrammfiguren mit vollständigen Annotationen der visualisierten Daten sowie dichten Frage-Antwort-Annotationen ohne manuellen Annotierungsprozess. Unsere schrittweise Pipeline ermöglicht die effiziente Erstellung vielfältiger Themen- und Erscheinungsfiguren und minimiert dabei Codefehler. Unsere SBSFigures zeigen eine starke Vor-Trainingseffekt, der es ermöglicht, effizientes Training mit einer begrenzten Menge an realen Diagrammdaten zu erreichen, ausgehend von unseren vorab trainierten Gewichten.