Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Vortrainierte Sprachmodelle bilden die Grundlage für mehrere KI-Anwendungen, aber ihre hohe Rechenleistungskosten für das Training begrenzen die Zugänglichkeit. Initiativen wie BLOOM und StarCoder zielen darauf ab, den Zugang zu vortrainierten Modellen für die gemeinschaftliche Entwicklung zu demokratisieren. Allerdings stehen solche bestehenden Modelle vor Herausforderungen: begrenzte mehrsprachige Fähigkeiten, kontinuierliches Vortraining, das zu katastrophalem Vergessen führt, während Vortraining von Grund auf rechnerisch aufwendig ist und die Einhaltung von KI-Sicherheits- und Entwicklungsrichtlinien. Dieses Papier stellt Aurora-M vor, ein 15B-Parameter mehrsprachiges Open-Source-Modell, das auf Englisch, Finnisch, Hindi, Japanisch, Vietnamesisch und Code trainiert wurde. Kontinuierlich vortrainiert von StarCoderPlus auf zusätzlichen 435 Milliarden Tokens, übertrifft Aurora-M insgesamt 2 Billionen Tokens in der Trainings-Tokenanzahl. Es ist das erste Open-Source mehrsprachige Modell, das feinabgestimmt wurde auf sicherheitsüberprüfte Anweisungen, wodurch seine Entwicklung nicht nur mit konventionellen Red-Teaming-Überlegungen, sondern auch mit den spezifischen Bedenken in Einklang gebracht wird, die in der Biden-Harris-Exekutivanordnung zur sicheren, geschützten und vertrauenswürdigen Entwicklung und Nutzung Künstlicher Intelligenz formuliert sind. Aurora-M wird rigoros auf verschiedene Aufgaben und Sprachen evaluiert, zeigt Robustheit gegen katastrophales Vergessen und übertrifft Alternativen in mehrsprachigen Umgebungen, insbesondere bei Sicherheitsevaluationen. Zur Förderung einer verantwortungsbewussten Open-Source-Entwicklung von LLM werden Aurora-M und seine Varianten unter https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 veröffentlicht.
Eine der Hauptmängel bei aktuellen Text-zu-Bild (T2I)-Modellen ist ihre Unfähigkeit, Bilder konsequent zu generieren, die den in der Textvorgabe angegebenen räumlichen Beziehungen treu folgen. In diesem Papier bieten wir eine umfassende Untersuchung dieser Einschränkung an und entwickeln gleichzeitig Datensätze und Methoden, die eine Spitzenleistung erzielen. Zunächst stellen wir fest, dass aktuelle Vision-Sprache-Datensätze räumliche Beziehungen nicht ausreichend gut darstellen; um diesen Engpass zu mildern, erstellen wir SPRIGHT, den ersten räumlich fokussierten, groß angelegten Datensatz, indem wir 6 Millionen Bilder aus 4 weit verbreiteten Vision-Datensätzen neu beschriften. Durch einen 3-fachen Evaluations- und Analyseprozess stellen wir fest, dass SPRIGHT die bestehenden Datensätze weitgehend verbessert, was die Erfassung räumlicher Beziehungen betrifft. Um seine Wirksamkeit zu demonstrieren, nutzen wir nur ~0,25% von SPRIGHT und erzielen eine 22%ige Verbesserung bei der Generierung räumlich genauer Bilder, wobei wir auch die FID- und CMMD-Werte verbessern. Zweitens stellen wir fest, dass das Training auf Bildern, die eine große Anzahl von Objekten enthalten, zu erheblichen Verbesserungen in der räumlichen Konsistenz führt. Bemerkenswerterweise erreichen wir auf T2I-CompBench mit einem räumlichen Score von 0,2133 eine Spitzenleistung, indem wir das Feintuning auf <500 Bildern durchführen. Schließlich dokumentieren wir durch eine Reihe von kontrollierten Experimenten und Ablationen mehrere Erkenntnisse, von denen wir glauben, dass sie das Verständnis der Faktoren, die die räumliche Konsistenz in Text-zu-Bild-Modellen beeinflussen, verbessern werden. Wir veröffentlichen unseren Datensatz und unser Modell öffentlich, um weitere Forschungen in diesem Bereich zu fördern.
Die Generierung von 3D-Inhalten aus Textvorgaben oder einzelnen Bildern hat in jüngster Zeit bemerkenswerte Fortschritte in Bezug auf Qualität und Geschwindigkeit gemacht. Eines der dominierenden Paradigmen beinhaltet die Erzeugung konsistenter Multi-View-Bilder, gefolgt von einer Sparse-View-Rekonstruktion. Aufgrund der Herausforderung, die Gitterrepräsentation direkt zu verformen, um sich der Zieltopologie anzunähern, lernen die meisten Methoden eine implizite Repräsentation (wie NeRF) während der Sparse-View-Rekonstruktion und erhalten das Zielgitter durch eine nachgelagerte Extraktion. Obwohl die implizite Repräsentation 3D-Informationen effektiv modellieren kann, erfordert ihr Training in der Regel eine lange Konvergenzzeit. Darüber hinaus führt die nachträgliche Extraktion aus dem impliziten Feld auch zu unerwünschten visuellen Artefakten. In diesem Artikel schlagen wir FlexiDreamer vor, ein neuartiges Framework zur Generierung von 3D-Strukturen aus Einzelbildern, das das Zielgitter auf direktem Wege rekonstruiert. Durch die Nutzung einer flexiblen, gradientenbasierten Extraktion namens FlexiCubes umgeht unsere Methode die Mängel, die durch die Nachbearbeitung entstehen, und erleichtert eine direkte Erfassung des Zielgitters. Darüber hinaus integrieren wir ein Multi-Resolution-Hash-Gittercodierungsschema, das schrittweise die Codierungsebenen im impliziten Feld in FlexiCubes aktiviert, um geometrische Details für die schrittweise Optimierung zu erfassen. Bemerkenswert ist, dass FlexiDreamer eine dichte 3D-Struktur aus einem Einzelbild in etwa 1 Minute auf einer einzelnen NVIDIA A100 GPU wiederherstellt und dabei die bisherigen Methoden bei weitem übertrifft.
Die Generierung von 3D-Szenen aus benutzerspezifischen Bedingungen bietet einen vielversprechenden Ansatz zur Entlastung der Produktionslast in 3D-Anwendungen. Frühere Studien erforderten erheblichen Aufwand, um die gewünschte Szene zu realisieren, aufgrund begrenzter Steuerungsbedingungen. Wir schlagen eine Methode zur Steuerung und Generierung von 3D-Szenen unter multimodalen Bedingungen vor, die teilweise Bilder, Layout-Informationen im Top-View und Texteingaben verwendet. Die Kombination dieser Bedingungen zur Generierung einer 3D-Szene birgt folgende wesentliche Schwierigkeiten: (1) die Erstellung großer Datensätze, (2) die Berücksichtigung der Interaktion multimodaler Bedingungen und (3) die Domänenabhängigkeit der Layout-Bedingungen. Wir zerlegen den Prozess der 3D-Szenengenerierung in die Generierung von 2D-Bildern aus den gegebenen Bedingungen und die Generierung von 3D-Szenen aus 2D-Bildern. Die Generierung von 2D-Bildern erfolgt durch Feinabstimmung eines vorab trainierten Text-zu-Bild-Modells mit einem kleinen künstlichen Datensatz von teilweisen Bildern und Layouts, und die Generierung von 3D-Szenen erfolgt durch layout-konditionierte Tiefenschätzung und neurale Strahlungsfelder (NeRF), wodurch die Erstellung großer Datensätze vermieden wird. Die Verwendung einer gemeinsamen Darstellung von räumlichen Informationen mithilfe von 360-Grad-Bildern ermöglicht die Berücksichtigung der Interaktionen multimodaler Bedingungen und verringert die Domänenabhängigkeit der Layout-Steuerung. Die experimentellen Ergebnisse haben qualitativ und quantitativ gezeigt, dass die vorgeschlagene Methode 3D-Szenen in verschiedenen Bereichen, von Innenräumen bis zu Außenbereichen, gemäß multimodalen Bedingungen generieren kann.
Generative Modelle werden heute von Grafikdesignern und Künstlern weit verbreitet eingesetzt. Frühere Arbeiten haben gezeigt, dass diese Modelle Inhalte aus ihren Trainingsdaten behalten und oft replizieren. Daher ist es mit ihrer zunehmenden Verbreitung wichtig geworden, vor der Verwendung eines generierten Bildes für professionelle Zwecke jedes Mal eine Datenbanksuche durchzuführen, um festzustellen, ob die Eigenschaften des Bildes auf spezifische Trainingsdaten zurückzuführen sind. Bestehende Tools für diesen Zweck konzentrieren sich darauf, Bilder mit ähnlichem semantischem Inhalt abzurufen. In der Zwischenzeit sind viele Künstler daran interessiert, Stilreplikationen in Text-zu-Bild-Modellen durchzuführen. Wir präsentieren einen Rahmen für das Verständnis und die Extraktion von Stilbeschreibern aus Bildern. Unser Rahmen umfasst einen neuen Datensatz, der unter der Erkenntnis kuratiert wurde, dass Stil eine subjektive Eigenschaft eines Bildes ist, die komplexe, aber bedeutungsvolle Interaktionen von Faktoren wie Farben, Texturen, Formen usw. erfasst. Wir schlagen auch eine Methode zur Extraktion von Stilbeschreibern vor, die verwendet werden können, um den Stil eines generierten Bildes den Bildern zuzuordnen, die im Trainingsdatensatz eines Text-zu-Bild-Modells verwendet wurden. Wir präsentieren vielversprechende Ergebnisse in verschiedenen Stilabrufaufgaben. Wir analysieren den Stilzuweisungs- und Abgleichprozess im Stable Diffusion-Modell quantitativ und qualitativ. Der Code und die Artefakte sind unter https://github.com/learn2phoenix/CSD verfügbar.
Wir präsentieren CosmicMan, ein Text-zu-Bild-Grundlagenmodell, das auf die Erzeugung hochwertiger menschlicher Bilder spezialisiert ist. Im Gegensatz zu aktuellen allgemeinen Grundlagenmodellen, die im Dilemma zwischen minderer Qualität und Text-Bild-Verschiebung für Menschen stecken, ermöglicht CosmicMan die Erzeugung fotorealistischer menschlicher Bilder mit akribischem Erscheinungsbild, angemessener Struktur und präziser Text-Bild-Ausrichtung mit detaillierten dichten Beschreibungen. Im Herzen des Erfolgs von CosmicMan stehen neue Betrachtungen und Perspektiven zu Daten und Modellen: (1) Wir haben festgestellt, dass Datenqualität und ein skalierbarer Datenproduktionsfluss für die endgültigen Ergebnisse aus trainierten Modellen entscheidend sind. Daher schlagen wir ein neues Datenproduktionsparadigma vor, Annotate Anyone, das als fortlaufendes Datenrad dient, um im Laufe der Zeit hochwertige Daten mit präzisen und dennoch kostengünstigen Annotationen zu produzieren. Basierend darauf haben wir einen groß angelegten Datensatz, CosmicMan-HQ 1.0, mit 6 Millionen hochwertigen realen menschlichen Bildern in einer durchschnittlichen Auflösung von 1488x1255 erstellt und mit präzisen Textannotationen versehen, die aus 115 Millionen Attributen in verschiedenen Granularitäten abgeleitet sind. (2) Wir argumentieren, dass ein auf Menschen spezialisiertes Text-zu-Bild-Grundlagenmodell pragmatisch sein muss - einfach in Downstream-Aufgaben zu integrieren und gleichzeitig effektiv bei der Erzeugung hochwertiger menschlicher Bilder. Daher schlagen wir vor, die Beziehung zwischen dichten Textbeschreibungen und Bildpixeln auf eine dekomponierte Weise zu modellieren und das Schulungsrahmenwerk Decomposed-Attention-Refocusing (Daring) vorzustellen. Es zerlegt nahtlos die Kreuz-Aufmerksamkeitsmerkmale im bestehenden Text-zu-Bild-Diffusionsmodell und erzwingt eine Aufmerksamkeitsneuausrichtung, ohne zusätzliche Module hinzuzufügen. Durch Daring zeigen wir, dass die explizite Diskretisierung des kontinuierlichen Textraums in mehrere grundlegende Gruppen, die mit der menschlichen Körperstruktur übereinstimmen, der Schlüssel zur Bewältigung des Verschiebungsproblems ist.
Ein ideales Modell für dichte Videobeschreibungen - das Vorhersagen von lokalisierten Untertiteln in einem Video - sollte in der Lage sein, lange Eingangsvideos zu verarbeiten, reiche, detaillierte textuelle Beschreibungen vorherzusagen und Ausgaben erzeugen können, bevor das gesamte Video verarbeitet wurde. Aktuelle Spitzenmodelle verarbeiten jedoch eine feste Anzahl von abgetasteten Frames und geben eine einzige vollständige Vorhersage ab, nachdem das gesamte Video betrachtet wurde. Wir schlagen ein Modell für das kontinuierliche dichte Videobeschreiben vor, das aus zwei innovativen Komponenten besteht: Erstens schlagen wir ein neues Speichermodul vor, das auf dem Clustern eingehender Tokens basiert und beliebig lange Videos verarbeiten kann, da der Speicher eine feste Größe hat. Zweitens entwickeln wir einen kontinuierlichen Decodierungsalgorithmus, der unserem Modell ermöglicht, Vorhersagen zu treffen, bevor das gesamte Video verarbeitet wurde. Unser Modell erreicht diese kontinuierliche Fähigkeit und verbessert signifikant den Stand der Technik bei drei dichten Videobeschreibungs-Benchmarks: ActivityNet, YouCook2 und ViTT. Unser Code ist verfügbar unter https://github.com/google-research/scenic.
Wir stellen Condition-Aware Neural Network (CAN) vor, eine neue Methode zur Hinzufügung von Steuerung zu bildgenerierenden Modellen. Parallel zu bisherigen bedingten Steuerungsmethoden steuert CAN den Bildgenerierungsprozess, indem es dynamisch das Gewicht des neuronalen Netzwerks manipuliert. Dies wird durch die Einführung eines bedingungsabhängigen Gewichtsgenerierungsmoduls erreicht, das bedingte Gewichte für Faltungs-/lineare Schichten basierend auf der Eingangsbedingung generiert. Wir testen CAN für klassenbedingte Bildgenerierung auf ImageNet und Text-zu-Bild-Generierung auf COCO. CAN liefert konsistent signifikante Verbesserungen für Diffusionstransformator-Modelle, einschließlich DiT und UViT. Insbesondere erreicht CAN in Kombination mit EfficientViT (CaT) einen FID von 2,78 auf ImageNet 512x512 und übertrifft DiT-XL/2, wobei 52-mal weniger MACs pro Abtastschritt benötigt werden.
Präferenzmodellierungstechniken, wie die direkte Präferenzoptimierung (DPO), haben sich als wirksam erwiesen, um die Verallgemeinerungsfähigkeiten großer Sprachmodelle (LLM) zu verbessern. Bei Aufgaben, die das Befolgen von Videoanleitungen erfordern und insbesondere bei der Bereitstellung von informativem Feedback, um Halluzinationen in generierten Antworten zu erkennen, bleibt eine bedeutende Herausforderung bestehen. Frühere Studien haben untersucht, die Verwendung großer multimodaler Modelle (LMMs) als Belohnungsmodelle zur Anleitung der Präferenzmodellierung zu nutzen, jedoch wurde ihre Fähigkeit, die Faktizität generierter Antworten im Vergleich zu entsprechenden Videos genau zu bewerten, noch nicht abschließend festgestellt. Dieser Artikel stellt ein neuartiges Framework vor, das detaillierte Videobeschreibungen als Proxy für den Videoinhalt verwendet, um es Sprachmodellen zu ermöglichen, diese Informationen als unterstützende Beweise zur Bewertung von Video-Frage-Antwort (QA)-Vorhersagen zu integrieren. Unser Ansatz zeigt eine robuste Ausrichtung mit dem Belohnungsmechanismus des OpenAI GPT-4V-Modells, das direkt Videoframes als Eingabe verwendet. Darüber hinaus zeigen wir, dass die Anwendung dieser maßgeschneiderten Belohnung durch DPO die Leistung von Video-LMMs bei Video-QA-Aufgaben signifikant verbessert.
Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) haben das Gebiet der natürlichen Sprachverarbeitung revolutioniert, indem ihr Anwendungsbereich allmählich auf multimodale Wahrnehmung und Generierung erweitert wurde. Die effektive Integration von Hörfähigkeiten in LLMs stellt jedoch bedeutende Herausforderungen dar, insbesondere hinsichtlich der Verallgemeinerung über verschiedene Kontexte hinweg und der Ausführung komplexer auditiver Aufgaben. In dieser Arbeit stellen wir WavLLM vor, ein robustes und anpassungsfähiges Sprach-Sprachmodell mit doppelten Encodern und einem promptbewussten LoRA-Gewichtsadapter, der durch einen zweistufigen Curriculum-Learning-Ansatz optimiert wurde. Durch die Nutzung von doppelten Encodern entkoppeln wir verschiedene Arten von Sprachinformationen, indem wir einen Whisper-Encoder zur Verarbeitung des semantischen Inhalts der Sprache und einen WavLM-Encoder zur Erfassung der einzigartigen Merkmale der Sprecheridentität einsetzen. Im Rahmen des Curriculum-Learning baut WavLLM zunächst seine grundlegenden Fähigkeiten auf, indem es sich auf gemischte elementare Einzelaufgaben optimiert, gefolgt von einem fortgeschrittenen Multi-Task-Training für komplexere Aufgaben wie Kombinationen der elementaren Aufgaben. Zur Verbesserung der Flexibilität und Einhaltung verschiedener Aufgaben und Anweisungen wird in der zweiten fortgeschrittenen Multi-Task-Trainingsphase ein promptbewusster LoRA-Gewichtsadapter eingeführt. Wir validieren das vorgeschlagene Modell an universellen Sprachbenchmarks, einschließlich Aufgaben wie ASR, ST, SV, ER, und wenden es auch auf spezialisierte Datensätze wie das Gaokao-Englisch-Hörverständnis-Set für SQA sowie das Sprachketten-Denken (CoT)-Evaluierungsset an. Experimente zeigen, dass das vorgeschlagene Modell eine Spitzenleistung bei einer Reihe von Sprachaufgaben bei gleicher Modellgröße erreicht und robuste Verallgemeinerungsfähigkeiten bei der Ausführung komplexer Aufgaben mit dem CoT-Ansatz aufweist. Darüber hinaus erledigt unser Modell erfolgreich Gaokao-Aufgaben ohne spezielles Training. Die Codes, Modelle, Audio- und Gaokao-Evaluierungsset sind unter aka.ms/wavllm verfügbar.
Ein visuell reiches Dokument (VRD) nutzt visuelle Merkmale zusammen mit sprachlichen Hinweisen, um Informationen zu verbreiten. Das Training eines benutzerdefinierten Extraktors, der benannte Entitäten aus einem Dokument identifiziert, erfordert eine große Anzahl von Instanzen des Ziel-Dokumententyps, die in textuellen und visuellen Modalitäten annotiert sind. Dies stellt einen kostspieligen Engpass in Unternehmensszenarien dar, in denen wir benutzerdefinierte Extraktoren für Tausende verschiedener Dokumententypen auf skalierbare Weise trainieren möchten. Das Vor-Training eines Extraktormodells anhand von unbeschrifteten Instanzen des Ziel-Dokumententyps, gefolgt von einem Feinabstimmungsschritt anhand von menschlich beschrifteten Instanzen, funktioniert in diesen Szenarien nicht, da es die maximal zulässige Trainingszeit überschreitet, die für den Extraktor zugewiesen ist. Wir adressieren dieses Szenario, indem wir in diesem Papier eine Methode des rauschbewussten Trainings oder NAT vorschlagen. Anstatt teure menschlich beschriftete Dokumente zu erwerben, nutzt NAT schwach beschriftete Dokumente, um einen Extraktor auf skalierbare Weise zu trainieren. Um eine Verschlechterung der Modellqualität aufgrund von rauschigen, schwach beschrifteten Proben zu vermeiden, schätzt NAT das Vertrauen jeder Trainingsprobe und integriert es als Unsicherheitsmaß während des Trainings. Wir trainieren mehrere hochmoderne Extraktormodelle unter Verwendung von NAT. Experimente an einer Reihe von öffentlich verfügbaren und firmeninternen Datensätzen zeigen, dass mit NAT trainierte Modelle nicht nur leistungsstark sind - sie übertreffen eine Transfer-Learning-Baseline um bis zu 6% in Bezug auf den Makro-F1-Score - sondern auch effizienter im Umgang mit Beschriftungen sind - sie reduzieren den menschlichen Aufwand zur Erzielung vergleichbarer Leistungen um bis zu 73%.
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten in Textverständnis und -erzeugung gezeigt, was Forschungsbemühungen in Richtung Video-LLMs zur Erleichterung der Mensch-KI-Interaktion auf Videoebene angeregt hat. Allerdings bleibt die Frage, wie Videos in video-basierten Dialogsystemen effektiv codiert und verstanden werden können, noch ungelöst. In diesem Paper untersuchen wir eine einfache, jedoch unerforschte Frage: Können wir alle räumlich-zeitlichen Token dem LLM zuführen und somit die Aufgabe der Videosequenzmodellierung den LLMs überlassen? Überraschenderweise führt dieser einfache Ansatz zu signifikanten Verbesserungen im Videoverständnis. Basierend darauf schlagen wir ST-LLM vor, eine effektive Video-LLM-Baseline mit räumlich-zeitlicher Sequenzmodellierung innerhalb des LLM. Darüber hinaus entwickeln wir eine dynamische Maskierungsstrategie mit maßgeschneiderten Trainingszielen, um die durch unkomprimierte Videotoken innerhalb der LLMs eingeführten Overhead- und Stabilitätsprobleme anzugehen. Für besonders lange Videos haben wir auch ein globales-lokales Eingangsmodul entworfen, um Effizienz und Effektivität auszubalancieren. Folglich nutzen wir LLM für eine effiziente räumlich-zeitliche Modellierung, wobei Effizienz und Stabilität gewahrt bleiben. Umfangreiche experimentelle Ergebnisse belegen die Wirksamkeit unserer Methode. Durch ein prägnanteres Modell und Trainingspipeline etabliert ST-LLM ein neues State-of-the-Art-Ergebnis auf VideoChatGPT-Bench und MVBench. Der Code ist verfügbar unter https://github.com/TencentARC/ST-LLM.