Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen den neuesten Fortschritt von Qwen-Audio vor, einem groß angelegten Audio-Sprachmodell namens Qwen2-Audio, das in der Lage ist, verschiedene Audio-Signaleingaben zu akzeptieren und Audio-Analysen durchzuführen oder direkte textuelle Antworten im Hinblick auf Sprachanweisungen zu geben. Im Gegensatz zu komplexen hierarchischen Tags haben wir den Vortrainierungsprozess vereinfacht, indem wir natürliche Sprachanweisungen für verschiedene Daten und Aufgaben verwendet und das Datenvolumen weiter ausgebaut haben. Wir haben die Anweisungsfolgefähigkeit von Qwen2-Audio gesteigert und zwei verschiedene Audio-Interaktionsmodi für Sprachchat und Audioanalyse implementiert. Im Sprachchat-Modus können Benutzer frei mit Qwen2-Audio interagieren, ohne Texteingabe. Im Audioanalyse-Modus können Benutzer Audio- und Textanweisungen für die Analyse während der Interaktion bereitstellen. Beachten Sie, dass wir keine Systemanweisungen zum Wechseln zwischen Sprachchat- und Audioanalyse-Modi verwenden. Qwen2-Audio ist in der Lage, den Inhalt von Audio intelligent zu erfassen und Sprachbefehlen entsprechend zu reagieren. Beispielsweise kann Qwen2-Audio in einem Audio-Segment, das gleichzeitig Geräusche, Mehrsprecherkonversationen und einen Sprachbefehl enthält, den Befehl direkt verstehen und eine Interpretation sowie eine Antwort auf das Audio bereitstellen. Darüber hinaus hat DPO die Leistung des Modells in Bezug auf Faktentreue und Einhaltung des gewünschten Verhaltens optimiert. Gemäß den Evaluierungsergebnissen von AIR-Bench hat Qwen2-Audio frühere SOTAs wie Gemini-1.5-pro in Tests übertroffen, die auf audiozentrierten Anweisungsfolgefähigkeiten basieren. Qwen2-Audio ist Open-Source mit dem Ziel, die Weiterentwicklung der multimedialen Sprachgemeinschaft zu fördern.
Bei der Bewertung der Fähigkeiten von großen Sprachmodellen mit langem Kontext (LLMs) ist die Identifizierung von Inhalten, die für die Anfrage eines Benutzers relevant sind, aus originalen langen Dokumenten eine entscheidende Voraussetzung, damit ein LLM Fragen auf der Grundlage von langen Texten beantworten kann. Wir stellen NeedleBench vor, ein Framework, das aus einer Reihe von zunehmend anspruchsvolleren Aufgaben zur Bewertung bilingualer Fähigkeiten im langen Kontext besteht, die verschiedene Längenintervalle (4k, 8k, 32k, 128k, 200k, 1000k und darüber hinaus) und unterschiedliche Tiefenbereiche umfassen. Dies ermöglicht die strategische Einbringung kritischer Datenpunkte in verschiedenen Texttiefenzonen, um die Abruf- und Schlussfolgerungsfähigkeiten von Modellen in vielfältigen Kontexten rigoros zu testen. Wir verwenden das NeedleBench-Framework, um zu bewerten, wie gut die führenden Open-Source-Modelle Schlüsselinformationen identifizieren können, die für die Frage relevant sind, und diese Informationen zur Schlussfolgerung in bilingualen Langtexten anwenden können. Darüber hinaus schlagen wir die Ancestral Trace Challenge (ATC) vor, um die Komplexität logischer Schlussfolgerungsaufgaben zu imitieren, die wahrscheinlich bei realen langen Kontextaufgaben auftreten, und eine einfache Methode zur Bewertung von LLMs im Umgang mit komplexen langen Kontextsituationen bereitzustellen. Unsere Ergebnisse deuten darauf hin, dass aktuelle LLMs erhebliches Verbesserungspotenzial in praktischen Anwendungen mit langem Kontext haben, da sie mit der Komplexität logischer Schlussfolgerungsaufgaben, die wahrscheinlich bei realen langen Kontextaufgaben auftreten, zu kämpfen haben. Alle Codes und Ressourcen sind unter OpenCompass verfügbar: https://github.com/open-compass/opencompass.
In diesem Paper präsentieren wir DiT-MoE, eine spärliche Version des Diffusions-Transformers, die skalierbar ist und im Wettbewerb mit dichten Netzwerken steht, während sie eine hochgradig optimierte Inferenz aufweist. Das DiT-MoE umfasst zwei einfache Designs: gemeinsame Experten-Routing und Experten-Level-Balance-Verlust, wodurch gemeinsames Wissen erfasst und Redundanz unter den verschiedenen gerouteten Experten reduziert wird. Bei der Anwendung auf die bedingte Bildgenerierung ergibt eine eingehende Analyse der Expertenspezialisierung einige interessante Beobachtungen: (i) Die Expertenauswahl zeigt eine Präferenz für den räumlichen Standort und den Rauschunterdrückungs-Zeitschritt, während sie unempfindlich gegenüber unterschiedlichen klassenbedingten Informationen ist; (ii) Mit zunehmender Tiefe der MoE-Schichten verschiebt sich die Auswahl der Experten allmählich von einer spezifischen räumlichen Position zu Dispersion und Balance. (iii) Die Expertenspezialisierung neigt dazu, am Anfang des Zeitschritts konzentrierter zu sein und sich dann nach der Hälfte allmählich zu vereinheitlichen. Wir führen dies auf den Diffusionsprozess zurück, der zuerst die niederfrequenten räumlichen Informationen modelliert und dann hochfrequente komplexe Informationen. Basierend auf obiger Anleitung erreicht eine Reihe von DiT-MoE experimentell eine Leistung auf Augenhöhe mit dichten Netzwerken, erfordert jedoch während der Inferenz wesentlich weniger Rechenlast. Noch ermutigender ist, dass wir das Potenzial von DiT-MoE mit synthetisierten Bilddaten demonstrieren, indem wir das Diffusionsmodell auf 16,5 Milliarden Parametern skalieren, was einen neuen SoTA FID-50K-Score von 1,80 in Einstellungen mit einer Auflösung von 512mal512 erreicht. Die Projektseite: https://github.com/feizc/DiT-MoE.
Traditionelle Referenzsegmentierungsaufgaben haben hauptsächlich stille visuelle Szenen in den Fokus gerückt und die integrale Rolle der multimodalen Wahrnehmung und Interaktion in menschlichen Erfahrungen vernachlässigt. In dieser Arbeit führen wir eine neue Aufgabe namens Referenz Audio-Visuelle Segmentierung (Ref-AVS) ein, die darauf abzielt, Objekte im visuellen Bereich auf der Grundlage von Ausdrücken mit multimodalen Hinweisen zu segmentieren. Solche Ausdrücke werden in natürlichen Sprachformen formuliert, sind jedoch mit multimodalen Hinweisen, einschließlich Audio- und visuellen Beschreibungen, angereichert. Um diese Forschung zu unterstützen, erstellen wir den ersten Ref-AVS-Benchmark, der Pixel-Ebene Annotationen für in entsprechenden multimodalen Hinweisausdrücken beschriebene Objekte bereitstellt. Um die Ref-AVS-Aufgabe anzugehen, schlagen wir eine neue Methode vor, die multimodale Hinweise angemessen nutzt, um präzise Segmentierungsanleitungen anzubieten. Abschließend führen wir quantitative und qualitative Experimente an drei Testteilmengen durch, um unseren Ansatz mit bestehenden Methoden aus verwandten Aufgaben zu vergleichen. Die Ergebnisse zeigen die Wirksamkeit unserer Methode auf und heben ihre Fähigkeit hervor, Objekte präzise mithilfe von multimodalen Hinweisausdrücken zu segmentieren. Der Datensatz ist verfügbar unter https://gewu-lab.github.io/Ref-AVS.
Bestehende Agenten, die auf großen Sprachmodellen (LLMs) basieren, zeigen robuste Problemlösungsfähigkeiten, indem sie das inhärente Wissen der LLMs, starkes kontextbezogenes Lernen und Null-Schuss-Fähigkeiten integrieren sowie die Verwendung von Werkzeugen kombinieren, die von Menschen aufwendig gestaltete LLM-Aufruf-Workflows nutzen. Allerdings weisen diese Agenten immer noch Schwächen im langfristigen Denken auf und nutzen das Potenzial vorhandener Werkzeuge nicht ausreichend, was zu spürbaren Defiziten in komplexen realen Denkszenarien führt. Um diese Einschränkungen zu überwinden, stellen wir Sibyl vor, ein einfaches, aber leistungsstarkes Agenten-Framework auf Basis von LLM, das darauf ausgelegt ist, komplexe Denkaufgaben zu bewältigen, indem es effizient eine minimale Werkzeugausstattung nutzt. Inspiriert von der Global Workspace Theory integriert Sibyl einen globalen Arbeitsbereich, um das Management und den Austausch von Wissen und Gesprächsverlauf im gesamten System zu verbessern. Darüber hinaus implementiert Sibyl, geleitet von der Society of Mind Theory, eine Jury basierend auf einem Multi-Agenten-Debattensystem zur Selbstverfeinerung der endgültigen Antworten, um einen umfassenden und ausgewogenen Ansatz zu gewährleisten. Dieser Ansatz zielt darauf ab, die Systemkomplexität zu reduzieren und den Umfang der lösbaren Probleme zu erweitern - von Angelegenheiten, die typischerweise von Menschen in Minuten gelöst werden, bis hin zu solchen, die Stunden oder sogar Tage erfordern, und so einen Übergang vom System-1- zum System-2-Denken zu erleichtern. Sibyl wurde mit Fokus auf Skalierbarkeit und einfache Fehlersuche entworfen, indem das Konzept der Rekursion aus der funktionalen Programmierung von Anfang an integriert wurde, mit dem Ziel einer nahtlosen und geringen Integrationsanstrengung in andere LLM-Anwendungen zur Verbesserung der Fähigkeiten. Unsere experimentellen Ergebnisse auf dem GAIA-Benchmark-Testset zeigen, dass der mit GPT-4 instanziierte Sibyl-Agent eine Spitzenleistung mit einem durchschnittlichen Score von 34,55% erreicht, im Vergleich zu anderen Agenten, die auf GPT-4 basieren. Wir hoffen, dass Sibyl zuverlässigere und wiederverwendbare Agentenlösungen auf LLM-Basis inspirieren kann, um komplexe Denkaufgaben in der realen Welt anzugehen.
Wir präsentieren VLMEvalKit: ein Open-Source-Toolkit zur Bewertung großer Multimodalitätsmodelle, das auf PyTorch basiert. Das Toolkit zielt darauf ab, ein benutzerfreundliches und umfassendes Rahmenwerk für Forscher und Entwickler bereitzustellen, um bestehende Multimodalitätsmodelle zu bewerten und reproduzierbare Bewertungsergebnisse zu veröffentlichen. In VLMEvalKit implementieren wir über 70 verschiedene große Multimodalitätsmodelle, einschließlich proprietärer APIs und Open-Source-Modelle, sowie mehr als 20 verschiedene multimodale Benchmarks. Durch die Implementierung einer einzigen Schnittstelle können neue Modelle einfach dem Toolkit hinzugefügt werden, während das Toolkit automatisch die verbleibenden Arbeitslasten, einschließlich der Datenvorbereitung, der verteilten Inferenz, der Vorhersage-Nachverarbeitung und der Metrikberechnung, handhabt. Obwohl das Toolkit derzeit hauptsächlich zur Bewertung großer Bildsprachmodelle verwendet wird, ist sein Design kompatibel mit zukünftigen Updates, die zusätzliche Modalitäten wie Audio und Video integrieren. Basierend auf den mit dem Toolkit erhaltenen Bewertungsergebnissen hosten wir die OpenVLM Leaderboard, eine umfassende Rangliste, um den Fortschritt der Multimodalitätslernforschung zu verfolgen. Das Toolkit ist unter https://github.com/open-compass/VLMEvalKit veröffentlicht und wird aktiv gepflegt.
Die Score-Distillation-Sampling (SDS) hat sich aufgrund ihrer inhärenten 3D-Konsistenz als effektives Framework bei textbasierten 3D-Bearbeitungsaufgaben erwiesen. Allerdings leiden bestehende SDS-basierte 3D-Bearbeitungsmethoden unter langen Schulungszeiten und führen zu qualitativ minderwertigen Ergebnissen, hauptsächlich weil diese Methoden von den Abtastdynamiken der Diffusionsmodelle abweichen. In diesem Artikel schlagen wir DreamCatalyst vor, ein neuartiges Framework, das SDS-basierte Bearbeitungen als einen diffusionsumgekehrten Prozess interpretiert. Unsere Zielsetzungsfunktion berücksichtigt die Abtastdynamik, wodurch der Optimierungsprozess von DreamCatalyst eine Approximation des diffusionsumgekehrten Prozesses bei Bearbeitungsaufgaben darstellt. DreamCatalyst zielt darauf ab, die Schulungszeit zu reduzieren und die Bearbeitungsqualität zu verbessern. DreamCatalyst präsentiert zwei Modi: (1) einen schnelleren Modus, der die NeRF-Szene in nur etwa 25 Minuten bearbeitet, und (2) einen qualitativ hochwertigen Modus, der überlegene Ergebnisse in weniger als 70 Minuten liefert. Insbesondere übertrifft unser qualitativ hochwertiger Modus aktuelle State-of-the-Art NeRF-Bearbeitungsmethoden sowohl in Bezug auf Geschwindigkeit als auch Qualität. Weitere umfangreiche Ergebnisse finden Sie auf unserer Projektseite: https://dream-catalyst.github.io.
Recent advances in 4D generation mainly focus on generating 4D content by distilling pre-trained text or single-view image-conditioned models. It is inconvenient for them to take advantage of various off-the-shelf 3D assets with multi-view attributes, and their results suffer from spatiotemporal inconsistency owing to the inherent ambiguity in the supervision signals. In this work, we present Animate3D, a novel framework for animating any static 3D model. The core idea is two-fold: 1) We propose a novel multi-view video diffusion model (MV-VDM) conditioned on multi-view renderings of the static 3D object, which is trained on our presented large-scale multi-view video dataset (MV-Video). 2) Based on MV-VDM, we introduce a framework combining reconstruction and 4D Score Distillation Sampling (4D-SDS) to leverage the multi-view video diffusion priors for animating 3D objects. Specifically, for MV-VDM, we design a new spatiotemporal attention module to enhance spatial and temporal consistency by integrating 3D and video diffusion models. Additionally, we leverage the static 3D model's multi-view renderings as conditions to preserve its identity. For animating 3D models, an effective two-stage pipeline is proposed: we first reconstruct motions directly from generated multi-view videos, followed by the introduced 4D-SDS to refine both appearance and motion. Qualitative and quantitative experiments demonstrate that Animate3D significantly outperforms previous approaches. Data, code, and models will be open-released.
Eine gute Gewichtsinitialisierung dient als effektive Maßnahme zur Reduzierung der Trainingskosten eines Deep-Neural-Network (DNN)-Modells. Die Wahl, wie die Parameter initialisiert werden sollen, ist herausfordernd und erfordert möglicherweise manuelle Feinabstimmung, was zeitaufwändig und fehleranfällig sein kann. Um solche Einschränkungen zu überwinden, geht diese Arbeit einen innovativen Schritt in Richtung Aufbau eines Gewichtsgenerators, um die neuronalen Gewichte für die Initialisierung zu synthetisieren. Wir verwenden die Bild-zu-Bild-Übersetzungsaufgabe mit generativen adversarialen Netzwerken (GANs) als Beispiel aufgrund der einfachen Sammlung von Modellgewichten, die einen weiten Bereich abdecken. Konkret sammeln wir zunächst einen Datensatz mit verschiedenen Bildbearbeitungskonzepten und ihren entsprechenden trainierten Gewichten, die später für das Training des Gewichtsgenerators verwendet werden. Um die unterschiedlichen Eigenschaften zwischen den Schichten und die beträchtliche Anzahl an zu prognostizierenden Gewichten zu berücksichtigen, teilen wir die Gewichte in gleich große Blöcke auf und weisen jedem Block einen Index zu. Anschließend wird ein Diffusionsmodell mit einem solchen Datensatz unter Verwendung sowohl von Textbedingungen des Konzepts als auch der Blockindizes trainiert. Durch die Initialisierung des Bildübersetzungsmodells mit den denoisierten Gewichten, die von unserem Diffusionsmodell vorhergesagt wurden, beträgt die Trainingszeit nur 43,3 Sekunden. Im Vergleich zum Training von Grund auf (d. h. Pix2pix) erreichen wir eine 15-fache Beschleunigung der Trainingszeit für ein neues Konzept und erzielen dabei sogar eine bessere Bildgenerierungsqualität.
Vision Language Models (VLMs) haben beeindruckende Fortschritte in verschiedenen Anwendungen erzielt und sind zu einer weit verbreiteten Forschungsrichtung geworden. In diesem Artikel erstellen wir FIRE, einen Feedback-Verfeinerungsdatensatz, der aus 1,1 Millionen Mehrfachdialogen besteht, die aus 27 Quelldatensätzen abgeleitet sind und es VLMs ermöglichen, ihre Antworten spontan auf der Grundlage von Benutzerfeedback über verschiedene Aufgaben hinweg zu verfeinern. Um die Datensammlung zu skalieren, wird FIRE in zwei Komponenten gesammelt: FIRE-100K und FIRE-1M, wobei FIRE-100K von GPT-4V generiert wird und FIRE-1M frei von Modellen generiert wird, die auf FIRE-100K trainiert sind. Anschließend erstellen wir FIRE-Bench, einen Benchmark zur umfassenden Bewertung der Feedback-Verfeinerungsfähigkeit von VLMs, der 11.000 Feedback-Verfeinerungsgespräche als Testdaten, zwei Bewertungseinstellungen und ein Modell zur Bereitstellung von Feedback für VLMs enthält. Wir entwickeln das FIRE-LLaVA-Modell durch Feinabstimmung von LLaVA auf FIRE-100K und FIRE-1M, das eine bemerkenswerte Feedback-Verfeinerungsfähigkeit auf FIRE-Bench zeigt und untrainierte VLMs um 50% übertrifft, um effizientere Benutzer-Agenten-Interaktionen zu ermöglichen und die Bedeutung des FIRE-Datensatzes zu unterstreichen.
Auch für besser erforschte Zeichensprachen wie die amerikanische Zeichensprache (ASL) ist der Engpass für maschinelles Lernen die Daten. Die Situation ist noch schlimmer für die vielen anderen Zeichensprachen, die von Gehörlosen und Schwerhörigen Gemeinschaften auf der ganzen Welt verwendet werden. In diesem Paper präsentieren wir YouTube-SL-25, einen umfangreichen, offenen, mehrsprachigen Korpus von Zeichensprachenvideos mit scheinbar gut ausgerichteten Untertiteln, die von YouTube stammen. Mit >3000 Stunden Videos in über >25 Zeichensprachen ist YouTube-SL-25 a) mehr als 3-mal so groß wie YouTube-ASL, b) der größte parallele Zeichensprachendatensatz bis heute und c) der erste oder größte parallele Datensatz für viele seiner Komponentensprachen. Wir stellen Baselines für Zeichen-in-Text-Aufgaben unter Verwendung eines vereinheitlichten mehrsprachigen Multitask-Modells auf der Grundlage von T5 bereit und berichten über Ergebnisse auf Benchmarks in 4 Zeichensprachen. Die Ergebnisse zeigen, dass der mehrsprachige Transfer sowohl höher- als auch niedriger ressourcenreichen Zeichensprachen innerhalb von YouTube-SL-25 zugutekommt.
Große Sprachmodelle (LLMs) sind integraler Bestandteil der modernen natürlichen Sprachverarbeitung und künstlichen Intelligenz. Sie stehen jedoch vor Herausforderungen bei der Verwaltung ihrer erheblichen Speicheranforderungen. Obwohl das Training mit Quantisierungsbewusstsein (QAT) eine Lösung bietet, indem der Speicherverbrauch durch Niedrigbit-Repräsentationen mit minimalem Genauigkeitsverlust reduziert wird, erfordert es erhebliche Schulungsressourcen, um Modellgewichte und Quantisierungsparameter zu optimieren. Um dies zu bewältigen, schlagen wir Efficient Quantization-Aware Training (EfficientQAT) vor, eine neuartige Quantisierungstechnik zur Komprimierung von LLMs. EfficientQAT umfasst zwei aufeinanderfolgende Phasen: Blockweises Training aller Parameter (Block-AP) und End-to-End-Training der Quantisierungsparameter (E2E-QP). Block-AP führt sequenziell ein Training mit Quantisierungsbewusstsein für alle Parameter in jedem Transformerblock mit blockweiser Rekonstruktion durch und gewährleistet Effizienz, indem das gesamte LLM vermieden wird. Mit dem quantisierten Modell initialisiert, trainiert E2E-QP dann nur die Quantisierungsparameter (Schrittweiten) end-to-end und verbessert die Effizienz mit einem festen quantisierten Grundgerüst und reduzierter Anzahl an trainierbaren Parametern. Umfangreiche Experimente zeigen, dass EfficientQAT im Vergleich zu früheren Quantisierungsmethoden bei einer Vielzahl von Modellen, einschließlich Basis-LLMs, anweisungsgesteuerten LLMs und multimodalen LLMs, mit Skalen von 7B bis 70B Parametern bei verschiedenen Quantisierungsbits überlegen ist. Beispielsweise erreicht EfficientQAT ein 2-Bit-Llama-2-70B-Modell auf einer einzelnen A100-80GB-GPU in 41 Stunden, mit weniger als 3\% Genauigkeitsverlust im Vergleich zur vollen Präzision (69,48 vs. 72,41). Bemerkenswert ist, dass dieses INT2-quantisierte 70B-Modell einen Genauigkeitsgewinn von 1,67 gegenüber dem Llama-2-13B-Modell erzielt (69,48 vs. 67,81), während es weniger Speicher benötigt (19,2GB vs. 24,2GB). Der Code ist verfügbar unter https://github.com/OpenGVLab/EfficientQAT.
Moderne große Sprachmodelle (LLMs) bestehen aus Matrizen mit Milliarden von Elementen, was ihre Speicherung und Verarbeitung in Bezug auf Rechenressourcen und Speichernutzung sehr anspruchsvoll macht. Aufgrund ihrer signifikanten Größe können solche Matrizen oft im Low-Rank-Format dargestellt werden, was das Ressourcenbedarf entspannen kann. Im Gegensatz zu früheren Arbeiten, die sich auf die Entwicklung neuartiger Matrixzerlegungsalgorithmen konzentrieren, untersuchen wir in dieser Arbeit zunächst das Auftreten von Low-Rank-Strukturen in Matrizen innerhalb verschiedener Schichten von LLMs und stellen eine kausale Beziehung zwischen der Gradientendynamik und der aufkommenden Low-Rank-Ausdruckskraft von Matrizen her. Unsere Ergebnisse zeigen, dass verschiedene Schichten unterschiedliche Grade konvergierter Low-Rank-Strukturen aufweisen, was eine nicht einheitliche Rangreduktion erfordert, um Leistungseinbußen aufgrund von Kompression zu minimieren. In Anbetracht dessen präsentieren wir Weight Low-Rank Projection (WeLore), das Gewichtskompression und speichereffizientes Feintuning in EINEM datenagnostischen und einmaligen Ansatz vereint. WeLore nutzt die schwanzlastige Verteilung singulärer Werte, um ein geeignetes Rangreduktionsverhältnis für Matrizen innerhalb von LLMs zu identifizieren. Über die reine Kompressionstechnik hinaus kategorisiert WeLore Gewichtsmatrizen in Low-Rank-Komponenten (LRCs) und Nicht-Low-Rank-Komponenten (N-LRCs) basierend auf ihrer Fähigkeit, sich als Low-Rank auszudrücken. Unsere Gradientenperspektive und umfangreiche Experimente zeigen, dass LRCs tendenziell über bessere Feintuning-Fähigkeiten verfügen und den Trainingsverlustverlauf und die Leistung des vollständigen Feintunings eng nachahmen (manchmal übertreffen) können, wobei der Speicher- und Rechenbedarf spürbar reduziert wird. Beispielsweise kann das Feintuning eines um 50\% komprimierten LLaMa-2 7B-Modells unter Verwendung nur eines Bruchteils der Parameter in LRCs (WeLore) das vollständige Feintuning mit einer etwa 3-fach besseren Durchsatzleistung und einem etwa 0,6-fach geringeren GPU-Bedarf übertreffen. Unsere Codes sind unter https://github.com/VITA-Group/welore verfügbar.
In jüngster Zeit haben die Interaktionen zwischen Mensch und Computer mit verschiedenen Modalitäten vielversprechende Anwendungen gezeigt, wie z.B. GPT-4o und Gemini. Angesichts der grundlegenden Rolle multimodaler gemeinsamer Repräsentationen in Verständnis- und Generierungspipelines wären hochwertige Omni-Gemeinschaftsrepräsentationen ein Schritt hin zur gemeinsamen Verarbeitung vielfältiger multimodaler Informationen. In dieser Arbeit präsentieren wir OmniBind, groß angelegte multimodale gemeinsame Repräsentationsmodelle mit einem Umfang von 7 Milliarden bis 30 Milliarden Parametern, die 3D-, Audio-, Bild- und Spracheingaben unterstützen. Aufgrund der Knappheit von Datensätzen über alle Modalitäten hinweg schlagen wir vor, anstelle von der Grundlage aus große Modelle von Grund auf zu trainieren, die Räume verschiedener vortrainierter Spezialmodelle neu zu kartieren und zu verknüpfen. Dieser Ansatz ermöglicht es, durch indirektes Erhöhen der Modellparameter und der Menge an gesehenen Daten "skalieren". Um verschiedene Räume effektiv zu integrieren, weisen wir dynamisch Gewichte verschiedenen Räumen zu, indem wir Router mit zwei Zielen lernen: insgesamt kreuzmodale Ausrichtung und Entkopplung der Sprachrepräsentation. Bemerkenswert ist, dass OmniBind aufgrund der Tatsache, dass das Verknüpfen und Routen von Räumen nur leichte Netzwerke erfordert, äußerst trainingseffizient ist. Das Lernen des größten 30B-Modells erfordert lediglich unpaarige unimodale Daten und etwa 3 Tage auf einem einzelnen 8-4090-Knoten. Umfangreiche Experimente zeigen die Vielseitigkeit und Überlegenheit von OmniBind als Omni-Repräsentationsmodell auf und heben sein großes Potenzial für vielfältige Anwendungen hervor, wie z.B. beliebige Abfragen und zusammensetzbare multimodale Verständnis.
Wir präsentieren eine Methode zur Steuerung eines simulierten Humanoiden, um ein Objekt zu greifen und entlang einer Objekttrajektorie zu bewegen. Aufgrund der Herausforderungen bei der Steuerung eines Humanoiden mit geschickten Händen verwenden frühere Methoden häufig eine abgetrennte Hand und berücksichtigen nur vertikale Anhebungen oder kurze Trajektorien. Dieser begrenzte Umfang beeinträchtigt ihre Anwendbarkeit für die für Animation und Simulation erforderliche Objektmanipulation. Um diese Lücke zu schließen, lernen wir einen Controller, der eine große Anzahl (>1200) von Objekten aufnehmen und sie entlang zufällig generierter Trajektorien transportieren kann. Unser wichtigster Einblick besteht darin, eine Humanoiden-Bewegungsrepräsentation zu nutzen, die menschenähnliche motorische Fähigkeiten bietet und das Training erheblich beschleunigt. Unter Verwendung nur simplizistischer Belohnungen, Zustands- und Objektrepräsentationen zeigt unsere Methode eine günstige Skalierbarkeit bei verschiedenen Objekten und Trajektorien. Für das Training benötigen wir keine Datensätze von gepaarten Ganzkörpermotionen und Objekttrajektorien. Zur Testzeit benötigen wir nur das Objektgitter und die gewünschten Trajektorien zum Greifen und Transportieren. Um die Fähigkeiten unserer Methode zu demonstrieren, zeigen wir Erfolgsraten auf dem neuesten Stand der Technik bei der Verfolgung von Objekttrajektorien und der Verallgemeinerung auf unbekannte Objekte. Code und Modelle werden veröffentlicht.
Vibravox ist ein Datensatz, der den Bestimmungen der Datenschutz-Grundverordnung (DSGVO) entspricht und Audioaufnahmen mit fünf verschiedenen Körperschall-Audiosensoren enthält: zwei In-Ear-Mikrofone, zwei Knochenleitungs-Schwingungsaufnehmer und ein Laryngophon. Der Datensatz enthält auch Audio-Daten von einem Luftmikrofon, das als Referenz verwendet wird. Das Vibravox-Korpus umfasst 38 Stunden Sprachproben und physiologische Geräusche, die von 188 Teilnehmern unter verschiedenen akustischen Bedingungen aufgezeichnet wurden, die von einem hochrangigen Ambisonics-3D-Raumklanggeber vorgegeben wurden. Annotationen zu den Aufnahmebedingungen und linguistische Transkriptionen sind ebenfalls im Korpus enthalten. Wir führten eine Reihe von Experimenten zu verschiedenen sprachbezogenen Aufgaben durch, darunter Spracherkennung, Sprachverbesserung und Sprecheridentifikation. Diese Experimente wurden mit hochmodernen Modellen durchgeführt, um ihre Leistungen bei Signalen zu bewerten und zu vergleichen, die von den verschiedenen von dem Vibravox-Datensatz angebotenen Audiosensoren erfasst wurden, mit dem Ziel, ein besseres Verständnis ihrer individuellen Eigenschaften zu erlangen.
Das Aufkommen von groß angelegten Multi-Modal-Generierungsmodellen hat die künstliche Intelligenz drastisch vorangetrieben, indem es beispiellose Leistungs- und Funktionsniveaus eingeführt hat. Die Optimierung dieser Modelle bleibt jedoch eine Herausforderung aufgrund historisch isolierter Wege der modellzentrierten und datenzentrierten Entwicklungen, was zu suboptimalen Ergebnissen und ineffizienter Ressourcennutzung führt. Als Antwort präsentieren wir eine neuartige Sandbox-Suite, die auf die integrierte Daten-Modell-Co-Entwicklung zugeschnitten ist. Diese Sandbox bietet eine umfassende experimentelle Plattform, die schnelle Iteration und erkenntnisgesteuerte Verfeinerung sowohl von Daten als auch von Modellen ermöglicht. Unser vorgeschlagener "Untersuchen-Analysieren-Verfeinern"-Workflow, validiert durch Anwendungen auf modernsten LLaVA-ähnlichen und DiT-basierten Modellen, erzielt signifikante Leistungssteigerungen, wie beispielsweise den Spitzenplatz auf der VBench-Rangliste. Wir enthüllen auch fruchtbare Erkenntnisse, die aus umfangreichen Benchmarks gewonnen wurden, und beleuchten das kritische Zusammenspiel zwischen Datenqualität, Diversität und Modellverhalten. In der Hoffnung, ein tieferes Verständnis und zukünftigen Fortschritt in Multi-Modal-Daten und generativer Modellierung zu fördern, werden unsere Codes, Datensätze und Modelle gepflegt und unter folgendem Link zugänglich gemacht: https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.
Die interaktive Segmentierung von 3D-Gaußschen eröffnet dank der Echtzeit-Renderingfähigkeit von 3D-Gaußschem Splatting eine großartige Möglichkeit für die Echtzeitmanipulation von 3D-Szenen. Die aktuellen Methoden leiden jedoch unter zeitaufwändiger Nachbearbeitung zur Bewältigung des rauschigen Segmentierungsergebnisses. Zudem haben sie Schwierigkeiten, eine detaillierte Segmentierung bereitzustellen, die für die feinkörnige Manipulation von 3D-Szenen wichtig ist. In dieser Studie schlagen wir Click-Gaussian vor, das unterscheidbare Merkmalsfelder zweistufiger Granularität lernt, um eine Segmentierung ohne zeitaufwändige Nachbearbeitung zu ermöglichen. Wir gehen auf Herausforderungen ein, die sich aus inkonsistent erlernten Merkmalsfeldern ergeben, die aus einer unabhängig von einer 3D-Szene erhaltenen 2D-Segmentierung stammen. Die 3D-Segmentierungsgenauigkeit verschlechtert sich, wenn die 2D-Segmentierungsergebnisse über die Ansichten hinweg, die primären Hinweise für die 3D-Segmentierung, im Widerspruch stehen. Um diese Probleme zu überwinden, schlagen wir Global Feature-guided Learning (GFL) vor. GFL konstruiert die Cluster globaler Merkmalskandidaten aus rauschigen 2D-Segmenten über die Ansichten hinweg, was die Rauschen beim Training der Merkmale von 3D-Gaußschen glättet. Unsere Methode läuft in 10 ms pro Klick, 15 bis 130 Mal schneller als die vorherigen Methoden und verbessert gleichzeitig die Segmentierungsgenauigkeit signifikant. Unsere Projektseite ist unter https://seokhunchoi.github.io/Click-Gaussian verfügbar.
Große Sprachmodelle (LLMs) werden in verschiedenen sensiblen Bereichen eingesetzt, in denen die Zuverlässigkeit ihrer Ausgaben entscheidend ist. Eine häufig verwendete Methode zur Bewertung der Zuverlässigkeit der Antworten von LLMs ist die Unsicherheitsschätzung, die die Wahrscheinlichkeit bewertet, dass ihre Antworten korrekt sind. Während viele Studien darauf abzielen, die Genauigkeit der Unsicherheitsschätzungen für LLMs zu verbessern, untersucht unsere Forschung die Fragilität der Unsicherheitsschätzung und erforscht potenzielle Angriffe. Wir zeigen, dass ein Angreifer einen Backdoor in LLMs einbetten kann, der durch einen spezifischen Auslöser in der Eingabe aktiviert wird und die Unsicherheit des Modells manipuliert, ohne die endgültige Ausgabe zu beeinflussen. Konkret kann die vorgeschlagene Backdoor-Angriffsmethode die Ausgabewahrscheinlichkeitsverteilung eines LLMs verändern, wodurch die Wahrscheinlichkeitsverteilung gegen eine vom Angreifer vordefinierte Verteilung konvergiert, während die Top-1-Vorhersage unverändert bleibt. Unsere experimentellen Ergebnisse zeigen, dass dieser Angriff die Selbstbewertungszuverlässigkeit des Modells bei Multiple-Choice-Fragen effektiv untergräbt. Beispielsweise erzielten wir eine Erfolgsrate des Angriffs (ASR) von 100 % bei drei verschiedenen Auslösestrategien in vier Modellen. Darüber hinaus untersuchen wir, ob diese Manipulation auf verschiedene Eingabeaufforderungen und Bereiche verallgemeinert werden kann. Diese Arbeit verdeutlicht eine bedeutende Bedrohung für die Zuverlässigkeit von LLMs und betont die Notwendigkeit zukünftiger Abwehrmaßnahmen gegen solche Angriffe. Der Code ist verfügbar unter https://github.com/qcznlp/uncertainty_attack.