Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Depth Up-Scaling (DUS) vor, eine neuartige Technik zur effizienten und effektiven Skalierung von Basis-LLMs auf einfache Weise. Im Gegensatz zu Mixture-of-Experts (MoE) erfordert DUS keine komplexen Änderungen für Training und Inferenz. Mit DUS haben wir SOLAR 10.7B entwickelt, ein großes Sprachmodell (LLM) mit 10,7 Milliarden Parametern, das überlegene Leistung in verschiedenen Aufgaben der natürlichen Sprachverarbeitung (NLP) demonstriert. Vergleichende Auswertungen zeigen, dass SOLAR 10.7B bestehende Open-Source-vortrainierte LLMs wie Llama 2 und Mistral 7B übertrifft. Zusätzlich präsentieren wir SOLAR 10.7B-Instruct, eine Variante, die für Anweisungsbefolgung feinabgestimmt wurde und Mixtral-8x7B übertrifft. SOLAR 10.7B ist öffentlich unter der Apache-2.0-Lizenz verfügbar, was den breiten Zugang und die Anwendung im Bereich der LLMs fördert.
Dieses Papier stellt 26 Leitprinzipien vor, die darauf abzielen, den Prozess der Abfrage und Prompting von großen Sprachmodellen zu optimieren. Unser Ziel ist es, die grundlegenden Konzepte der Formulierung von Fragen für verschiedene Größenordnungen großer Sprachmodelle zu vereinfachen, ihre Fähigkeiten zu untersuchen und das Verständnis der Benutzer für das Verhalten unterschiedlicher Größenordnungen großer Sprachmodelle bei der Eingabe verschiedener Prompts zu verbessern. Umfangreiche Experimente wurden mit LLaMA-1/2 (7B, 13B und 70B) sowie GPT-3.5/4 durchgeführt, um die Wirksamkeit der vorgeschlagenen Prinzipien für die Gestaltung von Anweisungen und Prompts zu überprüfen. Wir hoffen, dass diese Arbeit eine bessere Anleitung für Forscher bietet, die sich mit dem Prompting großer Sprachmodelle beschäftigen. Die Projektseite ist unter https://github.com/VILA-Lab/ATLAS verfügbar.
Es besteht eine wachsende Nachfrage nach maßgeschneiderten und ausdrucksstarken 3D-Charakteren mit dem Aufkommen von KI-Agenten und dem Metaverse. Die Erstellung von 3D-Charakteren mit traditionellen Computergrafik-Tools ist jedoch eine komplexe und zeitaufwändige Aufgabe. Um diese Herausforderungen zu bewältigen, schlagen wir ein benutzerfreundliches Framework namens Make-A-Character (Mach) vor, das lebensechte 3D-Avatare aus Textbeschreibungen erstellt. Das Framework nutzt die Leistungsfähigkeit großer Sprach- und Bildmodelle für das Verständnis textueller Absichten und die Erzeugung von Zwischenbildern, gefolgt von einer Reihe von visuellen Wahrnehmungs- und 3D-Generierungsmodulen, die auf den Menschen ausgerichtet sind. Unser System bietet einen intuitiven Ansatz, mit dem Benutzer innerhalb von 2 Minuten kontrollierbare, realistische und vollständig realisierte 3D-Charaktere erstellen können, die ihren Erwartungen entsprechen, und ermöglicht gleichzeitig eine einfache Integration in bestehende CG-Pipelines für dynamische Ausdrucksfähigkeit. Weitere Informationen finden Sie auf der Projektseite unter https://human3daigc.github.io/MACH/.
Die referenzbasierten Objektsegmentierungsaufgaben, nämlich Referring Image Segmentation (RIS), Few-Shot Image Segmentation (FSS), Referring Video Object Segmentation (RVOS) und Video Object Segmentation (VOS), zielen darauf ab, ein spezifisches Objekt zu segmentieren, indem entweder Sprache oder annotierte Masken als Referenzen verwendet werden. Trotz erheblicher Fortschritte in den jeweiligen Bereichen sind aktuelle Methoden aufgaben spezifisch entworfen und in unterschiedliche Richtungen entwickelt, was die Aktivierung von Multitasking-Fähigkeiten für diese Aufgaben behindert. In dieser Arbeit beenden wir die derzeitige fragmentierte Situation und schlagen UniRef++ vor, um die vier referenzbasierten Objektsegmentierungsaufgaben mit einer einzigen Architektur zu vereinheitlichen. Kern unseres Ansatzes ist das vorgeschlagene UniFusion-Modul, das eine Mehrweg-Fusion zur Handhabung verschiedener Aufgaben in Bezug auf ihre spezifizierten Referenzen durchführt. Eine einheitliche Transformer-Architektur wird dann für die Instanzebenen-Segmentierung verwendet. Mit den vereinheitlichten Designs kann UniRef++ gemeinsam auf einer breiten Palette von Benchmarks trainiert werden und kann zur Laufzeit flexibel mehrere Aufgaben erledigen, indem die entsprechenden Referenzen angegeben werden. Wir bewerten unsere vereinheitlichten Modelle auf verschiedenen Benchmarks. Umfangreiche experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes UniRef++ Spitzenleistungen bei RIS und RVOS erzielt und bei FSS und VOS mit einem parametergeteilten Netzwerk wettbewerbsfähig abschneidet. Darüber hinaus zeigen wir, dass das vorgeschlagene UniFusion-Modul leicht in das aktuelle fortschrittliche Grundlagenmodell SAM integriert werden kann und mit parameter-effizientem Feintuning zufriedenstellende Ergebnisse erzielt. Codes und Modelle sind verfügbar unter https://github.com/FoundationVision/UniRef.
Der sich rasant entwickelnde Bereich der Multimodalen Großen Sprachmodelle (MLLMs) steht an der Spitze der Integration von linguistischer und visueller Verarbeitung in der künstlichen Intelligenz. Diese Arbeit präsentiert eine detaillierte vergleichende Studie zweier wegweisender Modelle: Googles Gemini und OpenAI's GPT-4V(ision). Unsere Studie umfasst eine vielschichtige Bewertung beider Modelle in zentralen Dimensionen wie Vision-Sprache-Fähigkeit, Interaktion mit Menschen, zeitliches Verständnis sowie Bewertungen in Bezug auf Intelligenz und Emotionalen Quotienten. Der Kern unserer Analyse befasst sich mit den unterschiedlichen visuellen Verständnisfähigkeiten jedes Modells. Wir führten eine Reihe strukturierter Experimente durch, um ihre Leistung in verschiedenen industriellen Anwendungsszenarien zu bewerten, und bieten so eine umfassende Perspektive auf ihre praktische Nutzbarkeit. Dabei beziehen wir nicht nur direkte Leistungsvergleiche ein, sondern auch Anpassungen in Prompts und Szenarien, um eine ausgewogene und faire Analyse zu gewährleisten. Unsere Ergebnisse beleuchten die einzigartigen Stärken und Nischen beider Modelle. GPT-4V zeichnet sich durch Präzision und Prägnanz in den Antworten aus, während Gemini durch detaillierte, umfangreiche Antworten, begleitet von relevanten Bildern und Links, überzeugt. Diese Erkenntnisse beleuchten nicht nur die vergleichenden Vorzüge von Gemini und GPT-4V, sondern unterstreichen auch die sich entwickelnde Landschaft multimodaler Basismodelle und ebnen den Weg für zukünftige Fortschritte in diesem Bereich. Nach dem Vergleich versuchten wir, bessere Ergebnisse durch die Kombination der beiden Modelle zu erzielen. Abschließend möchten wir den Teams hinter GPT-4V und Gemini unseren tiefen Dank für ihre wegweisenden Beiträge auf diesem Gebiet aussprechen. Unser Dank gilt auch der umfassenden qualitativen Analyse, die in 'Dawn' von Yang et al. präsentiert wurde. Diese Arbeit, mit ihrer umfangreichen Sammlung von Bildbeispielen, Prompts und GPT-4V-bezogenen Ergebnissen, bildete eine grundlegende Basis für unsere Analyse.
Audio ist ein wesentlicher Bestandteil unseres Lebens, doch die Erstellung erfordert oft Fachwissen und ist zeitaufwendig. Die Forschungsgemeinschaft hat im vergangenen Jahr große Fortschritte bei der Verbesserung der Leistung großskaliger audio-generativer Modelle für eine einzelne Modalität (Sprache, Klang oder Musik) erzielt, indem leistungsfähigere generative Modelle und skalierte Daten eingesetzt wurden. Diese Modelle weisen jedoch in mehreren Aspekten mangelnde Steuerbarkeit auf: Sprachgenerationsmodelle können keine neuen Stile basierend auf Textbeschreibungen synthetisieren und sind in der Domänenabdeckung, wie z.B. Außenumgebungen, eingeschränkt; Klanggenerationsmodelle bieten nur grobkörnige Steuerung basierend auf Beschreibungen wie „eine sprechende Person“ und erzeugen nur undeutliche menschliche Stimmen. Dieses Papier stellt Audiobox vor, ein einheitliches Modell basierend auf Flow-Matching, das in der Lage ist, verschiedene Audiomodalitäten zu generieren. Wir entwickeln beschreibungsbasierte und beispielbasierte Prompting-Methoden, um die Steuerbarkeit zu verbessern und die Paradigmen der Sprach- und Klanggenerierung zu vereinheitlichen. Wir ermöglichen es, Transkript, Stimme und andere Audiostile unabhängig voneinander zu steuern, wenn Sprache generiert wird. Um die Modellgeneralisierung bei begrenzten Labels zu verbessern, passen wir ein selbstüberwachtes Infilling-Ziel an, um große Mengen ungelabelter Audiodaten vorzutrainieren. Audiobox setzt neue Maßstäbe in der Sprach- und Klanggenerierung (0,745 Ähnlichkeit auf Librispeech für Zero-Shot TTS; 0,77 FAD auf AudioCaps für Text-zu-Klang) und erschließt neue Methoden zur Generierung von Audio mit neuartigen Stimm- und Akustikstilen. Wir integrieren weiterhin Bespoke Solvers, die die Generierung um mehr als das 25-fache im Vergleich zum standardmäßigen ODE-Solver für Flow-Matching beschleunigen, ohne Leistungseinbußen bei mehreren Aufgaben. Unsere Demo ist verfügbar unter https://audiobox.metademolab.com/.
Menschen leben in einer 3D-Welt und verwenden häufig natürliche Sprache, um mit einer 3D-Szene zu interagieren. Die Modellierung eines 3D-Sprachfelds zur Unterstützung von offenen Sprachabfragen in 3D hat in letzter Zeit zunehmend Aufmerksamkeit erregt. Dieses Papier stellt LangSplat vor, das ein 3D-Sprachfeld konstruiert, das präzise und effiziente offene Vokabularabfragen in 3D-Räumen ermöglicht. Im Gegensatz zu bestehenden Methoden, die CLIP-Spracheinbettungen in einem NeRF-Modell verankern, erweitert LangSplat das Feld durch die Verwendung einer Sammlung von 3D-Gaußschen, die jeweils Sprachmerkmale, die aus CLIP destilliert wurden, kodieren, um das Sprachfeld darzustellen. Durch den Einsatz einer tile-basierten Splatting-Technik für das Rendern von Sprachmerkmalen umgehen wir den kostspieligen Rendering-Prozess, der NeRF innewohnt. Anstatt CLIP-Einbettungen direkt zu lernen, trainiert LangSplat zunächst einen szenenspezifischen Sprach-Autoencoder und lernt dann Sprachmerkmale im szenenspezifischen latenten Raum, wodurch der erhebliche Speicherbedarf, der durch explizite Modellierung entsteht, verringert wird. Bestehende Methoden kämpfen mit unpräzisen und vagen 3D-Sprachfeldern, die klare Grenzen zwischen Objekten nicht erkennen können. Wir gehen auf dieses Problem ein und schlagen vor, hierarchische Semantik mit SAM zu lernen, wodurch die Notwendigkeit entfällt, das Sprachfeld in verschiedenen Maßstäben umfangreich abzufragen und DINO-Merkmale zu regularisieren. Umfangreiche Experimente zur offenen Vokabular-3D-Objektlokalisierung und semantischen Segmentierung zeigen, dass LangSplat die bisherige state-of-the-art Methode LERF deutlich übertrifft. Bemerkenswert ist, dass LangSplat äußerst effizient ist und eine Beschleunigung um das {\speed}-fache im Vergleich zu LERF bei einer Auflösung von 1440 mal 1080 erreicht. Wir empfehlen den Lesern dringend, sich unsere Videoergebnisse unter https://langsplat.github.io anzusehen.
Diffusionsbasierte Text-zu-Video-Generierung hat im vergangenen Jahr beeindruckende Fortschritte erzielt, hinkt jedoch der Text-zu-Bild-Generierung noch hinterher. Ein wesentlicher Grund dafür ist der begrenzte Umfang öffentlich verfügbarer Daten (z. B. 10 Millionen Video-Text-Paare in WebVid10M im Vergleich zu 5 Milliarden Bild-Text-Paaren in LAION), insbesondere angesichts der hohen Kosten für die Videobeschriftung. Stattdessen könnte es weitaus einfacher sein, unmarkierte Clips von Videoplattformen wie YouTube zu sammeln. Ausgehend von dieser Überlegung entwickeln wir ein neuartiges Framework für die Text-zu-Video-Generierung, genannt TF-T2V, das direkt mit textfreien Videos lernen kann. Die zugrunde liegende Idee besteht darin, den Prozess der Textdekodierung von der zeitlichen Modellierung zu trennen. Zu diesem Zweck verwenden wir einen Inhaltszweig und einen Bewegungszweig, die gemeinsam optimiert werden und Gewichte teilen. Im Rahmen dieses Ansatzes untersuchen wir die Auswirkungen einer Verdoppelung des Trainingsdatensatzes (d. h. des textfreien WebVid10M) durch zufällig gesammelte textfreie Videos und stellen erfreulicherweise eine Leistungsverbesserung fest (FID von 9,67 auf 8,19 und FVD von 484 auf 441), was die Skalierbarkeit unseres Ansatzes demonstriert. Wir stellen außerdem fest, dass unser Modell nach der erneuten Einführung einiger Textlabels für das Training eine nachhaltige Leistungssteigerung erzielt (FID von 8,19 auf 7,64 und FVD von 441 auf 366). Schließlich validieren wir die Wirksamkeit und Generalisierbarkeit unserer Ideologie sowohl für die native Text-zu-Video-Generierung als auch für Paradigmen der kompositionellen Videosynthese. Code und Modelle werden unter https://tf-t2v.github.io/ öffentlich verfügbar sein.
Jüngste Fortschritte in der Einzelbild-3D-Generierung unterstreichen die Bedeutung von Multi-View-Kohärenz, wobei 3D-Priors aus großskaligen Diffusionsmodellen genutzt werden, die auf Internet-großen Bilddatensätzen vortrainiert wurden. Der Aspekt der Neuansichtsvielfalt bleibt jedoch im Forschungsumfeld weitgehend unerforscht, was auf die Mehrdeutigkeit bei der Umwandlung eines 2D-Bildes in 3D-Inhalte zurückzuführen ist, bei der zahlreiche mögliche Formen entstehen können. Hier zielen wir darauf ab, diese Forschungslücke zu schließen, indem wir sowohl Konsistenz als auch Vielfalt gleichzeitig adressieren. Dennoch stellt das Erreichen eines Gleichgewichts zwischen diesen beiden Aspekten eine erhebliche Herausforderung dar, da sie inhärente Zielkonflikte aufweisen. Diese Arbeit stellt HarmonyView vor, eine einfache, aber effektive Diffusions-Sampling-Technik, die geschickt zwei komplexe Aspekte in der Einzelbild-3D-Generierung aufschlüsselt: Konsistenz und Vielfalt. Dieser Ansatz ebnet den Weg für eine differenziertere Untersuchung dieser beiden kritischen Dimensionen innerhalb des Sampling-Prozesses. Darüber hinaus schlagen wir eine neue Bewertungsmetrik basierend auf CLIP-Bild- und Text-Encodern vor, um die Vielfalt der generierten Ansichten umfassend zu bewerten, die eng mit den Urteilen menschlicher Bewerter übereinstimmt. In Experimenten erreicht HarmonyView eine harmonische Balance und demonstriert eine Win-Win-Situation in Bezug auf sowohl Konsistenz als auch Vielfalt.
Die weit verbreitete Nutzung kommerzieller und Open-Source-Diffusionsmodelle (DMs) für die Text-zu-Bild-Generierung erfordert Risikominderungsmaßnahmen, um unerwünschte Verhaltensweisen zu verhindern. Bestehende Methoden zum Löschen von Konzepten in der Wissenschaft basieren alle auf einer Feinabstimmung der vollen Parameter oder spezifikationsbasierten Anpassungen, woraus wir die folgenden Probleme beobachten: 1) Generationsänderung hin zur Erosion: Parameterdrift während der Zielbeseitigung führt zu Veränderungen und potenziellen Verformungen in allen Generationen, wodurch sogar andere Konzepte in unterschiedlichem Maße erodiert werden, was bei mehreren gelöschten Konzepten deutlicher wird; 2) Transferunfähigkeit & Ineffizienz bei der Bereitstellung: Die bisherige modellspezifische Löschung behindert die flexible Kombination von Konzepten und den trainingsfreien Transfer auf andere Modelle, was zu einem linearen Kostenanstieg mit zunehmenden Bereitstellungsszenarien führt. Um eine nicht-invasive, präzise, anpassbare und übertragbare Beseitigung zu erreichen, gründen wir unser Löschungsframework auf eindimensionalen Adaptern, um mehrere Konzepte aus den meisten DMs gleichzeitig in verschiedenen Löschungsanwendungen zu entfernen. Die konzept-SemiPermeable-Struktur wird als Membran (SPM) in jedes DM injiziert, um gezieltes Löschen zu erlernen, während gleichzeitig das Phänomen der Veränderung und Erosion durch eine neuartige Latent Anchoring-Feinabstimmungsstrategie effektiv gemildert wird. Einmal erworben, können SPMs flexibel kombiniert und ohne spezifische Neuanpassung in andere DMs eingefügt werden, was eine zeitnahe und effiziente Anpassung an diverse Szenarien ermöglicht. Während der Generierung reguliert unser Facilitated Transport-Mechanismus dynamisch die Durchlässigkeit jeder SPM, um auf verschiedene Eingabeaufforderungen zu reagieren und so die Auswirkungen auf andere Konzepte weiter zu minimieren. Quantitative und qualitative Ergebnisse über ~40 Konzepte, 7 DMs und 4 Löschungsanwendungen haben die überlegene Löschungsfähigkeit von SPM demonstriert. Unser Code und voreingestellte SPMs werden auf der Projektseite https://lyumengyao.github.io/projects/spm verfügbar sein.
Große Sprachmodelle (LLMs) zeigen aufkommende Fähigkeiten zum In-Context-Lernen durch Prompt-Engineering. Die jüngsten Fortschritte bei großskaligen generativen Modellen haben ihren Einsatz in realen Sprachanwendungen weiter ausgebaut. Die entscheidende Herausforderung, die Generalisierbarkeit und Faktentreue von LLMs im Bereich des natürlichen Sprachverständnisses und der Frage-Antwort-Systeme zu verbessern, bleibt jedoch weitgehend unerforscht. Während sich frühere Forschungen zum In-Context-Lernen darauf konzentriert haben, Modelle so zu verbessern, dass sie den spezifischen Anweisungen und Qualitätserwartungen der Nutzer entsprechen und unerwünschte Ausgaben vermeiden, wurde bisher kaum untersucht, wie aufgaben-spezifisch feinabgestimmte Sprachmodelle (SLMs) genutzt werden können, um das In-Context-Lernen von LLMs während der Inferenzphase zu verbessern. Unser Hauptbeitrag ist die Entwicklung eines einfachen, aber effektiven Frameworks, das die Zuverlässigkeit von LLMs erhöht, indem es: 1) Out-of-Distribution-Daten generalisiert, 2) aufzeigt, wie LLMs von diskriminativen Modellen profitieren, und 3) Halluzinationen in generativen Aufgaben minimiert. Mit unserer vorgeschlagenen Plug-in-Methode übertreffen verbesserte Versionen von Llama 2 und ChatGPT ihre Originalversionen in Bezug auf Generalisierbarkeit und Faktentreue. Wir bieten eine umfassende Sammlung von Ressourcen, darunter 16 kuratierte Datensätze, Prompts, Modell-Checkpoints und LLM-Ausgaben über 9 verschiedene Aufgaben hinweg. Unsere empirische Analyse beleuchtet die Vorteile der Integration diskriminativer Modelle in LLMs und unterstreicht das Potenzial unserer Methodik, zuverlässigere LLMs zu fördern.
Die Rekonstruktion des menschlichen Körpers aus Einzelbildvideos spielt eine entscheidende Rolle im Bereich der virtuellen Realität. Ein verbreitetes Anwendungsszenario erfordert die schnelle Rekonstruktion von hochauflösenden 3D-Digitalmenschen bei gleichzeitiger Sicherstellung von Echtzeit-Rendering und Interaktion. Bestehende Methoden haben oft Schwierigkeiten, beide Anforderungen zu erfüllen. In diesem Artikel stellen wir Human101 vor, ein neuartiges Framework, das in der Lage ist, hochauflösende dynamische 3D-Menschenrekonstruktionen aus 1-Bildvideos zu erzeugen, indem es 3D-Gaußsche in 100 Sekunden trainiert und mit über 100 FPS rendert. Unser Ansatz nutzt die Stärken des 3D-Gaußschen Splattings, das eine explizite und effiziente Darstellung von 3D-Menschen bietet. Im Gegensatz zu früheren NeRF-basierten Pipelines wendet Human101 geschickt eine Human-centric Forward Gaussian Animation-Methode an, um die Parameter der 3D-Gaußschen zu verformen und dadurch die Rendering-Geschwindigkeit zu verbessern (d.h., Rendering von 1024-Auflösungsbildern mit beeindruckenden 60+ FPS und Rendering von 512-Auflösungsbildern mit 100+ FPS). Experimentelle Ergebnisse zeigen, dass unser Ansatz aktuelle Methoden deutlich übertrifft, mit einer Steigerung der Bildrate um bis zu das 10-fache und einer vergleichbaren oder überlegenen Rendering-Qualität. Code und Demos werden unter https://github.com/longxiang-ai/Human101 veröffentlicht.