papers.description
Wir stellen FinTral vor, eine Suite von hochmodernen multimodalen Large Language Models (LLMs), die auf dem Mistral-7b-Modell basieren und speziell für die Finanzanalyse entwickelt wurden. FinTral integriert Text-, numerische, tabellarische und Bilddaten. Wir verbessern FinTral durch domänenspezifisches Pre-Training, Instruction Fine-Tuning und RLAIF-Training, indem wir eine umfangreiche Sammlung von Text- und Bilddatensätzen nutzen, die wir für diese Arbeit zusammengestellt haben. Wir führen außerdem einen umfangreichen Benchmark ein, der neun Aufgaben und 25 Datensätze zur Bewertung umfasst, einschließlich Halluzinationen im Finanzbereich. Unser FinTral-Modell, das mit Direct Preference Optimization unter Einsatz fortschrittlicher Tools und Retrieval-Methoden trainiert wurde und als FinTral-DPO-T&R bezeichnet wird, zeigt eine außergewöhnliche Zero-Shot-Leistung. Es übertrifft ChatGPT-3.5 in allen Aufgaben und übertrifft GPT-4 in fünf von neun Aufgaben, was einen bedeutenden Fortschritt in der KI-gestützten Finanztechnologie darstellt. Wir zeigen auch, dass FinTral das Potenzial hat, in der Echtzeitanalyse und Entscheidungsfindung in verschiedenen finanziellen Kontexten hervorragende Leistungen zu erbringen.
Die Natur ist unendlich auflösungsfrei. Vor diesem Hintergrund stehen bestehende Diffusionsmodelle, wie beispielsweise Diffusion Transformers, oft vor Herausforderungen, wenn sie Bildauflösungen außerhalb ihres trainierten Bereichs verarbeiten sollen. Um diese Einschränkung zu überwinden, präsentieren wir den Flexible Vision Transformer (FiT), eine Transformer-Architektur, die speziell für die Erzeugung von Bildern mit uneingeschränkten Auflösungen und Seitenverhältnissen entwickelt wurde. Im Gegensatz zu traditionellen Methoden, die Bilder als statische Auflösungsraster betrachten, konzipiert FiT Bilder als Sequenzen dynamisch großer Tokens. Diese Perspektive ermöglicht eine flexible Trainingsstrategie, die sich mühelos an verschiedene Seitenverhältnisse sowohl während des Trainings als auch der Inferenz anpasst, wodurch die Auflösungsgeneralisierung gefördert und durch Bildbeschnitt induzierte Verzerrungen beseitigt werden. Durch eine sorgfältig angepasste Netzwerkstruktur und die Integration von trainingsfreien Extrapolationstechniken zeigt FiT eine bemerkenswerte Flexibilität bei der Auflösungsextrapolationsgenerierung. Umfassende Experimente demonstrieren die außergewöhnliche Leistung von FiT über ein breites Spektrum von Auflösungen hinweg und zeigen seine Wirksamkeit sowohl innerhalb als auch außerhalb seiner Trainingsauflösungsverteilung. Das Repository ist verfügbar unter https://github.com/whlzy/FiT.
Wir stellen AnyGPT vor, ein any-to-any multimodales Sprachmodell, das diskrete Repräsentationen für die einheitliche Verarbeitung verschiedener Modalitäten nutzt, einschließlich Sprache, Text, Bildern und Musik. AnyGPT kann stabil trainiert werden, ohne dass Änderungen an der aktuellen Architektur oder den Trainingsparadigmen großer Sprachmodelle (LLMs) erforderlich sind. Stattdessen verlässt es sich ausschließlich auf Datenvorverarbeitung, was die nahtlose Integration neuer Modalitäten in LLMs ermöglicht, ähnlich der Einbindung neuer Sprachen. Wir erstellen einen multimodalen, textzentrierten Datensatz für das Vorabtraining zur multimodalen Ausrichtung. Mithilfe generativer Modelle synthetisieren wir den ersten groß angelegten any-to-any multimodalen Instruktionsdatensatz. Er besteht aus 108k Proben mehrschrittiger Konversationen, die verschiedene Modalitäten komplex verweben und das Modell somit befähigen, beliebige Kombinationen multimodaler Eingaben und Ausgaben zu verarbeiten. Experimentelle Ergebnisse zeigen, dass AnyGPT any-to-any multimodale Konversationen ermöglicht und dabei eine Leistung erzielt, die mit spezialisierten Modellen über alle Modalitäten hinweg vergleichbar ist. Dies beweist, dass diskrete Repräsentationen mehrere Modalitäten innerhalb eines Sprachmodells effektiv und praktisch vereinheitlichen können. Demos sind unter https://junzhan2000.github.io/AnyGPT.github.io/ zu finden.
Spekulatives Decodieren ist eine bekannte Technik, um die Inferenz eines großen Zielsprachmodells durch Vorhersagen eines Hilfsentwurfsmodells zu beschleunigen. Obwohl effektiv, erfordert es in anwendungsspezifischen Kontexten oft das Feinabstimmen sowohl des Entwurfs- als auch des Zielmodells, um hohe Akzeptanzraten zu erreichen. Mit der Zunahme der nachgelagerten Aufgaben fügen diese Entwurfsmodelle den Inferenzsystemen erhebliche Komplexität hinzu. Wir schlagen Speculative Streaming vor, eine Einzelmodell-Methode für spekulatives Decodieren, die das Entwerfen in das Zielmodell integriert, indem das Feinabstimmungsziel von der Vorhersage des nächsten Tokens auf die Vorhersage zukünftiger n-Gramme umgestellt wird. Speculative Streaming beschleunigt das Decodieren um das 1,8- bis 3,1-fache in einer Vielzahl von Aufgaben wie Zusammenfassung, strukturierte Abfragen und Bedeutungsrepräsentation, ohne die Generierungsqualität zu beeinträchtigen. Zudem ist Speculative Streaming parameter-effizient. Es erreicht vergleichbare oder höhere Beschleunigungen als Medusa-ähnliche Architekturen, während es etwa 10.000-mal weniger zusätzliche Parameter verwendet, was es besonders gut für ressourcenbeschränkte Geräte geeignet macht.
Die Modellquantisierung verwendet Werte mit niedriger Bitbreite, um die Gewichtsmatrizen von Modellen darzustellen, was ein vielversprechender Ansatz ist, um sowohl den Speicherbedarf als auch den Rechenaufwand bei der Bereitstellung von hoch erwarteten LLMs (Large Language Models) zu reduzieren. Allerdings leiden bestehende Quantisierungsmethoden unter erheblichen Leistungseinbußen, wenn die Bitbreite extrem reduziert wird, und konzentrieren sich daher auf die Verwendung von 4-Bit- oder 8-Bit-Werten zur Quantisierung von Modellen. Dieses Papier quantisiert die Gewichtsmatrizen von LLMs mutig auf 1-Bit und ebnet damit den Weg für die extrem niedrige Bitbreite bei der Bereitstellung von LLMs. Für dieses Ziel führen wir ein 1-Bit-Quantisierungsbewusstes Trainingsframework (QAT) namens OneBit ein, das eine neuartige 1-Bit-Parameterdarstellungsmethode zur besseren Quantisierung von LLMs sowie eine effektive Parameterinitialisierungsmethode basierend auf Matrixzerlegung zur Verbesserung der Konvergenzgeschwindigkeit des QAT-Frameworks umfasst. Umfangreiche experimentelle Ergebnisse zeigen, dass OneBit bei Verwendung von nur 1-Bit-Gewichtsmatrizen eine gute Leistung (mindestens 83 % der nicht quantisierten Leistung) mit robusten Trainingsprozessen erzielt.
Große Sprachmodelle (LLMs) haben gezeigt, dass sie eine breite Palette von Fähigkeiten besitzen, wie beispielsweise das Schreiben von Roboter-Code aus Sprachbefehlen – was es Nicht-Experten ermöglicht, Roboterverhalten zu steuern, es basierend auf Feedback zu modifizieren oder es zu kombinieren, um neue Aufgaben auszuführen. Diese Fähigkeiten (angetrieben durch In-Context-Lernen) sind jedoch auf kurzfristige Interaktionen beschränkt, bei denen das Feedback der Nutzer nur so lange relevant bleibt, wie es in den Kontextumfang des LLMs passt, und können über längere Interaktionen hinweg vergessen werden. In dieser Arbeit untersuchen wir das Feinabstimmen von LLMs, die Roboter-Code schreiben, um ihre In-Context-Interaktionen zu behalten und ihre Lehrbarkeit zu verbessern, d.h. wie effizient sie sich an menschliche Eingaben anpassen (gemessen an der durchschnittlichen Anzahl von Korrekturen, bevor der Nutzer die Aufgabe als erfolgreich betrachtet). Unsere zentrale Beobachtung ist, dass wenn Mensch-Roboter-Interaktionen als ein teilweise beobachtbarer Markov-Entscheidungsprozess formuliert werden (bei dem menschliche Spracheingaben Beobachtungen und Roboter-Code-Ausgaben Aktionen sind), dann kann das Trainieren eines LLMs, um frühere Interaktionen zu vervollständigen, als das Trainieren eines Übergangsdynamikmodells betrachtet werden – das mit klassischen Robotik-Techniken wie Modellprädiktiver Regelung (MPC) kombiniert werden kann, um kürzere Wege zum Erfolg zu finden. Dies führt zu Language Model Predictive Control (LMPC), einem Framework, das PaLM 2 feinabstimmt, um seine Lehrbarkeit bei 78 Aufgaben über 5 Roboter-Implementierungen hinweg zu verbessern – die Erfolgsquote von Nicht-Experten bei der Vermittlung unbekannter Aufgaben um 26,9 % steigert und die durchschnittliche Anzahl menschlicher Korrekturen von 2,4 auf 1,9 reduziert. Experimente zeigen, dass LMPC auch starke Meta-Lerner hervorbringt, die die Erfolgsquote von In-Context-Lernen neuer Aufgaben bei unbekannten Roboter-Implementierungen und APIs um 31,5 % verbessern. Videos, Code und Demos finden Sie unter: https://robot-teaching.github.io/.
Der bemerkenswerte Erfolg von Large Language Models (LLMs) und Instruction Tuning treibt die Entwicklung von Vision Language Models (VLMs) hin zu einem vielseitigen Allzweckmodell voran. Dennoch bleibt unerforscht, ob aktuelle VLMs tatsächlich qualitativ hochwertige Fähigkeiten zur Objekterkennung in Bildern besitzen, die sich an Fragen wie „Welche Objekte sind im Bild enthalten?“ oder „Welches Objekt entspricht einem bestimmten Begrenzungsrahmen?“ messen lassen. Unsere Ergebnisse zeigen, dass die Bildverständnisfähigkeiten aktueller VLMs stark mit ihrer Zero-Shot-Leistung bei Vision-Language (VL)-Aufgaben korrelieren. Dies legt nahe, dass die Priorisierung grundlegender Bildverständnisfähigkeiten entscheidend ist, damit VLMs bei VL-Aufgaben hervorstechen können. Um die Objekterkennung in Bildern zu verbessern, schlagen wir Crayon Large Language and Vision Model (CoLLaVO) vor, das Instruction Tuning mit Crayon-Prompts als neues visuelles Prompt-Tuning-Schema auf der Grundlage von panoptischen Farbkarten integriert. Darüber hinaus präsentieren wir eine Lernstrategie namens Dual QLoRA, die die Objekterkennung in Bildern bewahrt, ohne sie während des visuellen Instruction Tunings zu vergessen, wodurch ein signifikanter Sprung in der Zero-Shot-Leistung bei zahlreichen VL-Benchmarks erreicht wird.
Die Qualität der Feinabstimmungsdaten ist entscheidend, um große Sprachmodelle (LLMs) mit menschlichen Werten in Einklang zu bringen. Aktuelle Methoden zur Verbesserung der Datenqualität sind entweder arbeitsintensiv oder anfällig für faktische Fehler, die durch Halluzinationen der LLMs verursacht werden. Dieses Papier untersucht die Steigerung der Qualität bestehender Instruktionsdaten, um eine bessere Ausrichtung an menschlichen Werten zu erreichen, und stellt einen einfachen und effektiven Ansatz namens ReAlign vor, der die Antworten der Instruktionsdaten in ein Format umwandelt, das besser mit vordefinierten Kriterien und gesammelten Beweisen übereinstimmt. Dieser Ansatz minimiert menschliche Annotationen, Halluzinationen und die Schwierigkeiten bei der Skalierung und bleibt orthogonal zu bestehenden Alignment-Techniken. Experimentell zeigt ReAlign eine signifikante Steigerung der allgemeinen Alignment-Fähigkeit, des mathematischen Denkens, der Faktentreue und der Lesbarkeit der LLMs. Erfreulicherweise kann die mathematische Denkfähigkeit von LLaMA-2-13B auf GSM8K allein durch die Umformatierung der Antwort von 46,77 % auf 56,63 % in der Genauigkeit verbessert werden, ohne zusätzliche Daten oder fortgeschrittene Trainingsmethoden einzuführen. Darüber hinaus führt bereits ein Anteil von 5 % ReAlign-Daten zu einer Steigerung der allgemeinen Alignment-Fähigkeit um 67 %, gemessen am Alpaca-Datensatz. Diese Arbeit unterstreicht die Notwendigkeit weiterer Forschung in die Wissenschaft und mechanistische Interpretierbarkeit von LLMs. Wir haben den zugehörigen Code und die Daten öffentlich zugänglich gemacht, um zukünftige Studien zu unterstützen, unter https://github.com/GAIR-NLP/ReAlign.
Große Sprachmodelle (LLMs) haben beeindruckende Leistungen beim Verständnis von Sprache und der Ausführung komplexer Denkaufgaben gezeigt. Allerdings sind LLMs mit langen Kontextfenstern für ihre hohen Trainingskosten und die lange Inferenzlatenz bekannt. Selbst die fortschrittlichsten Modelle wie GPT-4 und Claude2 machen oft Fehler bei der Verarbeitung von Eingaben mit über 100.000 Tokens, ein Phänomen, das auch als „lost in the middle“ bekannt ist. In diesem Artikel schlagen wir LongAgent vor, eine Methode, die auf der Zusammenarbeit mehrerer Agenten basiert und LLMs (z. B. LLaMA) auf einen Kontext von 128K skaliert und ein potenzielles Überlegenheitspotenzial bei der Verarbeitung langer Texte im Vergleich zu GPT-4 aufzeigt. In LongAgent ist ein Leiter dafür verantwortlich, die Absicht des Benutzers zu verstehen und Teammitglieder anzuweisen, Informationen aus Dokumenten zu beschaffen. Aufgrund von Halluzinationen der Mitglieder ist es für einen Leiter nicht trivial, genaue Informationen aus den Antworten von Dutzenden bis Hunderten von Mitgliedern zu erhalten. Um dies zu beheben, entwickeln wir einen Kommunikationsmechanismus zwischen den Mitgliedern, um Antwortkonflikte, die durch Halluzinationen verursacht werden, durch Informationsaustausch zu lösen. Unsere experimentellen Ergebnisse zeigen, dass LongAgent eine vielversprechende Alternative für die Verarbeitung langer Texte bietet. Das mit LLaMA-7B instanziierte Agententeam erzielt signifikante Verbesserungen bei Aufgaben wie der Abfrage von 128k-langen Texten und mehrstufigen Frage-Antwort-Aufgaben im Vergleich zu GPT-4.
State-of-the-art-Sprachmodelle können beeindruckende Fähigkeiten zur Verfeinerung von Schlussfolgerungen bei Aufgaben in Mathematik, Naturwissenschaften oder Programmierung zeigen. Jüngste Arbeiten belegen jedoch, dass selbst die besten Modelle Schwierigkeiten haben, zu erkennen, wann und wo sie verfeinern sollten, ohne Zugang zu externem Feedback. Outcome-based Reward Models (ORMs), die darauf trainiert sind, die Korrektheit der endgültigen Antwort vorherzusagen und somit anzuzeigen, wann eine Verfeinerung notwendig ist, bieten eine praktische Lösung für diese Entscheidung. Process-based Reward Models (PRMs), die darauf trainiert sind, die Korrektheit von Zwischenschritten vorherzusagen, können dann verwendet werden, um zu bestimmen, wo verfeinert werden sollte. Allerdings sind sie teuer zu trainieren, da sie umfangreiche menschliche Annotationen erfordern. In diesem Artikel schlagen wir Stepwise ORMs (SORMs) vor, die ausschließlich auf synthetischen Daten trainiert werden, um den erwarteten zukünftigen Belohnungswert der optimalen Strategie oder V^{star} zu approximieren. Genauer gesagt werden SORMs darauf trainiert, die Korrektheit der endgültigen Antwort vorherzusagen, wenn die aktuelle Strategie mehrmals abgetastet wird (anstatt nur einmal wie im Fall von ORMs). Unsere Experimente zeigen, dass SORMs im Vergleich zu ORMs fehlerhafte Schlussfolgerungsschritte genauer erkennen können und somit die Genauigkeit bei nachfolgenden Verfeinerungen verbessern. Anschließend trainieren wir globale Verfeinerungsmodelle, die nur die Frage und einen Entwurf der Lösung als Eingabe nehmen und eine korrigierte Lösung vorhersagen, sowie lokale Verfeinerungsmodelle, die zusätzlich eine Kritik als Eingabe erhalten, die den Ort des ersten Fehlers in der Schlussfolgerung angibt. Wir generieren Trainingsdaten für beide Modelle synthetisch, indem wir Daten wiederverwenden, die zum Trainieren des SORM verwendet wurden. Wir stellen fest, dass die Kombination von globalen und lokalen Verfeinerungen unter Verwendung des ORM als Reranker signifikant besser abschneidet als jede Methode für sich allein sowie eine Baseline mit dem besten von drei Stichproben. Mit dieser Strategie können wir die Genauigkeit eines LLaMA-2-13B-Modells (das bereits mit Reinforcement Learning feinabgestimmt wurde) auf GSM8K von 53 % auf 65 % verbessern, wenn es gierig abgetastet wird.
Während oberflächenbasierte Algorithmen zur Ansichtssynthese aufgrund ihrer geringen Rechenanforderungen attraktiv sind, haben sie oft Schwierigkeiten, dünne Strukturen korrekt wiederzugeben. Im Gegensatz dazu sind aufwändigere Methoden, die die Geometrie der Szene als volumetrisches Dichtefeld modellieren (z. B. NeRF), hervorragend darin, feine geometrische Details zu rekonstruieren. Allerdings repräsentieren Dichtefelder die Geometrie oft auf eine „verschwommene“ Weise, was die exakte Lokalisierung der Oberfläche erschwert. In dieser Arbeit modifizieren wir Dichtefelder, um sie dazu zu bringen, sich in Richtung der Oberflächen zu konzentrieren, ohne ihre Fähigkeit zur Rekonstruktion dünner Strukturen zu beeinträchtigen. Erstens verwenden wir eine diskrete Opazitätsgitterdarstellung anstelle eines kontinuierlichen Dichtefelds, wodurch sich die Opazitätswerte an der Oberfläche diskontinuierlich von null auf eins ändern können. Zweitens verwenden wir Anti-Aliasing, indem wir mehrere Strahlen pro Pixel werfen, was es ermöglicht, Verdeckungsgrenzen und Subpixelstrukturen zu modellieren, ohne halbtransparente Voxel zu verwenden. Drittens minimieren wir die binäre Entropie der Opazitätswerte, was die Extraktion der Oberflächengeometrie erleichtert, indem die Opazitätswerte gegen Ende des Trainings binarisiert werden. Schließlich entwickeln wir eine fusionierungsbasierte Meshing-Strategie, gefolgt von Mesh-Vereinfachung und Anpassung des Erscheinungsmodells. Die kompakten Meshes, die unser Modell erzeugt, können in Echtzeit auf mobilen Geräten gerendert werden und erreichen eine deutlich höhere Qualität in der Ansichtssynthese im Vergleich zu bestehenden meshbasierten Ansätzen.
Dieses Papier stellt eine neuartige Methode zur fein abgestimmten Lichtsteuerung während der textgesteuerten, diffusionsbasierten Bildgenerierung vor. Obwohl bestehende Diffusionsmodelle bereits in der Lage sind, Bilder unter beliebigen Lichtbedingungen zu erzeugen, neigen diese Modelle ohne zusätzliche Anleitung dazu, Bildinhalt und Beleuchtung zu korrelieren. Darüber hinaus fehlt es Textprompts an der notwendigen Ausdruckskraft, um detaillierte Lichtszenarien zu beschreiben. Um dem Inhaltsersteller eine fein abgestimmte Kontrolle über die Beleuchtung während der Bildgenerierung zu ermöglichen, ergänzen wir den Textprompt mit detaillierten Lichtinformationen in Form von Radiance-Hinweisen, d. h. Visualisierungen der Szenengeometrie mit einem homogenen kanonischen Material unter der Zielbeleuchtung. Die zur Erzeugung der Radiance-Hinweise benötigte Szenengeometrie ist jedoch unbekannt. Unsere zentrale Beobachtung ist, dass wir lediglich den Diffusionsprozess lenken müssen, weshalb exakte Radiance-Hinweise nicht notwendig sind; wir müssen das Diffusionsmodell nur in die richtige Richtung weisen. Basierend auf dieser Beobachtung führen wir eine dreistufige Methode zur Steuerung der Beleuchtung während der Bildgenerierung ein. In der ersten Stufe nutzen wir ein standardmäßig vortrainiertes Diffusionsmodell, um ein vorläufiges Bild unter unkontrollierter Beleuchtung zu erzeugen. Anschließend resynthetisieren und verfeinern wir in der zweiten Stufe das Vordergrundobjekt im generierten Bild, indem wir die Zielbeleuchtung an ein verfeinertes Diffusionsmodell namens DiLightNet übergeben, wobei Radiance-Hinweise verwendet werden, die auf einer groben Form des Vordergrundobjekts basieren, die aus dem vorläufigen Bild abgeleitet wird. Um die Texturdetails beizubehalten, multiplizieren wir die Radiance-Hinweise mit einer neuronalen Kodierung des vorläufig synthetisierten Bildes, bevor wir sie an DiLightNet übergeben. Schließlich resynthetisieren wir in der dritten Stufe den Hintergrund, um ihn mit der Beleuchtung des Vordergrundobjekts konsistent zu machen. Wir demonstrieren und validieren unser lichtgesteuertes Diffusionsmodell anhand einer Vielzahl von Textprompts und Lichtbedingungen.
Trotz der bemerkenswerten Fähigkeiten von Vision-Sprach-Modellen (VLMs) als vielseitige visuelle Assistenten bestehen zwei wesentliche Herausforderungen innerhalb der bestehenden VLM-Frameworks: (1) die mangelnde Aufgabenvielfalt beim Pretraining und beim visuellen Instruction Tuning sowie (2) Annotationsfehler und Verzerrungen in den von GPT-4 synthetisierten Instruction-Tuning-Daten. Beide Herausforderungen führen zu Problemen wie schlechter Generalisierbarkeit, Halluzinationen und katastrophalem Vergessen. Um diese Herausforderungen zu bewältigen, haben wir Vision-Flan konstruiert, den bisher vielfältigsten öffentlich verfügbaren Datensatz für visuelles Instruction Tuning, der 187 verschiedene Aufgaben und 1.664.261 Instanzen aus akademischen Datensätzen umfasst, wobei jede Aufgabe von einer von Experten verfassten Anleitung begleitet wird. Darüber hinaus schlagen wir ein zweistufiges Instruction-Tuning-Framework vor, bei dem VLMs zunächst auf Vision-Flan feinabgestimmt und anschließend auf GPT-4-synthetisierten Daten weiter trainiert werden. Wir stellen fest, dass dieses zweistufige Tuning-Framework das traditionelle einstufige Framework für visuelles Instruction Tuning deutlich übertrifft und Spitzenleistungen über eine breite Palette von multimodalen Evaluierungsbenchmarks erzielt. Schließlich führen wir detaillierte Analysen durch, um das visuelle Instruction Tuning zu verstehen, und unsere Erkenntnisse zeigen, dass: (1) GPT-4-synthetisierte Daten die Fähigkeiten von VLMs nicht wesentlich verbessern, sondern eher die Antworten des Modells auf menschenfreundliche Formate abstimmen; (2) eine minimale Menge (z. B. 1.000) von GPT-4-synthetisierten Daten die Antworten von VLMs effektiv mit menschlichen Präferenzen in Einklang bringen kann; (3) visuelles Instruction Tuning hauptsächlich großen Sprachmodellen (LLMs) hilft, visuelle Merkmale zu verstehen.
Autoregressive Modelle haben beeindruckende Ergebnisse in der 2D-Bildgenerierung erzielt, indem sie gemeinsame Verteilungen im Gitterraum modellieren. In dieser Arbeit erweitern wir autoregressive Modelle auf 3D-Domänen und streben eine stärkere Fähigkeit zur 3D-Formgenerierung an, indem wir autoregressive Modelle gleichzeitig in Bezug auf Kapazität und Skalierbarkeit verbessern. Zunächst nutzen wir ein Ensemble öffentlich verfügbarer 3D-Datensätze, um das Training von großskaligen Modellen zu erleichtern. Es besteht aus einer umfassenden Sammlung von etwa 900.000 Objekten mit mehreren Eigenschaften wie Netzen, Punkten, Voxeln, gerenderten Bildern und Textbeschreibungen. Dieser vielfältig beschriftete Datensatz, genannt Objaverse-Mix, ermöglicht es unserem Modell, aus einer breiten Palette von Objektvariationen zu lernen. Die direkte Anwendung von 3D-Autoregression stößt jedoch auf kritische Herausforderungen wie hohe Rechenanforderungen an volumetrische Gitter und mehrdeutige autoregressive Reihenfolgen entlang der Gitterdimensionen, was zu einer minderwertigen Qualität der 3D-Formen führt. Daher stellen wir ein neuartiges Framework namens Argus3D vor, das die Kapazität verbessert. Konkret führt unser Ansatz diskretes Repräsentationslernen basierend auf einem latenten Vektor anstelle von volumetrischen Gittern ein, was nicht nur die Rechenkosten reduziert, sondern auch wesentliche geometrische Details bewahrt, indem die gemeinsamen Verteilungen in einer besser handhabbaren Reihenfolge gelernt werden. Die Kapazität der bedingten Generierung kann somit realisiert werden, indem verschiedene konditionierende Eingaben wie Punktwolken, Kategorien, Bilder und Texte einfach an den latenten Vektor angehängt werden. Darüber hinaus skalieren wir unseren Ansatz dank der Einfachheit unserer Modellarchitektur natürlich auf ein größeres Modell mit beeindruckenden 3,6 Milliarden Parametern, was die Qualität der vielseitigen 3D-Generierung weiter verbessert. Umfangreiche Experimente zu vier Generierungsaufgaben zeigen, dass Argus3D vielfältige und treue Formen über mehrere Kategorien hinweg synthetisieren kann und dabei bemerkenswerte Leistungen erzielt.