Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In diesem Paper zielen wir darauf ab, die Leistung von SwiftBrush, einem prominenten Ein-Schritt-Text-zu-Bild-Diffusionsmodell, zu verbessern, um wettbewerbsfähig mit seinem mehrstufigen Stable Diffusion Pendant zu sein. Zunächst untersuchen wir den Qualitätsvielfalts-Kompromiss zwischen SwiftBrush und SD Turbo: Ersteres zeichnet sich durch Bildvielfalt aus, während Letzteres in Bildqualität herausragt. Diese Beobachtung motiviert unsere vorgeschlagenen Modifikationen in der Trainingsmethodik, einschließlich einer besseren Gewichtsinitialisierung und effizientem LoRA-Training. Darüber hinaus verbessert unsere Einführung eines neuartigen geklemmten CLIP-Verlusts die Bild-Text-Ausrichtung und führt zu einer verbesserten Bildqualität. Bemerkenswerterweise erreichen wir durch die Kombination der Gewichte von Modellen, die mit effizientem LoRA und vollem Training trainiert wurden, ein neues State-of-the-Art Ein-Schritt-Diffusionsmodell mit einem FID von 8,14 und übertrifft alle GAN-basierten und mehrstufigen Stable Diffusion Modelle. Der Evaluierungscode ist verfügbar unter: https://github.com/vinairesearch/swiftbrushv2.
In den letzten Jahren haben Grundlagenmodelle (FMs) wie große Sprachmodelle (LLMs) und latente Diffusionsmodelle (LDMs) verschiedene Branchen, einschließlich der Musik, maßgeblich beeinflusst. Diese umfassende Übersicht untersucht hochmoderne vortrainierte Modelle und Grundlagenmodelle in der Musik, die von der Repräsentationslernen über das generative Lernen bis hin zum multimodalen Lernen reichen. Zunächst kontextualisieren wir die Bedeutung von Musik in verschiedenen Branchen und verfolgen die Entwicklung der KI in der Musik. Indem wir die Modalitäten, die von Grundlagenmodellen anvisiert werden, abgrenzen, entdecken wir, dass viele der Musikrepräsentationen in der FM-Entwicklung noch nicht ausreichend erforscht sind. Dann wird der Schwerpunkt auf der mangelnden Vielseitigkeit früherer Methoden bei verschiedenen Musik-Anwendungen sowie dem Potenzial von FMs in der Musikverständnis, -erzeugung und medizinischen Anwendung gelegt. Durch eine umfassende Erkundung der Details des Modellvortrainingsparadigmas, architektonischer Entscheidungen, Tokenisierung, Feinabstimmungsmethoden und Steuerbarkeit betonen wir die wichtigen Themen, die gut erforscht worden sein sollten, wie beispielsweise Instruktionstuning und kontextbezogenes Lernen, Skalierungsgesetz und emergente Fähigkeit sowie Modellierung langer Sequenzen usw. Ein eigener Abschnitt bietet Einblicke in Musikagenten, begleitet von einer gründlichen Analyse von Datensätzen und Bewertungen, die für das Vortraining und nachgelagerte Aufgaben unerlässlich sind. Abschließend betonen wir die vitale Bedeutung ethischer Überlegungen und plädieren dafür, dass zukünftige Forschungen zu FMs für Musik sich stärker auf Themen wie Interpretierbarkeit, Transparenz, menschliche Verantwortung und Urheberrechtsfragen konzentrieren sollten. Der Artikel bietet Einblicke in zukünftige Herausforderungen und Trends bei FMs für Musik, mit dem Ziel, die Ausrichtung der Zusammenarbeit zwischen Mensch und KI im Musikbereich zu gestalten.
Die Behebung von GitHub-Problemen ist eine kritische Aufgabe im Software Engineering, die in letzter Zeit sowohl in der Industrie als auch in der akademischen Welt erhebliche Aufmerksamkeit erhalten hat. Im Rahmen dieser Aufgabe wurde SWE-bench veröffentlicht, um die Problemlösungsfähigkeiten großer Sprachmodelle (LLMs) zu bewerten, jedoch lag der Fokus bisher nur auf der Python-Version. Die Unterstützung weiterer Programmiersprachen ist jedoch ebenfalls wichtig, da die Industrie einen starken Bedarf hat. Als ersten Schritt zur Unterstützung mehrerer Sprachen haben wir eine Java-Version von SWE-bench entwickelt, genannt SWE-bench-java. Wir haben den Datensatz öffentlich zugänglich gemacht, zusammen mit der entsprechenden Docker-basierten Evaluierungsumgebung und Bestenliste, die in den kommenden Monaten kontinuierlich gewartet und aktualisiert wird. Zur Überprüfung der Zuverlässigkeit von SWE-bench-java implementieren wir eine klassische Methode SWE-agent und testen mehrere leistungsstarke LLMs darauf. Wie bekannt ist, ist die Entwicklung eines hochwertigen mehrsprachigen Benchmarks zeitaufwändig und arbeitsintensiv, daher begrüßen wir Beiträge durch Pull-Anfragen oder Zusammenarbeit, um die Iteration und Verfeinerung zu beschleunigen und den Weg für vollautomatisches Programmieren zu ebnen.
Der rasante Fortschritt von visuellen generativen Modellen erfordert effiziente und zuverlässige Evaluationsmethoden. Die Arena-Plattform, die Benutzerstimmen zu Modellvergleichen sammelt, kann Modelle gemäß menschlicher Präferenzen einstufen. Allerdings erfordern herkömmliche Arena-Methoden, obwohl etabliert, eine übermäßige Anzahl von Vergleichen, damit die Rangliste konvergiert, und sind anfällig für Präferenzrauschen bei Abstimmungen. Dies legt die Notwendigkeit besserer Ansätze nahe, die auf zeitgenössische Evaluationsherausforderungen zugeschnitten sind. In diesem Papier stellen wir K-Sort Arena vor, eine effiziente und zuverlässige Plattform, die auf einem Schlüsselerkenntnis basiert: Bilder und Videos besitzen eine höhere Wahrnehmungsintuitivität als Texte, was eine schnelle Bewertung mehrerer Proben gleichzeitig ermöglicht. Folglich verwendet K-Sort Arena K-weise Vergleiche, die es K-Modellen ermöglichen, an Frei-für-alle-Wettbewerben teilzunehmen, die wesentlich reichhaltigere Informationen liefern als paarweise Vergleiche. Um die Robustheit des Systems zu verbessern, nutzen wir probabilistische Modellierung und bayesianische Aktualisierungstechniken. Wir schlagen eine Erkundungs-Exploitations-basierte Matchmaking-Strategie vor, um informativere Vergleiche zu erleichtern. In unseren Experimenten zeigt K-Sort Arena eine 16,3-fach schnellere Konvergenz im Vergleich zum weit verbreiteten ELO-Algorithmus. Um die Überlegenheit weiter zu validieren und eine umfassende Rangliste zu erhalten, sammeln wir menschliches Feedback durch Crowdsourcing-Evaluationen zahlreicher moderner Text-zu-Bild- und Text-zu-Video-Modelle. Dank seiner hohen Effizienz kann K-Sort Arena kontinuierlich aufkommende Modelle integrieren und die Rangliste mit minimalen Stimmen aktualisieren. Unser Projekt hat mehrere Monate interne Tests durchlaufen und ist jetzt unter https://huggingface.co/spaces/ksort/K-Sort-Arena verfügbar.
Die weit verbreitete Verwendung von Cloud-basierten proprietären großen Sprachmodellen (LLMs) hat bedeutende Herausforderungen eingeführt, darunter operationale Abhängigkeiten, Datenschutzbedenken und die Notwendigkeit einer kontinuierlichen Internetverbindung. In dieser Arbeit stellen wir eine LLMOps-Pipeline namens "LlamaDuo" vor, die die nahtlose Migration von Wissen und Fähigkeiten von serviceorientierten LLMs zu kleineren, lokal verwaltbaren Modellen ermöglicht. Diese Pipeline ist entscheidend, um den Servicebetrieb bei operationellen Ausfällen, strengen Datenschutzrichtlinien oder Offline-Anforderungen aufrechtzuerhalten. Unser LlamaDuo umfasst das Feinabstimmen eines kleinen Sprachmodells gegen das Service-LLM unter Verwendung eines synthetischen Datensatzes, der vom Letzteren generiert wurde. Wenn die Leistung des feinabgestimmten Modells den Erwartungen nicht entspricht, wird es durch weitere Feinabstimmung mit zusätzlichen ähnlichen Daten, die vom Service-LLM erstellt wurden, verbessert. Dieser iterative Prozess garantiert, dass das kleinere Modell letztendlich die Fähigkeiten des Service-LLMs in spezifischen nachgelagerten Aufgaben erreichen oder sogar übertreffen kann, und bietet somit eine praktische und skalierbare Lösung für das Management von KI-Bereitstellungen in eingeschränkten Umgebungen. Um die Wirksamkeit, Anpassungsfähigkeit und Erschwinglichkeit von LlamaDuo in verschiedenen nachgelagerten Aufgaben zu demonstrieren, werden umfangreiche Experimente mit führenden LLMs durchgeführt. Die Implementierung unserer Pipeline ist unter https://github.com/deep-diver/llamaduo verfügbar.
Die Ermittlung der optimalen Lernrate für das Vortrainieren von Sprachmodellen ist eine anspruchsvolle Aufgabe. Dies liegt nicht nur daran, dass eine komplexe Korrelation zwischen Lernrate, Batch-Größe, Anzahl der Trainings-Token, Modellgröße und anderen Hyperparametern besteht, sondern auch daran, dass es prohibitiv teuer ist, eine Hyperparameter-Suche für große Sprachmodelle mit Milliarden oder Billionen von Parametern durchzuführen. Aktuelle Studien schlagen vor, kleine Proxy-Modelle und kleine Korpora zu verwenden, um Hyperparametersuchen durchzuführen und die optimalen Parameter auf große Modelle und große Korpora zu übertragen. Während die Nullschuss-Übertragbarkeit theoretisch und empirisch für mit der Modellgröße zusammenhängende Hyperparameter wie Tiefe und Breite nachgewiesen ist, ist die Nullschuss-Übertragung von kleinen Korpora auf große Korpora noch wenig erforscht. In diesem Paper untersuchen wir die Korrelation zwischen optimaler Lernrate, Batch-Größe und Anzahl der Trainings-Token für den kürzlich vorgeschlagenen WSD-Scheduler. Nach Tausenden von kleinen Experimenten fanden wir eine Potenzgesetzbeziehung zwischen den Variablen und zeigten deren Übertragbarkeit über Modellgrößen hinweg. Basierend auf der Beobachtung schlagen wir einen neuen Lernraten-Scheduler vor, den Power-Scheduler, der unabhängig von der Anzahl der Trainings-Token und der Batch-Größe ist. Das Experiment zeigt, dass die Kombination des Power-Schedulers mit der Maximum Update Parameterization (muP) mit einem Satz von Hyperparametern unabhängig von der Anzahl der Trainings-Token, der Batch-Größe, der Modellgröße und sogar der Modellarchitektur beeindruckende Leistungen erzielen kann. Unsere 3B dichten und MoE-Modelle, die mit dem Power-Scheduler trainiert wurden, erreichen vergleichbare Leistungen wie modernste kleine Sprachmodelle. Wir stellen diese vortrainierten Modelle unter https://ibm.biz/BdKhLa als Open Source zur Verfügung.
In Multiplayer-Ego-Shooter-Spielen wie Counter-Strike: Global Offensive (CS:GO) ist koordinierte Bewegung ein entscheidender Bestandteil des strategischen Spiels auf hohem Niveau. Die Komplexität der Teamkoordination und die Vielfalt der Bedingungen in beliebten Spielkarten machen es jedoch unpraktisch, für jede Situation handgefertigte Bewegungsrichtlinien zu erstellen. Wir zeigen, dass es möglich ist, einen datengesteuerten Ansatz zur Erstellung von menschenähnlichen Bewegungssteuerungen für CS:GO zu verfolgen. Wir kuratieren einen Team-Bewegungsdatensatz, der 123 Stunden professionelles Spielgeschehen umfasst, und verwenden diesen Datensatz, um ein auf Transformer basierendes Bewegungsmodell zu trainieren, das menschenähnliche Team-Bewegungen für alle Spieler in einer "Retakes"-Runde des Spiels generiert. Wichtig ist, dass das Bewegungsvorhersagemodell effizient ist. Die Ausführung von Inferenzen für alle Spieler dauert weniger als 0,5 ms pro Spielzug (amortisierter Aufwand) auf einem einzelnen CPU-Kern, was seine Verwendung in kommerziellen Spielen heute plausibel macht. Menschliche Evaluatoren bewerten, dass unser Modell sich menschenähnlicher verhält als sowohl kommerziell erhältliche Bots als auch von Experten skriptgesteuerte prozedurale Bewegungssteuerungen (16% bis 59% höher nach TrueSkill-Bewertung "menschlich"). Durch Experimente mit In-Game-Bot-gegen-Bot-Selbstspielen zeigen wir, dass unser Modell einfache Formen von Teamarbeit ausführt, weniger häufige Bewegungsfehler macht und Bewegungsverteilungen, Spielerlebensdauern und Tötungspositionen erzeugt, die denen ähneln, die bei professionellen CS:GO-Matches beobachtet werden.
Video-Generierungsmodelle bergen beträchtliches Potenzial in Bereichen wie der Filmproduktion. Allerdings erfordern aktuelle Video-Diffusionsmodelle hohe Rechenkosten und liefern aufgrund der hohen Komplexität der Video-Generierungsaufgabe suboptimale Ergebnisse. In diesem Paper schlagen wir ConFiner vor, ein effizientes Video-Generierungs-Framework von hoher Qualität, das die Video-Generierung in einfachere Teilaufgaben aufteilt: Struktursteuerung und räumlich-zeitliche Verfeinerung. Es kann hochwertige Videos mit einer Kette von einsatzbereiten Diffusionsmodell-Experten generieren, wobei jeder Experte für eine entkoppelte Teilaufgabe verantwortlich ist. Während der Verfeinerung führen wir koordiniertes Denoising ein, das die Fähigkeiten mehrerer Diffusions-Experten in eine einzige Stichprobe integrieren kann. Darüber hinaus entwerfen wir das ConFiner-Long-Framework, das lange kohärente Videos mit drei Einschränkungsstrategien auf ConFiner generieren kann. Experimentelle Ergebnisse zeigen, dass unser ConFiner mit nur 10\% der Inferenzkosten repräsentative Modelle wie Lavie und Modelscope in allen objektiven und subjektiven Metriken übertrifft. Und ConFiner-Long kann hochwertige und kohärente Videos mit bis zu 600 Frames generieren.
Multimodale Large Language Models (MM-LLMs) haben im letzten Jahr signifikante Fortschritte verzeichnet und beeindruckende Leistungen über verschiedene Aufgaben hinweg gezeigt. Um KI wirklich zu demokratisieren, müssen Modelle jedoch starke Fähigkeiten aufweisen und effizient auf kleinen Rechenressourcen laufen können, die von den meisten zugänglich sind. Im Rahmen dieses Vorhabens stellen wir LLaVaOLMoBitnet1B vor - das erste Ternäre Multimodale LLM, das in der Lage ist, Bild(er)+Text-Eingaben zu akzeptieren, um kohärente textuelle Antworten zu erzeugen. Das Modell ist vollständig Open Source zusammen mit Trainings-Skripten verfügbar, um weitere Forschung in diesem Bereich zu fördern. Dieser begleitende technische Bericht hebt den Trainingsprozess, Evaluierungsdetails, Herausforderungen im Zusammenhang mit ternären Modellen und zukünftige Möglichkeiten hervor. Link zum Modell: https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
Die zunehmende Verwendung von Large Language Models (LLMs) hat zu einer starken Nachfrage nach Planeten-skaligen Serving-Systemen geführt, in denen zehntausende von GPUs kontinuierlich Hunderte von Millionen von Benutzern dienen. Folglich hat sich die Durchsatzrate (unter angemessenen Latenzbeschränkungen) als ein Schlüsselkennwert herausgestellt, der die Leistung von Serving-Systemen bestimmt. Um den Durchsatz zu steigern, wurden verschiedene Methoden des Inter-Geräte-Parallelismus (z.B. Daten-, Tensor-, Pipeline-Parallelismus) erforscht. Allerdings berücksichtigen bestehende Methoden nicht die Überlappung der Nutzung verschiedener Ressourcen innerhalb eines einzelnen Geräts, was zu einer Unterauslastung und suboptimaler Leistung führt. Wir schlagen NanoFlow vor, ein neuartiges Serving-Framework, das den Intra-Geräte-Parallelismus nutzt, um die Nutzung von Ressourcen wie Rechenleistung, Speicher und Netzwerk innerhalb eines einzelnen Geräts durch die Koordination von Operationen zu überlappen. Um den Intra-Geräte-Parallelismus zu nutzen, führt NanoFlow zwei Schlüsselinnovationen ein: Erstens teilt NanoFlow Anfragen in Nano-Batches auf der Ebene von Operationen auf, was die Abhängigkeit von sequenziellen Operationen bei der LLM-Inferenz aufbricht und Überlappungen ermöglicht; dann, um von den Überlappungen zu profitieren, verwendet NanoFlow eine Pipeline auf Operationsebene mit der Planung von Ausführungseinheiten, die die funktionalen Einheiten des Geräts partitioniert und gleichzeitig verschiedene Operationen in jeder Einheit ausführt. NanoFlow automatisiert den Pipeline-Aufbau mithilfe eines Parametersuchalgorithmus, der es ermöglicht, NanoFlow leicht auf verschiedene Modelle zu übertragen. Wir implementieren NanoFlow auf NVIDIA GPUs und evaluieren die End-to-End-Durchsatzrate bei mehreren beliebten Modellen wie LLaMA-2-70B, Mixtral 8x7B, LLaMA-3-8B usw. Mit praktischen Arbeitslasten bietet NanoFlow eine Durchsatzsteigerung um das 1,91-fache im Vergleich zu State-of-the-Art-Serving-Systemen und erreicht 59 % bis 72 % der optimalen Durchsatzrate über übertragene Modelle hinweg.
Große Sprachmodelle (LLMs) haben die Sprachverarbeitung revolutioniert und liefern herausragende Ergebnisse in verschiedenen Anwendungen. Die Bereitstellung von LLMs auf Edge-Geräten stellt jedoch mehrere Herausforderungen hinsichtlich Speicher, Energie und Rechenkosten dar, was ihre weitreichende Verwendung in Geräten wie Mobiltelefonen einschränkt. Eine vielversprechende Lösung besteht darin, die Anzahl der Bits zur Darstellung von Gewichten und Aktivierungen zu reduzieren. Während bestehende Arbeiten teilweise erfolgreich waren, LLMs auf niedrigere Bitbreiten zu quantisieren, z. B. 4-Bit-Gewichte, führt die Quantisierung von Aktivierungen über 16 Bits oft zu großen Rechenüberlastungen aufgrund unzureichender Unterstützung für die Gerätequantisierung oder einem erheblichen Genauigkeitsverlust. Dennoch sind 8-Bit-Aktivierungen für die Bereitstellung auf Geräten sehr attraktiv, da sie es LLMs ermöglichen würden, die hardwarefreundlichen Funktionen von Mobilgeräten voll auszuschöpfen, z. B. Neural Processing Units (NPUs). In dieser Arbeit unternehmen wir den ersten Versuch, die Bereitstellung von LLMs auf Geräten mithilfe der ausschließlichen Ganzzahl-Quantisierung zu erleichtern. Zunächst untersuchen wir die Grenzen bestehender Quantisierungsmethoden für die Bereitstellung auf Geräten, wobei wir uns besonders auf die Aktivierungsquantisierung konzentrieren. Anschließend beheben wir diese Einschränkungen, indem wir eine einfache Post-Training-Quantisierungsmethode namens MobileQuant vorstellen, die frühere Arbeiten zur Gewichtsäquivalenttransformation erweitert, indem sie die Gewichtstransformation und Aktivierungsbereichsparameter gemeinsam in einem End-to-End-Verfahren optimiert. MobileQuant zeigt überlegene Fähigkeiten im Vergleich zu bestehenden Methoden, indem es 1) eine nahezu verlustfreie Quantisierung auf einer Vielzahl von LLM-Benchmarks erreicht, 2) Latenz und Energieverbrauch um 20\%-50\% im Vergleich zu aktuellen On-Device-Quantisierungsstrategien reduziert, 3) einen begrenzten Rechenbudgetbedarf hat und 4) mit hardwarefreundlichen Recheneinheiten wie NPU kompatibel ist.
Übergangsvideos spielen eine entscheidende Rolle in der Medienproduktion, da sie den Fluss und die Kohärenz visueller Erzählungen verbessern. Traditionelle Methoden wie Morphing weisen oft einen Mangel an künstlerischer Anziehungskraft auf und erfordern spezialisierte Fähigkeiten, was ihre Wirksamkeit einschränkt. Die jüngsten Fortschritte in der videobasierten Generierung von Diffusionsmodellen bieten neue Möglichkeiten zur Erstellung von Übergängen, stehen jedoch vor Herausforderungen wie der unzureichenden Modellierung von Inter-Frame-Beziehungen und abrupten Inhaltsänderungen. Wir schlagen einen neuartigen, trainingsfreien Ansatz zur Generierung von Übergangsvideos (TVG) vor, der auf Videolevel-Diffusionsmodellen basiert und diese Einschränkungen ohne zusätzliches Training angeht. Unsere Methode nutzt die Gaussian Process Regression (GPR) zur Modellierung latenter Darstellungen, um so für reibungslose und dynamische Übergänge zwischen Frames zu sorgen. Darüber hinaus führen wir interpolationsbasierte bedingte Steuerungen und eine Frequency-aware Bidirectional Fusion (FBiF)-Architektur ein, um die zeitliche Steuerung und die Zuverlässigkeit der Übergänge zu verbessern. Evaluierungen anhand von Benchmark-Datensätzen und benutzerdefinierten Bildpaaren zeigen die Wirksamkeit unseres Ansatzes bei der Erzeugung hochwertiger, reibungsloser Übergangsvideos. Der Code ist verfügbar unter https://sobeymil.github.io/tvg.com.
Große Sprachmodelle (LLMs) wie ChatGPT und Gemini haben die natürliche Sprachverarbeitung erheblich vorangetrieben, was verschiedene Anwendungen wie Chatbots und automatisierte Inhalteerstellung ermöglicht. Allerdings können diese Modelle von bösartigen Personen ausgenutzt werden, die giftige Eingaben erstellen, um schädliche oder unethische Antworten zu provozieren. Diese Personen verwenden oft Jailbreaking-Techniken, um Sicherheitsmechanismen zu umgehen, was die Notwendigkeit robuster Methoden zur Erkennung von giftigen Eingaben hervorhebt. Bestehende Erkennungstechniken, sowohl Blackbox als auch Whitebox, stehen vor Herausforderungen im Zusammenhang mit der Vielfalt giftiger Eingaben, Skalierbarkeit und Rechenleistung. Als Antwort schlagen wir ToxicDetector vor, eine leichte Greybox-Methode, die darauf abzielt, giftige Eingaben in LLMs effizient zu erkennen. ToxicDetector nutzt LLMs, um giftige Konzepteingaben zu erstellen, verwendet Einbettungsvektoren zur Bildung von Merkmalsvektoren und setzt einen Multi-Layer Perceptron (MLP)-Klassifikator für die Eingabeklassifizierung ein. Unsere Evaluation an verschiedenen Versionen der LLama-Modelle, Gemma-2 und mehreren Datensätzen zeigt, dass ToxicDetector eine hohe Genauigkeit von 96,39\% und eine niedrige Falsch-Positiv-Rate von 2,00\% erreicht und damit Methoden auf dem neuesten Stand der Technik übertrifft. Darüber hinaus macht die Verarbeitungszeit von 0,0780 Sekunden pro Eingabe ToxicDetector sehr gut geeignet für Echtzeitanwendungen. ToxicDetector erzielt hohe Genauigkeit, Effizienz und Skalierbarkeit und ist somit eine praktische Methode zur Erkennung von giftigen Eingaben in LLMs.
Bestehende Arbeiten zur Einzelbild-Humanrekonstruktion leiden unter einer schwachen Generalisierbarkeit aufgrund unzureichender Trainingsdaten oder 3D-Inkonsistenzen aufgrund eines Mangels an umfassendem Multi-View-Wissen. In diesem Artikel stellen wir MagicMan vor, ein auf den Menschen spezifisches Multi-View-Diffusionsmodell, das darauf ausgelegt ist, hochwertige neuartige Ansichtsbilder aus einem einzigen Referenzbild zu generieren. Im Kern nutzen wir ein vortrainiertes 2D-Diffusionsmodell als generatives Prior für die Generalisierbarkeit, mit dem parametrischen SMPL-X-Modell als 3D-Körperprior, um das 3D-Bewusstsein zu fördern. Um die kritische Herausforderung der Konsistenzbewahrung bei der Erzielung dichter Multi-View-Generierung zur Verbesserung der 3D-Humanrekonstruktion anzugehen, führen wir zunächst eine hybride Multi-View-Aufmerksamkeit ein, um einen effizienten und gründlichen Informationsaustausch über verschiedene Ansichten hinweg zu erleichtern. Darüber hinaus präsentieren wir einen geometriebewussten Doppelzweig, um eine gleichzeitige Generierung in den RGB- und Normalbereichen durchzuführen und die Konsistenz durch geometrische Hinweise weiter zu verbessern. Zuletzt schlagen wir zur Bewältigung von fehlerhaften Problemen, die aus ungenauen SMPL-X-Schätzungen resultieren und im Widerspruch zum Referenzbild stehen, eine neuartige iterative Verfeinerungsstrategie vor, die die Genauigkeit von SMPL-X progressiv optimiert und gleichzeitig die Qualität und Konsistenz der generierten Multi-Views verbessert. Umfangreiche experimentelle Ergebnisse zeigen, dass unsere Methode sowohl bei der Synthese von neuartigen Ansichten als auch bei nachfolgenden 3D-Humanrekonstruktionsaufgaben signifikant besser abschneidet als bestehende Ansätze.