Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren Sapiens, eine Modellfamilie für vier grundlegende, auf den Menschen zentrierte Sehaufgaben - 2D-Posenschätzung, Segmentierung von Körperteilen, Tiefenschätzung und Vorhersage der Oberflächennormalen. Unsere Modelle unterstützen nativ Inferenzen in 1K-Hochauflösung und sind äußerst einfach an individuelle Aufgaben anzupassen, indem sie einfach durch Feinabstimmung von Modellen, die auf über 300 Millionen natürlichen menschlichen Bildern vortrainiert sind, angepasst werden. Wir beobachten, dass bei gleichem Rechenaufwand die selbstüberwachte Vortrainierung auf einem kuratierten Datensatz von menschlichen Bildern die Leistung für eine vielfältige Reihe von auf den Menschen zentrierten Aufgaben signifikant steigert. Die resultierenden Modelle zeigen eine bemerkenswerte Verallgemeinerung auf natürliche Daten, selbst wenn markierte Daten knapp oder vollständig synthetisch sind. Unser einfaches Modell-Design ermöglicht auch Skalierbarkeit - die Leistung des Modells über verschiedene Aufgaben hinweg verbessert sich, wenn wir die Anzahl der Parameter von 0,3 auf 2 Milliarden erhöhen. Sapiens übertrifft konsistent bestehende Baselines in verschiedenen auf den Menschen zentrierten Benchmarks. Wir erzielen signifikante Verbesserungen gegenüber dem bisherigen Stand der Technik bei Humans-5K (Pose) um 7,6 mAP, Humans-2K (Teilsegmentierung) um 17,1 mIoU, Hi4D (Tiefe) um 22,4% relativen RMSE und THuman2 (Normalen) um 53,5% relativen Winkelfehler.
In der natürlichen Sprachverarbeitung (NLP) haben Große Sprachmodelle (LLMs) eine hohe Qualität bei der Textgenerierung gezeigt. In realen Anwendungen müssen LLMs jedoch zunehmend komplexen Anforderungen gerecht werden. Neben der Vermeidung irreführender oder unangemessener Inhalte sollen LLMs auch spezifischen Benutzeranforderungen gerecht werden, wie das Nachahmen bestimmter Schreibstile oder die Generierung von Texten mit poetischer Reichhaltigkeit. Diese vielfältigen Anforderungen haben zur Entwicklung von Techniken zur kontrollierten Textgenerierung (CTG) geführt, die sicherstellen, dass die Ausgaben vordefinierten Steuerungsbedingungen entsprechen - wie Sicherheit, Stimmung, thematische Konsistenz und sprachlicher Stil - und dabei hohe Standards in Bezug auf Hilfreichkeit, Flüssigkeit und Vielfalt beibehalten. Dieser Artikel überprüft systematisch die neuesten Fortschritte bei der CTG für LLMs, bietet eine umfassende Definition ihrer Kernkonzepte und klärt die Anforderungen an Steuerungsbedingungen und Textqualität. Wir kategorisieren CTG-Aufgaben in zwei Haupttypen: Inhaltssteuerung und Attributsteuerung. Die wichtigsten Methoden werden diskutiert, darunter Modellneuschulung, Feinabstimmung, Verstärkendes Lernen, Prompt-Engineering, Manipulation des latenten Raums und Eingriffe zur Dekodierungszeit. Wir analysieren die Merkmale, Vorteile und Einschränkungen jeder Methode und bieten differenzierte Einblicke zur Erreichung der Generationskontrolle. Darüber hinaus überprüfen wir CTG-Evaluierungsmethoden, fassen ihre Anwendungen in verschiedenen Bereichen zusammen und behandeln wichtige Herausforderungen in der aktuellen Forschung, einschließlich reduzierter Flüssigkeit und Praktikabilität. Wir schlagen auch mehrere Appelle vor, wie zukünftige Forschung einen stärkeren Schwerpunkt auf reale Anwendungen legen könnte. Dieser Artikel zielt darauf ab, wertvolle Anleitungen für Forscher und Entwickler auf diesem Gebiet zu bieten. Unsere Referenzliste und die chinesische Version sind unter https://github.com/IAAR-Shanghai/CTGSurvey öffentlich zugänglich.
Große Sprachmodelle (LLMs) haben die Entwicklung von Finanzanwendungen vorangetrieben, doch oft fehlt es ihnen an ausreichendem Finanzwissen und sie haben Schwierigkeiten bei Aufgaben, die multimodale Eingaben wie Tabellen und Zeitreihendaten erfordern. Um diese Einschränkungen zu beheben, stellen wir Open-FinLLMs vor, eine Reihe von Finanz-LLMs. Wir beginnen mit FinLLaMA, das auf einem 52 Milliarden Token umfassenden Finanzkorpus vorab trainiert wurde und Texte, Tabellen und Zeitreihendaten integriert, um umfassendes Finanzwissen einzubetten. Anschließend wird FinLLaMA durch die Anleitungsfine-Tuning mit 573.000 Finanzanweisungen verbessert, was zu FinLLaMA-instruct führt und die Leistung bei Aufgaben steigert. Abschließend präsentieren wir FinLLaVA, ein multimodales LLM, das mit 1,43 Millionen Bild-Text-Anweisungen trainiert wurde, um komplexe Finanzdatentypen zu verarbeiten. Umfangreiche Bewertungen zeigen die überlegene Leistung von FinLLaMA gegenüber LLaMA3-8B, LLaMA3.1-8B und BloombergGPT sowohl in Zero-Shot- als auch in Few-Shot-Einstellungen über 19 bzw. 4 Datensätze. FinLLaMA-instruct übertrifft GPT-4 und andere Finanz-LLMs auf 15 Datensätzen. FinLLaVA zeichnet sich durch das Verständnis von Tabellen und Diagrammen in 4 multimodalen Aufgaben aus. Darüber hinaus erzielt FinLLaMA beeindruckende Sharpe-Ratios in Handelssimulationen, was seine robusten Finanzanwendungsfähigkeiten unterstreicht. Wir werden unsere Modelle und Benchmarks kontinuierlich pflegen und verbessern, um die laufende Innovation in der akademischen Welt und der Industrie zu unterstützen.
Instruktionsgesteuerte (oder "Chat") feinabgestimmte Modelle sind zu der primären Methode geworden, mit der die meisten Menschen mit großen Sprachmodellen interagieren. Im Gegensatz zu "Basis" oder "Grundlagen" Modellen sind instruktionsgesteuerte Modelle darauf optimiert, auf imperativische Aussagen zu reagieren. Wir stellen Hermes 3 vor, ein neutral ausgerichtetes Generalisten-Instruktions- und Werkzeugnutzungsmodell mit starken Argumentations- und kreativen Fähigkeiten. Seine größte Version, Hermes 3 405B, erreicht eine Spitzenleistung unter offenen Gewichtsmodellen in mehreren öffentlichen Benchmarks.
Wir präsentieren einen vereinheitlichten Transformer, d.h. Show-o, der multimodales Verstehen und Generierung vereint. Im Gegensatz zu vollständig autoregressiven Modellen vereint Show-o autoregressives und (diskretes) Diffusionsmodellieren, um Eingaben und Ausgaben verschiedener und gemischter Modalitäten adaptiv zu verarbeiten. Das vereinheitlichte Modell unterstützt flexibel eine Vielzahl von Vision-Sprach-Aufgaben, einschließlich visueller Frage-Antwort, Text-zu-Bild-Generierung, textgesteuertes Ausbessern/Extrapolieren und gemischte Modalitäten-Generierung. Über verschiedene Benchmarks hinweg zeigt es eine vergleichbare oder überlegene Leistung im Vergleich zu bestehenden individuellen Modellen mit einer äquivalenten oder größeren Anzahl von Parametern, die für Verstehen oder Generierung angepasst sind. Dies unterstreicht signifikant sein Potenzial als Grundlagenmodell der nächsten Generation. Code und Modelle sind unter https://github.com/showlab/Show-o veröffentlicht.
Wir präsentieren xGen-VideoSyn-1, ein Text-zu-Video (T2V) Generierungsmodell, das in der Lage ist, realistische Szenen aus textuellen Beschreibungen zu erzeugen. Aufbauend auf jüngsten Fortschritten wie OpenAI's Sora, erforschen wir die Latent Diffusion Model (LDM) Architektur und führen einen Video-Variationalen Autoencoder (VidVAE) ein. VidVAE komprimiert Videodaten sowohl räumlich als auch zeitlich und reduziert signifikant die Länge visueller Tokens und die Rechenanforderungen, die mit der Generierung von langen Sequenzvideos verbunden sind. Um die Rechenkosten weiter zu reduzieren, schlagen wir eine Teile-und-Zusammenführen-Strategie vor, die die zeitliche Konsistenz über Videosegmente hinweg aufrechterhält. Unser Diffusion Transformer (DiT) Modell integriert räumliche und zeitliche Self-Attention-Schichten, die eine robuste Verallgemeinerung über verschiedene Zeitrahmen und Seitenverhältnisse ermöglichen. Wir haben eine Datenverarbeitungspipeline von Anfang an entwickelt und über 13 Millionen hochwertige Video-Text-Paare gesammelt. Die Pipeline umfasst mehrere Schritte wie Clipping, Texterkennung, Bewegungsschätzung, ästhetische Bewertung und dichte Untertitelung basierend auf unserem hauseigenen Video-LLM-Modell. Das Training der VidVAE- und DiT-Modelle erforderte jeweils etwa 40 und 642 H100-Tage. Unser Modell unterstützt die Generierung von über 14-sekündigen 720p-Videos auf eine durchgängige Weise und zeigt eine wettbewerbsfähige Leistung gegenüber modernsten T2V-Modellen.
Wir präsentieren Jamba-1.5, neue anweisungsoptimierte große Sprachmodelle, die auf unserer Jamba-Architektur basieren. Jamba ist eine hybride Transformer-Mamba-Mixture-of-Experts-Architektur, die eine hohe Durchsatzrate und einen geringen Speicherverbrauch über verschiedene Kontextlängen hinweg bietet, während sie die gleiche oder bessere Qualität wie Transformer-Modelle beibehält. Wir veröffentlichen zwei Modellgrößen: Jamba-1.5-Large mit 94 Milliarden aktiven Parametern und Jamba-1.5-Mini mit 12 Milliarden aktiven Parametern. Beide Modelle sind für eine Vielzahl von Konversations- und Anweisungsfolgefähigkeiten feinabgestimmt und haben eine effektive Kontextlänge von 256.000 Tokens, die größte unter den Open-Weight-Modellen. Um kostengünstige Inferenz zu unterstützen, führen wir ExpertsInt8 ein, eine neuartige Quantisierungstechnik, die es ermöglicht, Jamba-1.5-Large auf einer Maschine mit 8 80-GB-GPUs zu platzieren, wenn 256.000-Token-Kontexte verarbeitet werden, ohne Qualitätsverlust. Bei der Evaluierung anhand einer Reihe von akademischen und Chatbot-Benchmarks erzielen die Jamba-1.5-Modelle ausgezeichnete Ergebnisse, bieten hohe Durchsatzraten und übertreffen andere Open-Weight-Modelle in Benchmarks mit langen Kontexten. Die Modellgewichte für beide Größen sind öffentlich unter der Jamba Open Model License verfügbar, und wir veröffentlichen ExpertsInt8 als Open Source.
Wir leben in einer blühenden Ära digitaler Medien, in der jeder das Potenzial hat, ein persönlicher Filmemacher zu werden. Die aktuelle Forschung zum kinematischen Transfer ermöglicht es Filmemachern, die visuellen Elemente (z.B. Kameraführung und Charakterverhalten) aus klassischen Aufnahmen zu reproduzieren und zu manipulieren. Allerdings sind die Charaktere in den neu interpretierten Filmen immer noch auf manuelle Gestaltung angewiesen, was eine erhebliche technische Komplexität und hohe Kosten mit sich bringt, die für gewöhnliche Benutzer unerreichbar sind. Darüber hinaus fehlt es der geschätzten Kameraführung an Geschmeidigkeit aufgrund unzureichender Erfassung der Bewegung zwischen den Frames und Modellierung der physikalischen Trajektorien. Glücklicherweise hat der bemerkenswerte Erfolg von 2D- und 3D-KI-gesteuerten Generatoren die Möglichkeit eröffnet, Charaktere effizient zu erstellen, die auf die Bedürfnisse der Benutzer zugeschnitten sind und die Kameraführung diversifizieren. In diesem Artikel schlagen wir DreamCinema vor, ein neuartiges kinematisches Transfer-Framework, das generative KI in das Filmproduktionsparadigma einführt und darauf abzielt, die benutzerfreundliche Filmproduktion zu erleichtern. Konkret extrahieren wir zunächst kinematische Elemente (d.h. menschliche und Kameraposition) und optimieren die Kameratrajektorie. Anschließend wenden wir einen Charaktergenerator an, um effizient 3D-Hochqualitätscharaktere mit menschlicher Struktur vorab zu erstellen. Schließlich entwickeln wir eine strukturgeleitete Bewegungsübertragungsstrategie, um die generierten Charaktere in die Filmproduktion zu integrieren und sie reibungslos über 3D-Grafik-Engines zu übertragen. Umfangreiche Experimente zeigen die Wirksamkeit unserer Methode zur Erstellung hochwertiger Filme mit freier Kamera und 3D-Charakteren.
Einbettungsmodelle spielen eine entscheidende Rolle in der natürlichen Sprachverarbeitung (NLP), indem sie Texteinbettungen erstellen, die bei verschiedenen Aufgaben wie der Informationssuche und der Bewertung semantischer Textähnlichkeit verwendet werden. Dieser Artikel konzentriert sich auf Forschung im Zusammenhang mit Einbettungsmodellen in der russischen Sprache. Er stellt ein neues auf Russisch ausgerichtetes Einbettungsmodell namens ru-en-RoSBERTa und den ruMTEB-Benchmark vor, die russische Version des Massive Text Embedding Benchmark (MTEB). Unser Benchmark umfasst sieben Kategorien von Aufgaben wie semantische Textähnlichkeit, Textklassifizierung, Umsortierung und Suche. Die Forschung bewertet auch eine repräsentative Auswahl von russischen und mehrsprachigen Modellen anhand des vorgeschlagenen Benchmarks. Die Ergebnisse zeigen, dass das neue Modell Ergebnisse erzielt, die mit Spitzenmodellen in Russisch vergleichbar sind. Wir veröffentlichen das Modell ru-en-RoSBERTa, und das ruMTEB-Framework wird mit Open-Source-Code, Integration in das ursprüngliche Framework und einer öffentlichen Bestenliste bereitgestellt.
Wir stellen AiM vor, ein autoregressives (AR) Bildgenerierungsmodell, das auf der Mamba-Architektur basiert. AiM nutzt Mamba, ein neuartiges Zustandsraummodell, das sich durch seine außergewöhnliche Leistung bei der Modellierung langer Sequenzen mit linearer Zeitkomplexität auszeichnet, um die häufig verwendeten Transformer in AR-Bildgenerierungsmodellen zu ersetzen. Das Ziel ist eine überlegene Generierungsqualität und eine verbesserte Inferenzgeschwindigkeit zu erreichen. Im Gegensatz zu bestehenden Methoden, die Mamba anpassen, um zweidimensionale Signale über einen multidirektionalen Scan zu verarbeiten, nutzt AiM direkt das Paradigma der nächsten Token-Vorhersage für die autoregressive Bildgenerierung. Dieser Ansatz umgeht die Notwendigkeit umfangreicher Modifikationen, um Mamba in die Lage zu versetzen, 2D-Raumdarstellungen zu erlernen. Durch die Implementierung einfacher, aber gezielter Modifikationen für visuelle Generierungsaufgaben bewahren wir die Kernstruktur von Mamba und nutzen vollständig seine effizienten Fähigkeiten zur Modellierung langer Sequenzen und Skalierbarkeit aus. Wir bieten AiM-Modelle in verschiedenen Maßstäben an, mit Parameterzahlen von 148M bis 1.3B. Auf dem ImageNet1K 256*256 Benchmark erreicht unser bestes AiM-Modell einen FID von 2.21 und übertrifft alle bestehenden AR-Modelle mit vergleichbaren Parameterzahlen. Es zeigt eine signifikante Wettbewerbsfähigkeit gegenüber Diffusionsmodellen, mit einer 2- bis 10-mal schnelleren Inferenzgeschwindigkeit. Der Code ist verfügbar unter https://github.com/hp-l33/AiM.
In diesem Bericht stellen wir Vintern-1B vor, ein zuverlässiges multimodales großes Sprachmodell mit einer Milliarde Parametern (MLLM) für vietnamesische Sprachaufgaben. Durch die Integration des Qwen2-0.5B-Instruct-Sprachmodells mit dem InternViT-300M-448px-Visionsmodell ist Vintern-1B für eine Vielzahl von Anwendungen optimiert, darunter optische Zeichenerkennung (OCR), Dokumentextraktion und allgemeine Frage-Antwort-Aufgaben im vietnamesischen Kontext. Das Modell wird auf einem umfangreichen Datensatz von über 3 Millionen Bild-Frage-Antwort-Paaren feinabgestimmt, was zu einer robusten Leistung und zuverlässigen Ergebnissen in verschiedenen vietnamesischen Sprachbenchmarks wie OpenViVQA und ViTextVQA führt. Vintern-1B ist klein genug, um problemlos in verschiedene On-Device-Anwendungen integriert zu werden. Darüber hinaus haben wir mehrere vietnamesische Vision-Frage-Antwort (VQA)-Datensätze für Texte und Diagramme, erstellt mit Gemini 1.5 Flash, als Open Source veröffentlicht. Unsere Modelle sind verfügbar unter: https://huggingface.co/5CD-AI/Vintern-1B-v2.
Wir präsentieren Pyramid Attention Broadcast (PAB), einen echtzeitfähigen, hochwertigen und trainingsfreien Ansatz für die Generierung von Videos auf Basis von Diffusionstransformern (DiT). Unsere Methode basiert auf der Beobachtung, dass die Aufmerksamkeitsdifferenz im Diffusionsprozess ein U-förmiges Muster aufweist, was auf eine signifikante Redundanz hinweist. Dies wird durch das Aussenden von Aufmerksamkeitsausgaben in pyramidenförmigem Stil an nachfolgende Schritte gemildert. Es werden unterschiedliche Aussendestrategien für jede Aufmerksamkeit angewendet, basierend auf ihrer Varianz für eine optimale Effizienz. Des Weiteren führen wir eine parallele Aussendesequenz für effizientere verteilte Inferenz ein. PAB zeigt überlegene Ergebnisse bei drei Modellen im Vergleich zu Baselines und ermöglicht die Echtzeitgenerierung von Videos mit bis zu 720p. Wir gehen davon aus, dass unsere einfache, aber effektive Methode als robuste Grundlinie dienen wird und zukünftige Forschung und Anwendungen für die Videogenerierung erleichtern wird.
In diesem Paper schlagen wir eine neue Methode namens Strategist vor, die LLMs nutzt, um neue Fähigkeiten für das Spielen von Multi-Agenten-Spielen durch einen Selbstverbesserungsprozess zu erwerben. Unsere Methode sammelt qualitatives Feedback durch Selbstspiel-Simulationen mit Monte-Carlo-Baumsuche und LLM-basierter Reflexion, das dann verwendet werden kann, um hochrangige strategische Fähigkeiten wie die Bewertung von Zuständen zu erlernen, die die Ausführung auf niedriger Ebene leiten. Wir zeigen, wie unsere Methode sowohl bei der Aktionsplanung als auch bei der Dialoggenerierung im Kontext von Spielen eingesetzt werden kann und dabei gute Leistungen bei beiden Aufgaben erzielt. Insbesondere zeigen wir, dass unsere Methode dazu beitragen kann, Agenten mit besserer Leistung als sowohl traditionelle auf Verstärkungslernen basierende Ansätze als auch andere LLM-basierte Fähigkeitserlernungsansätze in Spielen wie dem Spiel reiner Strategie (GOPS) und The Resistance: Avalon zu trainieren.
Groß angelegte Vision-Sprach-Modelle (LVLMs) haben sich erheblich weiterentwickelt, indem sie textausgerichtete visuelle Eingaben verwendet haben. Sie haben bemerkenswerte Fortschritte bei Computer-Vision-Aufgaben erzielt, indem sie die Textmodalität mit visuellen Eingaben abgestimmt haben. Es gibt auch Bestrebungen, Multi-Vision-Sensoren jenseits von RGB einzubeziehen, einschließlich thermischer, Tiefen- und medizinischer Röntgenbilder. Allerdings stellen wir fest, dass aktuelle LVLMs Bilder von Multi-Vision-Sensoren betrachten, als ob sie sich im selben RGB-Bereich befänden, ohne die physikalischen Eigenschaften von Multi-Vision-Sensoren zu berücksichtigen. Sie versäumen es, die grundlegenden Informationen der Multi-Vision-Sensoren aus dem Datensatz und das entsprechende Kontextwissen angemessen zu vermitteln. Folglich wird keine korrekte Ausrichtung zwischen den Informationen aus der tatsächlichen physischen Umgebung und dem Text erreicht, was es schwierig macht, komplexe sensorbezogene Fragen zu beantworten, die die physische Umgebung berücksichtigen. In diesem Artikel zielen wir darauf ab, einen Multi-Vision-Sensor-Wahrnehmungs- und -Begründungs-Benchmark namens SPARK zu etablieren, der die grundlegende Informationslücke zwischen Bildern und Multi-Vision-Sensoren reduzieren kann. Wir haben automatisch 6.248 Vision-Sprach-Testproben generiert, um die Wahrnehmung und Begründung von Multi-Vision-Sensoren hinsichtlich des Wissens über physische Sensoren in verschiedenen Formaten zu untersuchen, die verschiedene Arten von sensorbezogenen Fragen abdecken. Wir haben diese Proben genutzt, um zehn führende LVLMs zu bewerten. Die Ergebnisse zeigten, dass die meisten Modelle in unterschiedlichem Maße Defizite bei der Begründung von Multi-Vision-Sensoren aufwiesen. Codes und Daten sind verfügbar unter https://github.com/top-yun/SPARK.
Große Sprachmodelle (LLMs) haben beeindruckende Fortschritte in zahlreichen Disziplinen erzielt, doch das kritische Thema von Wissenskonflikten, einer Hauptursache für Halluzinationen, wurde selten untersucht. Nur wenige Studien haben die Konflikte zwischen dem inhärenten Wissen von LLMs und dem abgerufenen kontextuellen Wissen erforscht. Eine gründliche Bewertung von Wissenskonflikten in LLMs fehlt jedoch noch. Angespornt durch diese Forschungslücke präsentieren wir ConflictBank, den ersten umfassenden Benchmark, der entwickelt wurde, um Wissenskonflikte systematisch aus drei Aspekten zu bewerten: (i) Konflikte, die im abgerufenen Wissen auftreten, (ii) Konflikte innerhalb des kodierten Wissens der Modelle und (iii) das Zusammenspiel zwischen diesen Konfliktformen. Unsere Untersuchung geht auf vier Modellfamilien und zwölf LLM-Instanzen ein, indem sie Konflikte aufgrund von Fehlinformationen, zeitlichen Diskrepanzen und semantischen Unterschieden akribisch analysiert. Basierend auf unserem vorgeschlagenen neuartigen Konstruktionsrahmen erstellen wir 7.453.853 Behauptungs-Belege-Paare und 553.117 QA-Paare. Wir präsentieren zahlreiche Erkenntnisse zu Modellgröße, Konfliktursachen und Konflikttypen. Wir hoffen, dass unser ConflictBank-Benchmark der Gemeinschaft helfen wird, das Verhalten von Modellen bei Konflikten besser zu verstehen und zuverlässigere LLMs zu entwickeln.
Multimodale Large Language Models (MLLMs) haben kürzlich bemerkenswerte Wahrnehmungs- und Denkfähigkeiten gezeigt, die typischerweise aus einem Vision Encoder, einem Adapter und einem Large Language Model (LLM) bestehen. Der Adapter dient als entscheidende Brücke zwischen den visuellen und sprachlichen Komponenten. Das Training von Adaptern mit bildbasierter Überwachung führt jedoch häufig zu erheblichen Missanpassungen, die die Fähigkeiten der LLMs untergraben und das Potenzial von Multimodalen LLMs einschränken. Um dies zu lösen, führen wir Supervised Embedding Alignment (SEA) ein, eine auf Token-Ebene ausgerichtete Methode, die auf vorab trainierten Modellen für die Verbindung von Vision und Sprache, wie z.B. CLIP, basiert, um visuelle Tokens mit dem Einbettungsraum des LLMs durch kontrastives Lernen auszurichten. Dieser Ansatz gewährleistet eine kohärentere Integration von visuellen und sprachlichen Repräsentationen, verbessert die Leistung und Interpretierbarkeit von multimodalen LLMs und bewahrt gleichzeitig deren inhärente Fähigkeiten. Umfangreiche Experimente zeigen, dass SEA die MLLMs effektiv verbessert, insbesondere für kleinere Modelle, ohne zusätzliche Daten oder Inferenzberechnungen hinzuzufügen. SEA legt auch den Grundstein für die Entwicklung allgemeinerer und anpassungsfähiger Lösungen zur Verbesserung von multimodalen Systemen.
Traditionelle Methoden zur Erzeugung von Animationen hängen von der Schulung generativer Modelle mit menschlich gelabelten Daten ab, was eine anspruchsvolle mehrstufige Pipeline erfordert, die erheblichen menschlichen Aufwand erfordert und hohe Schulungskosten verursacht. Aufgrund begrenzter Anweisungspläne produzieren diese Methoden typischerweise kurze, informationsarme und kontextinkohärente Animationen. Um diese Einschränkungen zu überwinden und den Animationsprozess zu automatisieren, führen wir die Einführung großer multimodaler Modelle (LMMs) als Kernprozessor ein, um einen autonomen Animations-Agenten namens Anim-Director zu erstellen. Dieser Agent nutzt hauptsächlich das fortschrittliche Verständnis und die Schlussfolgerungsfähigkeiten von LMMs und generativen KI-Tools, um animierte Videos aus prägnanten Erzählungen oder einfachen Anweisungen zu erstellen. Konkret arbeitet er in drei Hauptphasen: Zunächst generiert der Anim-Director eine kohärente Handlung aus Benutzereingaben, gefolgt von einem detaillierten Regie-Skript, das Einstellungen von Charakterprofilen und Innen-/Außenbeschreibungen sowie kontextkohärente Szenenbeschreibungen umfasst, die erscheinende Charaktere, Innenräume oder Außenbereiche und Szenenereignisse beinhalten. Zweitens verwenden wir LMMs mit dem Bildgenerierungstool, um visuelle Bilder von Einstellungen und Szenen zu erstellen. Diese Bilder sind darauf ausgelegt, visuelle Konsistenz über verschiedene Szenen hinweg zu bewahren, indem eine visuell-sprachliche Anweisungsmethode verwendet wird, die Szenenbeschreibungen und Bilder des erscheinenden Charakters und der Umgebung kombiniert. Drittens dienen Szenenbilder als Grundlage für die Erstellung von animierten Videos, wobei LMMs Anweisungen zur Steuerung dieses Prozesses generieren. Der gesamte Prozess ist bemerkenswert autonom ohne manuelle Intervention, da die LMMs nahtlos mit generativen Tools interagieren, um Anweisungen zu generieren, die visuelle Qualität zu bewerten und die beste zur Optimierung des endgültigen Ergebnisses auszuwählen.
Die 3D-Rekonstruktion und Neubeleuchtung von Objekten aus streuenden Materialien stellen aufgrund des komplexen Lichttransports unter der Oberfläche eine bedeutende Herausforderung dar. 3D-Gauß-Splatting führte eine hochwertige neuartige Ansichtssynthese in Echtzeitgeschwindigkeit ein. Während 3D-Gaußs effizient die Oberfläche eines Objekts approximieren, erfassen sie nicht die volumetrischen Eigenschaften der Subsurfacedispersion. Wir schlagen ein Framework zur Optimierung der Form eines Objekts zusammen mit dem Strahlungstransferfeld vor, basierend auf Mehransichts-OLAT-Daten (eine Lichtquelle nach der anderen). Unsere Methode zerlegt die Szene in eine explizite Oberfläche, die durch 3D-Gaußs repräsentiert wird, mit einem räumlich variierenden BRDF, und eine implizite volumetrische Darstellung der Streukomponente. Ein erlerntes einfallendes Lichtfeld berücksichtigt Schattierungen. Wir optimieren alle Parameter gemeinsam über raytracingfähiges differentielles Rendern. Unser Ansatz ermöglicht Materialbearbeitung, Neubeleuchtung und neuartige Ansichtssynthese in interaktiven Geschwindigkeiten. Wir zeigen eine erfolgreiche Anwendung auf synthetischen Daten und stellen einen neu erworbenen Mehransichts-Mehrlicht-Datensatz von Objekten in einem Lichtbühnen-Setup vor. Im Vergleich zu früheren Arbeiten erzielen wir vergleichbare oder bessere Ergebnisse in einem Bruchteil der Optimierungs- und Rendierungszeit und ermöglichen gleichzeitig eine detaillierte Kontrolle über Materialeigenschaften. Projektpage: https://sss.jdihlmann.com/
Die Foley-Klangsynthese ist entscheidend für die Multimedia-Produktion und verbessert die Benutzererfahrung, indem sie Audio und Video sowohl zeitlich als auch semantisch synchronisiert. Aktuelle Studien zur Automatisierung dieses arbeitsintensiven Prozesses durch die Video-zu-Klang-Erzeugung stehen vor erheblichen Herausforderungen. Systeme, die explizite zeitliche Merkmale vermissen lassen, leiden unter schlechter Steuerbarkeit und Ausrichtung, während timestamp-basierte Modelle teure und subjektive menschliche Annotationen erfordern. Wir schlagen Video-Foley vor, ein Video-zu-Klang-System, das den Root Mean Square (RMS) als zeitliches Ereignisbedingung mit semantischen Klangfarbenvorgaben (Audio oder Text) verwendet. RMS, ein Merkmal des Intensitätsverlaufs auf Frame-Ebene, das eng mit der Audiosemantik verbunden ist, gewährleistet eine hohe Steuerbarkeit und Synchronisation. Das annotationsfreie selbstüberwachte Lernframework besteht aus zwei Phasen, Video2RMS und RMS2Sound, und integriert neue Ideen, darunter RMS-Diskretisierung und RMS-ControlNet mit einem vortrainierten Text-zu-Audio-Modell. Unsere umfangreiche Evaluation zeigt, dass Video-Foley eine Spitzenleistung bei der audiovisuellen Ausrichtung und Steuerbarkeit für Klangtiming, Intensität, Klangfarbe und Feinheiten erreicht. Der Code, die Modellgewichte und Demonstrationen sind auf der begleitenden Website verfügbar. (https://jnwnlee.github.io/video-foley-demo)
Angesichts der weit verbreiteten Verbreitung von Fehlinformationen in sozialen Medien ist die Implementierung von Faktenprüfmechanismen für Online-Behauptungen unerlässlich. Jede Behauptung manuell zu überprüfen, ist äußerst herausfordernd und unterstreicht die Notwendigkeit eines automatisierten Faktenprüfungssystems. Dieses Papier stellt unser System vor, das entwickelt wurde, um dieses Problem anzugehen. Wir nutzen den Averitec-Datensatz, um die Wahrhaftigkeit von Behauptungen zu bewerten. Neben der Wahrheitsvorhersage liefert unser System unterstützende Beweise, die aus dem Datensatz extrahiert werden. Wir entwickeln eine Abruf- und Generierungspipeline (RAG), um relevante Beweissätze aus einer Wissensdatenbank zu extrahieren, die dann zusammen mit der Behauptung in ein großes Sprachmodell (LLM) zur Klassifizierung eingegeben werden. Wir evaluieren auch die Few-Shot In-Context Learning (ICL) Fähigkeiten mehrerer LLMs. Unser System erreicht einen „Averitec“-Score von 0,33, was eine absolute Verbesserung um 22% gegenüber dem Ausgangswert darstellt. Der gesamte Code wird auf https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms verfügbar sein.