Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Diffusionsmodelle haben bemerkenswerte Erfolge in der Bild- und Videogenerierung erzielt. In dieser Arbeit zeigen wir, dass Diffusionsmodelle auch hochleistungsfähige Parameter für neuronale Netzwerke generieren können. Unser Ansatz ist einfach und nutzt einen Autoencoder sowie ein standardmäßiges latentes Diffusionsmodell. Der Autoencoder extrahiert latente Darstellungen einer Teilmenge der trainierten Netzwerkparameter. Anschließend wird ein Diffusionsmodell trainiert, um diese latenten Parameterdarstellungen aus zufälligem Rauschen zu synthetisieren. Es generiert dann neue Darstellungen, die durch den Decoder des Autoencoders geleitet werden, dessen Ausgaben direkt als neue Teilmengen von Netzwerkparametern verwendet werden können. Über verschiedene Architekturen und Datensätze hinweg erzeugt unser Diffusionsprozess konsistent Modelle mit vergleichbarer oder verbesserter Leistung gegenüber trainierten Netzwerken, bei minimalem zusätzlichem Aufwand. Bemerkenswerterweise stellen wir empirisch fest, dass die generierten Modelle im Vergleich zu den trainierten Netzwerken unterschiedlich abschneiden. Unsere Ergebnisse ermutigen zu weiterer Erforschung der vielseitigen Anwendungsmöglichkeiten von Diffusionsmodellen.
Wir stellen Generalized Instruction Tuning (genannt GLAN) vor, eine allgemeine und skalierbare Methode für das Instruction Tuning von Large Language Models (LLMs). Im Gegensatz zu früheren Arbeiten, die sich auf Beispieldaten oder bestehende Datensätze zur Konstruktion von Instruction-Tuning-Daten verlassen, nutzt GLAN ausschließlich eine vorkurierte Taxonomie menschlichen Wissens und menschlicher Fähigkeiten als Eingabe und erzeugt großflächig synthetische Instruktionsdaten über alle Disziplinen hinweg. Inspiriert von der systematischen Struktur des menschlichen Bildungssystems, bauen wir die Taxonomie, indem wir menschliches Wissen und Fähigkeiten halbautomatisch in verschiedene Bereiche, Unterbereiche und letztlich eigenständige Disziplinen zerlegen, unterstützt durch LLMs. Anschließend generieren wir eine umfassende Liste von Themen für jede Disziplin und entwerfen einen auf jedes Thema zugeschnittenen Lehrplan, ebenfalls unter Nutzung von LLMs. Mit den detaillierten Schlüsselkonzepten in jeder Unterrichtseinheit des Lehrplans sind wir in der Lage, vielfältige Instruktionen mit einer breiten Abdeckung des gesamten Spektrums menschlichen Wissens und Könnens zu generieren. Umfangreiche Experimente mit großen Sprachmodellen (z.B. Mistral) zeigen, dass GLAN in mehreren Dimensionen von mathematischem Denken, Programmieren, akademischen Prüfungen, logischem Denken bis hin zur allgemeinen Befolgung von Anweisungen hervorragende Ergebnisse erzielt, ohne auf aufgabenspezifische Trainingsdaten zurückzugreifen. Darüber hinaus ermöglicht GLAN eine einfache Anpassung, und neue Bereiche oder Fähigkeiten können durch die einfache Integration eines neuen Knotens in unsere Taxonomie hinzugefügt werden.
Die meisten Videobeschreibungsmodelle sind darauf ausgelegt, kurze Videoclips von wenigen Sekunden zu verarbeiten und Text zu erzeugen, der niedrigstufige visuelle Konzepte beschreibt (z. B. Objekte, Szenen, atomare Aktionen). Die meisten realen Videos dauern jedoch Minuten oder Stunden und weisen eine komplexe hierarchische Struktur auf, die verschiedene zeitliche Granularitäten umfasst. Wir stellen Video ReCap vor, ein rekursives Videobeschreibungsmodell, das Videoeingaben von dramatisch unterschiedlicher Länge (von 1 Sekunde bis zu 2 Stunden) verarbeiten und Videobeschreibungen auf mehreren Hierarchieebenen ausgeben kann. Die rekursive Video-Sprach-Architektur nutzt die Synergie zwischen verschiedenen Videohierarchien und kann stundenlange Videos effizient verarbeiten. Wir verwenden ein Curriculum-Learning-Trainingsschema, um die hierarchische Struktur von Videos zu erlernen, beginnend mit Clip-basierten Beschreibungen, die atomare Aktionen beschreiben, dann mit Segment-basierten Beschreibungen und abschließend mit der Generierung von Zusammenfassungen für stundenlange Videos. Darüber hinaus stellen wir den Ego4D-HCap-Datensatz vor, indem wir Ego4D mit 8.267 manuell gesammelten Langzeit-Videozusammenfassungen erweitern. Unser rekursives Modell kann flexibel Beschreibungen auf verschiedenen Hierarchieebenen generieren und ist auch für andere komplexe Video-Verstehenstasks nützlich, wie z. B. VideoQA auf EgoSchema. Daten, Code und Modelle sind verfügbar unter: https://sites.google.com/view/vidrecap.
Wir stellen VideoPrism vor, einen allgemeinen Video-Encoder, der verschiedene Video-Verständnisaufgaben mit einem einzigen eingefrorenen Modell bewältigt. Wir pretrainieren VideoPrism auf einem heterogenen Korpus, der 36 Millionen hochwertige Video-Beschriftungs-Paare und 582 Millionen Videoclips mit verrauschtem parallelem Text (z.B. ASR-Transkripte) enthält. Der Pretraining-Ansatz verbessert das maskierte Autoencoding durch eine global-lokale Destillation semantischer Video-Einbettungen und ein Token-Shuffling-Schema, wodurch VideoPrism sich primär auf die Video-Modalität konzentrieren kann, während der wertvolle mit Videos assoziierte Text genutzt wird. Wir testen VideoPrism umfassend in vier breiten Gruppen von Video-Verständnisaufgaben, von Web-Video-Fragebeantwortung bis hin zu CV für die Wissenschaft, und erreichen state-of-the-art Leistungen in 30 von 33 Video-Verständnis-Benchmarks.
Damit Assistenten auf Basis großer Sprachmodelle (LLMs) effektiv auf sich entwickelnde Informationsbedürfnisse reagieren können, muss es möglich sein, ihr faktisches Wissen durch kontinuierliches Training mit neuen Daten zu aktualisieren. Die Standardmethode hierfür umfasst fortgesetztes Vortraining auf neuen Dokumenten, gefolgt von Instruktions-Finetuning auf Frage-Antwort-Paaren (QA-Paaren). Wir stellen jedoch fest, dass LLMs, die nach diesem Verfahren trainiert werden, Schwierigkeiten haben, Fragen zu beantworten, obwohl die Perplexität der Dokumente minimiert wird. Wir fanden heraus, dass QA-Paare im Allgemeinen einfach strukturiert sind, während Dokumente komplexer sind und viele Fakten auf eine verflochtene Weise miteinander verbinden. Daher nehmen wir an, dass es vorteilhaft ist, LLMs zunächst QA-Paaren auszusetzen, bevor das fortgesetzte Vortraining auf Dokumenten erfolgt, sodass der Prozess der Wissenscodierung aus komplexen Dokumenten berücksichtigt, wie dieses Wissen durch Fragen abgerufen wird. Basierend darauf schlagen wir Pre-Instruction-Tuning (PIT) vor, eine Methode, bei der das Instruktions-Finetuning auf Fragen vor dem Training auf Dokumenten erfolgt. Dies steht im Gegensatz zum Standard-Instruktions-Finetuning, bei dem das Extrahieren von Wissen erst nach dem Training auf Dokumenten erlernt wird. Umfangreiche Experimente und Ablationsstudien zeigen, dass PIT die Fähigkeit von LLMs, Wissen aus neuen Dokumenten aufzunehmen, signifikant verbessert und das Standard-Instruktions-Finetuning um 17,8 % übertrifft.
LLMs haben das NLP revolutioniert und in verschiedenen Bereichen vielversprechende Ergebnisse gezeigt, doch ihr Potenzial in der Finanzwelt bleibt aufgrund mangelnder gründlicher Evaluierungen und der Komplexität finanzieller Aufgaben weitgehend unerforscht. Dies, zusammen mit der rasanten Entwicklung von LLMs, unterstreicht die dringende Notwendigkeit eines systematischen finanziellen Evaluierungsbenchmarks für LLMs. In diesem Artikel stellen wir FinBen vor, den ersten umfassenden, quelloffenen Evaluierungsbenchmark, der speziell entwickelt wurde, um die Fähigkeiten von LLMs im Finanzbereich gründlich zu bewerten. FinBen umfasst 35 Datensätze über 23 Finanzaufgaben hinweg, die in drei Schwierigkeitsspektren organisiert sind, inspiriert von der Cattell-Horn-Carroll-Theorie, um die kognitiven Fähigkeiten von LLMs in induktivem Denken, assoziativem Gedächtnis, quantitativem Denken, kristalliner Intelligenz und mehr zu bewerten. Unsere Evaluierung von 15 repräsentativen LLMs, darunter GPT-4, ChatGPT und das neueste Gemini, gibt Einblicke in ihre Stärken und Schwächen im Finanzbereich. Die Ergebnisse zeigen, dass GPT-4 in Quantifizierung, Extraktion, numerischem Denken und Aktienhandel führend ist, während Gemini in Generierung und Prognose glänzt; jedoch kämpfen beide mit komplexer Extraktion und Prognose, was einen klaren Bedarf für gezielte Verbesserungen aufzeigt. Instruction Tuning steigert die Leistung bei einfachen Aufgaben, reicht jedoch nicht aus, um komplexes Denken und Prognosefähigkeiten zu verbessern. FinBen strebt an, LLMs kontinuierlich im Finanzbereich zu evaluieren und die KI-Entwicklung durch regelmäßige Aktualisierungen von Aufgaben und Modellen zu fördern.
In diesem Artikel schlagen wir einen Algorithmus vor, der die gemeinsame Verfeinerung der Kameraposition und der Szenengeometrie, dargestellt durch einen zerlegten niedrigrangigen Tensor, ermöglicht, wobei lediglich 2D-Bilder als Supervision verwendet werden. Zunächst führen wir eine Pilotstudie basierend auf einem 1D-Signal durch und beziehen unsere Erkenntnisse auf 3D-Szenarien, bei denen die naive gemeinsame Pose-Optimierung auf voxelbasierten NeRFs leicht zu suboptimalen Lösungen führen kann. Darüber hinaus schlagen wir basierend auf der Analyse des Frequenzspektrums vor, konvolutionale Gauß-Filter auf 2D- und 3D-Strahlungsfeldern für einen grob-zu-fein Trainingsplan anzuwenden, der die gemeinsame Kameraposenoptimierung ermöglicht. Durch die Nutzung der Zerlegungseigenschaft in zerlegten niedrigrangigen Tensoren erreicht unsere Methode einen äquivalenten Effekt zur Brute-Force-3D-Faltung, wobei nur geringer Rechenaufwand entsteht. Um die Robustheit und Stabilität der gemeinsamen Optimierung weiter zu verbessern, schlagen wir auch Techniken der geglätteten 2D-Supervision, zufällig skalierte Kernelparameter und kantenorientierte Verlustmasken vor. Umfangreiche quantitative und qualitative Auswertungen zeigen, dass unser vorgeschlagenes Framework eine überlegene Leistung in der Synthese neuer Ansichten sowie eine schnelle Konvergenz bei der Optimierung erreicht.
Dieses Papier stellt eine neuronale Architektur namens MVDiffusion++ für die 3D-Objektrekonstruktion vor, die dichte und hochauflösende Ansichten eines Objekts aus ein oder wenigen Bildern ohne Kameraposen synthetisiert. MVDiffusion++ erreicht überlegene Flexibilität und Skalierbarkeit durch zwei überraschend einfache Ideen: 1) Eine „posenfreie Architektur“, bei der standardmäßige Selbstaufmerksamkeit zwischen 2D-latenten Merkmalen die 3D-Konsistenz über eine beliebige Anzahl von konditionierten und generierten Ansichten lernt, ohne explizit Kameraposeninformationen zu verwenden; und 2) Eine „Ansichts-Dropout-Strategie“, die während des Trainings eine beträchtliche Anzahl von Ausgabeansichten verwirft, was den Speicherbedarf während des Trainings reduziert und die Synthese dichter und hochauflösender Ansichten zur Testzeit ermöglicht. Wir verwenden den Objaverse für das Training und die Google Scanned Objects für die Bewertung mit Standardmetriken für die Synthese neuer Ansichten und die 3D-Rekonstruktion, wobei MVDiffusion++ den aktuellen Stand der Technik deutlich übertrifft. Wir demonstrieren auch ein Beispiel für eine Text-zu-3D-Anwendung, indem wir MVDiffusion++ mit einem Text-zu-Bild-Generierungsmodell kombinieren.
Das manuelle Erstellen von Texturen für 3D-Meshes ist zeitaufwendig, selbst für erfahrene visuelle Content-Ersteller. Wir schlagen einen schnellen Ansatz vor, um ein eingegebenes 3D-Mesh automatisch basierend auf einem vom Benutzer bereitgestellten Textprompt zu texturieren. Unser Ansatz trennt dabei die Beleuchtung von der Oberflächenbeschaffenheit/Reflektanz in der resultierenden Textur, sodass das Mesh in jeder Beleuchtungsumgebung korrekt neu beleuchtet und gerendert werden kann. Wir stellen LightControlNet vor, ein neues Text-zu-Bild-Modell, das auf der ControlNet-Architektur basiert und es ermöglicht, die gewünschte Beleuchtung als Konditionierungsbild für das Modell anzugeben. Unsere Text-zu-Textur-Pipeline erstellt die Textur in zwei Stufen. In der ersten Stufe wird ein spärlicher Satz visuell konsistenter Referenzansichten des Meshes mithilfe von LightControlNet erzeugt. Die zweite Stufe wendet eine Texturoptimierung basierend auf Score Distillation Sampling (SDS) an, die mit LightControlNet zusammenarbeitet, um die Texturqualität zu erhöhen und gleichzeitig die Oberflächenbeschaffenheit von der Beleuchtung zu trennen. Unsere Pipeline ist deutlich schneller als bisherige Text-zu-Textur-Methoden und erzeugt dabei hochwertige und neu beleuchtbare Texturen.
Berührung ist eine wichtige Sinnesmodalität für Menschen, wurde jedoch noch nicht in ein multimodales generatives Sprachmodell integriert. Dies liegt teilweise an der Schwierigkeit, natürliche Sprachlabels für taktile Daten zu erhalten, sowie an der Komplexität, taktile Messungen sowohl mit visuellen Beobachtungen als auch mit Sprachbeschreibungen in Einklang zu bringen. Als Schritt zur Überbrückung dieser Lücke stellt diese Arbeit einen neuen Datensatz mit 44.000 Vision-Touch-Paaren aus der realen Welt vor, die mit englischen Sprachlabels versehen sind, die zu 10 % von Menschen annotiert und zu 90 % als Text-Pseudo-Labels von GPT-4V generiert wurden. Wir verwenden diesen Datensatz, um einen visuell-sprachlich ausgerichteten taktilen Encoder für die offene Vokabelklassifizierung und ein Touch-Vision-Language (TVL)-Modell zur Textgenerierung mit dem trainierten Encoder zu trainieren. Die Ergebnisse deuten darauf hin, dass das TVL-Modell durch die Einbeziehung von Berührung die Ausrichtung von Berührung, Vision und Sprache im Vergleich zu bestehenden Modellen, die auf einem beliebigen Paar dieser Modalitäten trainiert wurden, verbessert (+29 % Klassifizierungsgenauigkeit). Obwohl nur ein kleiner Teil des Datensatzes von Menschen annotiert wurde, zeigt das TVL-Modell ein verbessertes Verständnis von visuell-taktilen Zusammenhängen gegenüber GPT-4V (+12 %) und Open-Source-Vision-Language-Modellen (+32 %) in einem neuen Benchmark für taktil-visuelles Verständnis. Code und Daten: https://tactile-vlm.github.io.
Die bemerkenswerten Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) haben sie nicht immun gegen Herausforderungen gemacht, insbesondere im Umgang mit irreführenden Informationen in Prompts, was unter solchen Bedingungen zu halluzinierten Antworten führt. Um diese Anfälligkeit quantitativ zu bewerten, stellen wir MAD-Bench vor, einen sorgfältig kuratierten Benchmark, der 850 Testbeispiele in 6 Kategorien enthält, wie nicht existierende Objekte, Objektanzahl, räumliche Beziehungen und visuelle Verwirrung. Wir bieten eine umfassende Analyse populärer MLLMs, von GPT-4V und Gemini-Pro bis hin zu Open-Source-Modellen wie LLaVA-1.5 und CogVLM. Empirisch beobachten wir signifikante Leistungsunterschiede zwischen GPT-4V und anderen Modellen; und bisher robuste, instruktionsoptimierte Modelle wie LRV-Instruction und LLaVA-RLHF sind auf diesem neuen Benchmark nicht effektiv. Während GPT-4V eine Genauigkeit von 75,02 % auf MAD-Bench erreicht, liegt die Genauigkeit aller anderen Modelle in unseren Experimenten zwischen 5 % und 35 %. Wir schlagen weiterhin ein Mittel vor, das einen zusätzlichen Absatz zu den irreführenden Prompts hinzufügt, um die Modelle dazu zu ermutigen, zweimal nachzudenken, bevor sie die Frage beantworten. Überraschenderweise kann diese einfache Methode die Genauigkeit sogar verdoppeln; jedoch sind die absoluten Zahlen immer noch zu niedrig, um zufriedenstellend zu sein. Wir hoffen, dass MAD-Bench als wertvoller Benchmark dienen kann, um weitere Forschungen anzuregen, die die Widerstandsfähigkeit der Modelle gegen irreführende Prompts verbessern.
Die Zusammenfassung von Nachrichten aus einzelnen Dokumenten hat in den letzten Jahren erhebliche Fortschritte in Bezug auf die Treue der Inhalte gemacht, angetrieben durch Forschungen zur Bewertung der faktischen Konsistenz oder von Halluzinationen. Wir fragen, ob diese Fortschritte auch auf andere Bereiche der Textzusammenfassung übertragbar sind. Wir schlagen einen neuen Evaluierungsbenchmark für themenfokussierte Dialogzusammenfassungen vor, die von LLMs unterschiedlicher Größe generiert werden. Wir stellen binäre, satzweise menschliche Annotationen der faktischen Konsistenz dieser Zusammenfassungen bereit, zusammen mit detaillierten Erklärungen zu faktisch inkonsistenten Sätzen. Unsere Analyse zeigt, dass bestehende LLMs im Dialogbereich erhebliche Mengen an faktischen Fehlern halluzinieren, unabhängig von der Größe des Modells. Andererseits schneiden LLMs, einschließlich GPT-4, als binäre Faktizitätsbewerter schlecht ab und können von den derzeitigen, spezialisierten State-of-the-Art-Metriken zur Faktizitätsbewertung übertroffen werden. Schließlich führten wir eine Analyse der Halluzinationstypen mit einer kuratierten Fehlertaxonomie durch. Wir stellen fest, dass es in modellgenerierten Zusammenfassungen diverse Fehler und Fehlerverteilungen gibt und dass nicht-LLM-basierte Metriken alle Fehlertypen besser erfassen können als LLM-basierte Bewerter.
Diffusionsmodelle haben bemerkenswerte Fortschritte in der Text-zu-Bild-Generierung erzielt. Allerdings stoßen bestehende Modelle nach wie vor auf viele Schwierigkeiten, wenn es um die Kompositionsgenerierung mit mehreren Objekten geht. In diesem Artikel schlagen wir ein neues, trainingsfreies und übertragungsfreundliches Text-zu-Bild-Generierungsframework vor, nämlich RealCompo, das darauf abzielt, die Vorteile von Text-zu-Bild- und Layout-zu-Bild-Modellen zu nutzen, um sowohl den Realismus als auch die Kompositionalität der generierten Bilder zu verbessern. Ein intuitiver und neuartiger Balancer wird vorgeschlagen, um die Stärken der beiden Modelle im Denoising-Prozess dynamisch auszubalancieren, wodurch ein Plug-and-Play-Einsatz beliebiger Modelle ohne zusätzliches Training ermöglicht wird. Umfangreiche Experimente zeigen, dass unser RealCompo bei der Kompositionsgenerierung mit mehreren Objekten durchweg state-of-the-art Text-zu-Bild- und Layout-zu-Bild-Modelle übertrifft, während gleichzeitig ein zufriedenstellender Realismus und eine gute Kompositionalität der generierten Bilder gewährleistet wird. Der Code ist verfügbar unter https://github.com/YangLing0818/RealCompo.