HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

14 papers found

FinTral: Eine Familie von GPT-4-Level Multimodalen Finanz-Großsprachmodellen
FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models

Feb 16

ByGagan Bhatia, El Moatez Billah Nagoudi, Hasan Cavusoglu, Muhammad Abdul-Mageed

Wir stellen FinTral vor, eine Suite von hochmodernen multimodalen Large Language Models (LLMs), die auf dem Mistral-7b-Modell basieren und speziell für die Finanzanalyse entwickelt wurden. FinTral integriert Text-, numerische, tabellarische und Bilddaten. Wir verbessern FinTral durch domänenspezifisches Pre-Training, Instruction Fine-Tuning und RLAIF-Training, indem wir eine umfangreiche Sammlung von Text- und Bilddatensätzen nutzen, die wir für diese Arbeit zusammengestellt haben. Wir führen außerdem einen umfangreichen Benchmark ein, der neun Aufgaben und 25 Datensätze zur Bewertung umfasst, einschließlich Halluzinationen im Finanzbereich. Unser FinTral-Modell, das mit Direct Preference Optimization unter Einsatz fortschrittlicher Tools und Retrieval-Methoden trainiert wurde und als FinTral-DPO-T&R bezeichnet wird, zeigt eine außergewöhnliche Zero-Shot-Leistung. Es übertrifft ChatGPT-3.5 in allen Aufgaben und übertrifft GPT-4 in fünf von neun Aufgaben, was einen bedeutenden Fortschritt in der KI-gestützten Finanztechnologie darstellt. Wir zeigen auch, dass FinTral das Potenzial hat, in der Echtzeitanalyse und Entscheidungsfindung in verschiedenen finanziellen Kontexten hervorragende Leistungen zu erbringen.

FiT: Flexibler Vision-Transformer für Diffusionsmodelle
FiT: Flexible Vision Transformer for Diffusion Model

Feb 19

ByZeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai

Die Natur ist unendlich auflösungsfrei. Vor diesem Hintergrund stehen bestehende Diffusionsmodelle, wie beispielsweise Diffusion Transformers, oft vor Herausforderungen, wenn sie Bildauflösungen außerhalb ihres trainierten Bereichs verarbeiten sollen. Um diese Einschränkung zu überwinden, präsentieren wir den Flexible Vision Transformer (FiT), eine Transformer-Architektur, die speziell für die Erzeugung von Bildern mit uneingeschränkten Auflösungen und Seitenverhältnissen entwickelt wurde. Im Gegensatz zu traditionellen Methoden, die Bilder als statische Auflösungsraster betrachten, konzipiert FiT Bilder als Sequenzen dynamisch großer Tokens. Diese Perspektive ermöglicht eine flexible Trainingsstrategie, die sich mühelos an verschiedene Seitenverhältnisse sowohl während des Trainings als auch der Inferenz anpasst, wodurch die Auflösungsgeneralisierung gefördert und durch Bildbeschnitt induzierte Verzerrungen beseitigt werden. Durch eine sorgfältig angepasste Netzwerkstruktur und die Integration von trainingsfreien Extrapolationstechniken zeigt FiT eine bemerkenswerte Flexibilität bei der Auflösungsextrapolationsgenerierung. Umfassende Experimente demonstrieren die außergewöhnliche Leistung von FiT über ein breites Spektrum von Auflösungen hinweg und zeigen seine Wirksamkeit sowohl innerhalb als auch außerhalb seiner Trainingsauflösungsverteilung. Das Repository ist verfügbar unter https://github.com/whlzy/FiT.

AnyGPT: Vereinheitlichtes multimodales LLM mit diskreter Sequenzmodellierung
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

Feb 19

ByJun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu

Wir stellen AnyGPT vor, ein any-to-any multimodales Sprachmodell, das diskrete Repräsentationen für die einheitliche Verarbeitung verschiedener Modalitäten nutzt, einschließlich Sprache, Text, Bildern und Musik. AnyGPT kann stabil trainiert werden, ohne dass Änderungen an der aktuellen Architektur oder den Trainingsparadigmen großer Sprachmodelle (LLMs) erforderlich sind. Stattdessen verlässt es sich ausschließlich auf Datenvorverarbeitung, was die nahtlose Integration neuer Modalitäten in LLMs ermöglicht, ähnlich der Einbindung neuer Sprachen. Wir erstellen einen multimodalen, textzentrierten Datensatz für das Vorabtraining zur multimodalen Ausrichtung. Mithilfe generativer Modelle synthetisieren wir den ersten groß angelegten any-to-any multimodalen Instruktionsdatensatz. Er besteht aus 108k Proben mehrschrittiger Konversationen, die verschiedene Modalitäten komplex verweben und das Modell somit befähigen, beliebige Kombinationen multimodaler Eingaben und Ausgaben zu verarbeiten. Experimentelle Ergebnisse zeigen, dass AnyGPT any-to-any multimodale Konversationen ermöglicht und dabei eine Leistung erzielt, die mit spezialisierten Modellen über alle Modalitäten hinweg vergleichbar ist. Dies beweist, dass diskrete Repräsentationen mehrere Modalitäten innerhalb eines Sprachmodells effektiv und praktisch vereinheitlichen können. Demos sind unter https://junzhan2000.github.io/AnyGPT.github.io/ zu finden.

Spekulatives Streaming: Schnelle LLM-Inferenz ohne Hilfsmodelle
Speculative Streaming: Fast LLM Inference without Auxiliary Models

Feb 16

ByNikhil Bhendawade, Irina Belousova, Qichen Fu, Henry Mason, Mohammad Rastegari, Mahyar Najibi

Spekulatives Decodieren ist eine bekannte Technik, um die Inferenz eines großen Zielsprachmodells durch Vorhersagen eines Hilfsentwurfsmodells zu beschleunigen. Obwohl effektiv, erfordert es in anwendungsspezifischen Kontexten oft das Feinabstimmen sowohl des Entwurfs- als auch des Zielmodells, um hohe Akzeptanzraten zu erreichen. Mit der Zunahme der nachgelagerten Aufgaben fügen diese Entwurfsmodelle den Inferenzsystemen erhebliche Komplexität hinzu. Wir schlagen Speculative Streaming vor, eine Einzelmodell-Methode für spekulatives Decodieren, die das Entwerfen in das Zielmodell integriert, indem das Feinabstimmungsziel von der Vorhersage des nächsten Tokens auf die Vorhersage zukünftiger n-Gramme umgestellt wird. Speculative Streaming beschleunigt das Decodieren um das 1,8- bis 3,1-fache in einer Vielzahl von Aufgaben wie Zusammenfassung, strukturierte Abfragen und Bedeutungsrepräsentation, ohne die Generierungsqualität zu beeinträchtigen. Zudem ist Speculative Streaming parameter-effizient. Es erreicht vergleichbare oder höhere Beschleunigungen als Medusa-ähnliche Architekturen, während es etwa 10.000-mal weniger zusätzliche Parameter verwendet, was es besonders gut für ressourcenbeschränkte Geräte geeignet macht.

OneBit: Auf dem Weg zu extrem niedrig-bitigen großen Sprachmodellen
OneBit: Towards Extremely Low-bit Large Language Models

Feb 17

ByYuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che

Die Modellquantisierung verwendet Werte mit niedriger Bitbreite, um die Gewichtsmatrizen von Modellen darzustellen, was ein vielversprechender Ansatz ist, um sowohl den Speicherbedarf als auch den Rechenaufwand bei der Bereitstellung von hoch erwarteten LLMs (Large Language Models) zu reduzieren. Allerdings leiden bestehende Quantisierungsmethoden unter erheblichen Leistungseinbußen, wenn die Bitbreite extrem reduziert wird, und konzentrieren sich daher auf die Verwendung von 4-Bit- oder 8-Bit-Werten zur Quantisierung von Modellen. Dieses Papier quantisiert die Gewichtsmatrizen von LLMs mutig auf 1-Bit und ebnet damit den Weg für die extrem niedrige Bitbreite bei der Bereitstellung von LLMs. Für dieses Ziel führen wir ein 1-Bit-Quantisierungsbewusstes Trainingsframework (QAT) namens OneBit ein, das eine neuartige 1-Bit-Parameterdarstellungsmethode zur besseren Quantisierung von LLMs sowie eine effektive Parameterinitialisierungsmethode basierend auf Matrixzerlegung zur Verbesserung der Konvergenzgeschwindigkeit des QAT-Frameworks umfasst. Umfangreiche experimentelle Ergebnisse zeigen, dass OneBit bei Verwendung von nur 1-Bit-Gewichtsmatrizen eine gute Leistung (mindestens 83 % der nicht quantisierten Leistung) mit robusten Trainingsprozessen erzielt.

CoLLaVO: Crayon Großes Sprach- und Bildmodell
CoLLaVO: Crayon Large Language and Vision mOdel

Feb 17

ByByung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro

Der bemerkenswerte Erfolg von Large Language Models (LLMs) und Instruction Tuning treibt die Entwicklung von Vision Language Models (VLMs) hin zu einem vielseitigen Allzweckmodell voran. Dennoch bleibt unerforscht, ob aktuelle VLMs tatsächlich qualitativ hochwertige Fähigkeiten zur Objekterkennung in Bildern besitzen, die sich an Fragen wie „Welche Objekte sind im Bild enthalten?“ oder „Welches Objekt entspricht einem bestimmten Begrenzungsrahmen?“ messen lassen. Unsere Ergebnisse zeigen, dass die Bildverständnisfähigkeiten aktueller VLMs stark mit ihrer Zero-Shot-Leistung bei Vision-Language (VL)-Aufgaben korrelieren. Dies legt nahe, dass die Priorisierung grundlegender Bildverständnisfähigkeiten entscheidend ist, damit VLMs bei VL-Aufgaben hervorstechen können. Um die Objekterkennung in Bildern zu verbessern, schlagen wir Crayon Large Language and Vision Model (CoLLaVO) vor, das Instruction Tuning mit Crayon-Prompts als neues visuelles Prompt-Tuning-Schema auf der Grundlage von panoptischen Farbkarten integriert. Darüber hinaus präsentieren wir eine Lernstrategie namens Dual QLoRA, die die Objekterkennung in Bildern bewahrt, ohne sie während des visuellen Instruction Tunings zu vergessen, wodurch ein signifikanter Sprung in der Zero-Shot-Leistung bei zahlreichen VL-Benchmarks erreicht wird.

Schnelleres Lernen durch menschliches Feedback mit prädiktiver Steuerung von Sprachmodellen
Learning to Learn Faster from Human Feedback with Language Model Predictive Control

Feb 18

ByJacky Liang, Fei Xia, Wenhao Yu, Andy Zeng, Montserrat Gonzalez Arenas, Maria Attarian, Maria Bauza, Matthew Bennice, Alex Bewley, Adil Dostmohamed, Chuyuan Kelly Fu, Nimrod Gileadi, Marissa Giustina, Keerthana Gopalakrishnan, Leonard Hasenclever, Jan Humplik, Jasmine Hsu, Nikhil Joshi, Ben Jyenis, Chase Kew, Sean Kirmani, Tsang-Wei Edward Lee, Kuang-Huei Lee, Assaf Hurwitz Michaely, Joss Moore, Ken Oslund, Dushyant Rao, Allen Ren, Baruch Tabanpour, Quan Vuong, Ayzaan Wahid, Ted Xiao, Ying Xu, Vincent Zhuang, Peng Xu, Erik Frey, Ken Caluwaerts, Tingnan Zhang, Brian Ichter, Jonathan Tompson, Leila Takayama, Vincent Vanhoucke, Izhak Shafran, Maja Mataric, Dorsa Sadigh, Nicolas Heess, Kanishka Rao, Nik Stewart, Jie Tan, Carolina Parada

Große Sprachmodelle (LLMs) haben gezeigt, dass sie eine breite Palette von Fähigkeiten besitzen, wie beispielsweise das Schreiben von Roboter-Code aus Sprachbefehlen – was es Nicht-Experten ermöglicht, Roboterverhalten zu steuern, es basierend auf Feedback zu modifizieren oder es zu kombinieren, um neue Aufgaben auszuführen. Diese Fähigkeiten (angetrieben durch In-Context-Lernen) sind jedoch auf kurzfristige Interaktionen beschränkt, bei denen das Feedback der Nutzer nur so lange relevant bleibt, wie es in den Kontextumfang des LLMs passt, und können über längere Interaktionen hinweg vergessen werden. In dieser Arbeit untersuchen wir das Feinabstimmen von LLMs, die Roboter-Code schreiben, um ihre In-Context-Interaktionen zu behalten und ihre Lehrbarkeit zu verbessern, d.h. wie effizient sie sich an menschliche Eingaben anpassen (gemessen an der durchschnittlichen Anzahl von Korrekturen, bevor der Nutzer die Aufgabe als erfolgreich betrachtet). Unsere zentrale Beobachtung ist, dass wenn Mensch-Roboter-Interaktionen als ein teilweise beobachtbarer Markov-Entscheidungsprozess formuliert werden (bei dem menschliche Spracheingaben Beobachtungen und Roboter-Code-Ausgaben Aktionen sind), dann kann das Trainieren eines LLMs, um frühere Interaktionen zu vervollständigen, als das Trainieren eines Übergangsdynamikmodells betrachtet werden – das mit klassischen Robotik-Techniken wie Modellprädiktiver Regelung (MPC) kombiniert werden kann, um kürzere Wege zum Erfolg zu finden. Dies führt zu Language Model Predictive Control (LMPC), einem Framework, das PaLM 2 feinabstimmt, um seine Lehrbarkeit bei 78 Aufgaben über 5 Roboter-Implementierungen hinweg zu verbessern – die Erfolgsquote von Nicht-Experten bei der Vermittlung unbekannter Aufgaben um 26,9 % steigert und die durchschnittliche Anzahl menschlicher Korrekturen von 2,4 auf 1,9 reduziert. Experimente zeigen, dass LMPC auch starke Meta-Lerner hervorbringt, die die Erfolgsquote von In-Context-Lernen neuer Aufgaben bei unbekannten Roboter-Implementierungen und APIs um 31,5 % verbessern. Videos, Code und Demos finden Sie unter: https://robot-teaching.github.io/.

LongAgent: Skalierung von Sprachmodellen auf 128k Kontext durch Multi-Agenten-Kollaboration
LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration

Feb 18

ByJun Zhao, Can Zu, Hao Xu, Yi Lu, Wei He, Yiwen Ding, Tao Gui, Qi Zhang, Xuanjing Huang

Große Sprachmodelle (LLMs) haben beeindruckende Leistungen beim Verständnis von Sprache und der Ausführung komplexer Denkaufgaben gezeigt. Allerdings sind LLMs mit langen Kontextfenstern für ihre hohen Trainingskosten und die lange Inferenzlatenz bekannt. Selbst die fortschrittlichsten Modelle wie GPT-4 und Claude2 machen oft Fehler bei der Verarbeitung von Eingaben mit über 100.000 Tokens, ein Phänomen, das auch als „lost in the middle“ bekannt ist. In diesem Artikel schlagen wir LongAgent vor, eine Methode, die auf der Zusammenarbeit mehrerer Agenten basiert und LLMs (z. B. LLaMA) auf einen Kontext von 128K skaliert und ein potenzielles Überlegenheitspotenzial bei der Verarbeitung langer Texte im Vergleich zu GPT-4 aufzeigt. In LongAgent ist ein Leiter dafür verantwortlich, die Absicht des Benutzers zu verstehen und Teammitglieder anzuweisen, Informationen aus Dokumenten zu beschaffen. Aufgrund von Halluzinationen der Mitglieder ist es für einen Leiter nicht trivial, genaue Informationen aus den Antworten von Dutzenden bis Hunderten von Mitgliedern zu erhalten. Um dies zu beheben, entwickeln wir einen Kommunikationsmechanismus zwischen den Mitgliedern, um Antwortkonflikte, die durch Halluzinationen verursacht werden, durch Informationsaustausch zu lösen. Unsere experimentellen Ergebnisse zeigen, dass LongAgent eine vielversprechende Alternative für die Verarbeitung langer Texte bietet. Das mit LLaMA-7B instanziierte Agententeam erzielt signifikante Verbesserungen bei Aufgaben wie der Abfrage von 128k-langen Texten und mehrstufigen Frage-Antwort-Aufgaben im Vergleich zu GPT-4.

Neuformatierte Ausrichtung
Reformatted Alignment

Feb 19

ByRun-Ze Fan, Xuefeng Li, Haoyang Zou, Junlong Li, Shwai He, Ethan Chern, Jiewen Hu, Pengfei Liu

Die Qualität der Feinabstimmungsdaten ist entscheidend, um große Sprachmodelle (LLMs) mit menschlichen Werten in Einklang zu bringen. Aktuelle Methoden zur Verbesserung der Datenqualität sind entweder arbeitsintensiv oder anfällig für faktische Fehler, die durch Halluzinationen der LLMs verursacht werden. Dieses Papier untersucht die Steigerung der Qualität bestehender Instruktionsdaten, um eine bessere Ausrichtung an menschlichen Werten zu erreichen, und stellt einen einfachen und effektiven Ansatz namens ReAlign vor, der die Antworten der Instruktionsdaten in ein Format umwandelt, das besser mit vordefinierten Kriterien und gesammelten Beweisen übereinstimmt. Dieser Ansatz minimiert menschliche Annotationen, Halluzinationen und die Schwierigkeiten bei der Skalierung und bleibt orthogonal zu bestehenden Alignment-Techniken. Experimentell zeigt ReAlign eine signifikante Steigerung der allgemeinen Alignment-Fähigkeit, des mathematischen Denkens, der Faktentreue und der Lesbarkeit der LLMs. Erfreulicherweise kann die mathematische Denkfähigkeit von LLaMA-2-13B auf GSM8K allein durch die Umformatierung der Antwort von 46,77 % auf 56,63 % in der Genauigkeit verbessert werden, ohne zusätzliche Daten oder fortgeschrittene Trainingsmethoden einzuführen. Darüber hinaus führt bereits ein Anteil von 5 % ReAlign-Daten zu einer Steigerung der allgemeinen Alignment-Fähigkeit um 67 %, gemessen am Alpaca-Datensatz. Diese Arbeit unterstreicht die Notwendigkeit weiterer Forschung in die Wissenschaft und mechanistische Interpretierbarkeit von LLMs. Wir haben den zugehörigen Code und die Daten öffentlich zugänglich gemacht, um zukünftige Studien zu unterstützen, unter https://github.com/GAIR-NLP/ReAlign.

GLoRe: Wann, wo und wie das Reasoning von LLMs durch globale und lokale Verfeinerungen verbessert werden kann
GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

Feb 13

ByAlex Havrilla, Sharath Raparthy, Christoforus Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Roberta Railneau

State-of-the-art-Sprachmodelle können beeindruckende Fähigkeiten zur Verfeinerung von Schlussfolgerungen bei Aufgaben in Mathematik, Naturwissenschaften oder Programmierung zeigen. Jüngste Arbeiten belegen jedoch, dass selbst die besten Modelle Schwierigkeiten haben, zu erkennen, wann und wo sie verfeinern sollten, ohne Zugang zu externem Feedback. Outcome-based Reward Models (ORMs), die darauf trainiert sind, die Korrektheit der endgültigen Antwort vorherzusagen und somit anzuzeigen, wann eine Verfeinerung notwendig ist, bieten eine praktische Lösung für diese Entscheidung. Process-based Reward Models (PRMs), die darauf trainiert sind, die Korrektheit von Zwischenschritten vorherzusagen, können dann verwendet werden, um zu bestimmen, wo verfeinert werden sollte. Allerdings sind sie teuer zu trainieren, da sie umfangreiche menschliche Annotationen erfordern. In diesem Artikel schlagen wir Stepwise ORMs (SORMs) vor, die ausschließlich auf synthetischen Daten trainiert werden, um den erwarteten zukünftigen Belohnungswert der optimalen Strategie oder V^{star} zu approximieren. Genauer gesagt werden SORMs darauf trainiert, die Korrektheit der endgültigen Antwort vorherzusagen, wenn die aktuelle Strategie mehrmals abgetastet wird (anstatt nur einmal wie im Fall von ORMs). Unsere Experimente zeigen, dass SORMs im Vergleich zu ORMs fehlerhafte Schlussfolgerungsschritte genauer erkennen können und somit die Genauigkeit bei nachfolgenden Verfeinerungen verbessern. Anschließend trainieren wir globale Verfeinerungsmodelle, die nur die Frage und einen Entwurf der Lösung als Eingabe nehmen und eine korrigierte Lösung vorhersagen, sowie lokale Verfeinerungsmodelle, die zusätzlich eine Kritik als Eingabe erhalten, die den Ort des ersten Fehlers in der Schlussfolgerung angibt. Wir generieren Trainingsdaten für beide Modelle synthetisch, indem wir Daten wiederverwenden, die zum Trainieren des SORM verwendet wurden. Wir stellen fest, dass die Kombination von globalen und lokalen Verfeinerungen unter Verwendung des ORM als Reranker signifikant besser abschneidet als jede Methode für sich allein sowie eine Baseline mit dem besten von drei Stichproben. Mit dieser Strategie können wir die Genauigkeit eines LLaMA-2-13B-Modells (das bereits mit Reinforcement Learning feinabgestimmt wurde) auf GSM8K von 53 % auf 65 % verbessern, wenn es gierig abgetastet wird.

DiLightNet: Fein abgestimmte Lichtsteuerung für diffusionsbasierte Bildgenerierung
DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation

Feb 19

ByChong Zeng, Yue Dong, Pieter Peers, Youkang Kong, Hongzhi Wu, Xin Tong

Dieses Papier stellt eine neuartige Methode zur fein abgestimmten Lichtsteuerung während der textgesteuerten, diffusionsbasierten Bildgenerierung vor. Obwohl bestehende Diffusionsmodelle bereits in der Lage sind, Bilder unter beliebigen Lichtbedingungen zu erzeugen, neigen diese Modelle ohne zusätzliche Anleitung dazu, Bildinhalt und Beleuchtung zu korrelieren. Darüber hinaus fehlt es Textprompts an der notwendigen Ausdruckskraft, um detaillierte Lichtszenarien zu beschreiben. Um dem Inhaltsersteller eine fein abgestimmte Kontrolle über die Beleuchtung während der Bildgenerierung zu ermöglichen, ergänzen wir den Textprompt mit detaillierten Lichtinformationen in Form von Radiance-Hinweisen, d. h. Visualisierungen der Szenengeometrie mit einem homogenen kanonischen Material unter der Zielbeleuchtung. Die zur Erzeugung der Radiance-Hinweise benötigte Szenengeometrie ist jedoch unbekannt. Unsere zentrale Beobachtung ist, dass wir lediglich den Diffusionsprozess lenken müssen, weshalb exakte Radiance-Hinweise nicht notwendig sind; wir müssen das Diffusionsmodell nur in die richtige Richtung weisen. Basierend auf dieser Beobachtung führen wir eine dreistufige Methode zur Steuerung der Beleuchtung während der Bildgenerierung ein. In der ersten Stufe nutzen wir ein standardmäßig vortrainiertes Diffusionsmodell, um ein vorläufiges Bild unter unkontrollierter Beleuchtung zu erzeugen. Anschließend resynthetisieren und verfeinern wir in der zweiten Stufe das Vordergrundobjekt im generierten Bild, indem wir die Zielbeleuchtung an ein verfeinertes Diffusionsmodell namens DiLightNet übergeben, wobei Radiance-Hinweise verwendet werden, die auf einer groben Form des Vordergrundobjekts basieren, die aus dem vorläufigen Bild abgeleitet wird. Um die Texturdetails beizubehalten, multiplizieren wir die Radiance-Hinweise mit einer neuronalen Kodierung des vorläufig synthetisierten Bildes, bevor wir sie an DiLightNet übergeben. Schließlich resynthetisieren wir in der dritten Stufe den Hintergrund, um ihn mit der Beleuchtung des Vordergrundobjekts konsistent zu machen. Wir demonstrieren und validieren unser lichtgesteuertes Diffusionsmodell anhand einer Vielzahl von Textprompts und Lichtbedingungen.

Binäre Opazitätsgitter: Erfassung feiner geometrischer Details für netzbasierte Ansichtsynthese
Binary Opacity Grids: Capturing Fine Geometric Detail for Mesh-Based View Synthesis

Feb 19

ByChristian Reiser, Stephan Garbin, Pratul P. Srinivasan, Dor Verbin, Richard Szeliski, Ben Mildenhall, Jonathan T. Barron, Peter Hedman, Andreas Geiger

Während oberflächenbasierte Algorithmen zur Ansichtssynthese aufgrund ihrer geringen Rechenanforderungen attraktiv sind, haben sie oft Schwierigkeiten, dünne Strukturen korrekt wiederzugeben. Im Gegensatz dazu sind aufwändigere Methoden, die die Geometrie der Szene als volumetrisches Dichtefeld modellieren (z. B. NeRF), hervorragend darin, feine geometrische Details zu rekonstruieren. Allerdings repräsentieren Dichtefelder die Geometrie oft auf eine „verschwommene“ Weise, was die exakte Lokalisierung der Oberfläche erschwert. In dieser Arbeit modifizieren wir Dichtefelder, um sie dazu zu bringen, sich in Richtung der Oberflächen zu konzentrieren, ohne ihre Fähigkeit zur Rekonstruktion dünner Strukturen zu beeinträchtigen. Erstens verwenden wir eine diskrete Opazitätsgitterdarstellung anstelle eines kontinuierlichen Dichtefelds, wodurch sich die Opazitätswerte an der Oberfläche diskontinuierlich von null auf eins ändern können. Zweitens verwenden wir Anti-Aliasing, indem wir mehrere Strahlen pro Pixel werfen, was es ermöglicht, Verdeckungsgrenzen und Subpixelstrukturen zu modellieren, ohne halbtransparente Voxel zu verwenden. Drittens minimieren wir die binäre Entropie der Opazitätswerte, was die Extraktion der Oberflächengeometrie erleichtert, indem die Opazitätswerte gegen Ende des Trainings binarisiert werden. Schließlich entwickeln wir eine fusionierungsbasierte Meshing-Strategie, gefolgt von Mesh-Vereinfachung und Anpassung des Erscheinungsmodells. Die kompakten Meshes, die unser Modell erzeugt, können in Echtzeit auf mobilen Geräten gerendert werden und erreichen eine deutlich höhere Qualität in der Ansichtssynthese im Vergleich zu bestehenden meshbasierten Ansätzen.

Vision-Flan: Skalierung menschlich annotierter Aufgaben im visuellen Instruktions-Tuning
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning

Feb 18

ByZhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang, Lifu Huang

Trotz der bemerkenswerten Fähigkeiten von Vision-Sprach-Modellen (VLMs) als vielseitige visuelle Assistenten bestehen zwei wesentliche Herausforderungen innerhalb der bestehenden VLM-Frameworks: (1) die mangelnde Aufgabenvielfalt beim Pretraining und beim visuellen Instruction Tuning sowie (2) Annotationsfehler und Verzerrungen in den von GPT-4 synthetisierten Instruction-Tuning-Daten. Beide Herausforderungen führen zu Problemen wie schlechter Generalisierbarkeit, Halluzinationen und katastrophalem Vergessen. Um diese Herausforderungen zu bewältigen, haben wir Vision-Flan konstruiert, den bisher vielfältigsten öffentlich verfügbaren Datensatz für visuelles Instruction Tuning, der 187 verschiedene Aufgaben und 1.664.261 Instanzen aus akademischen Datensätzen umfasst, wobei jede Aufgabe von einer von Experten verfassten Anleitung begleitet wird. Darüber hinaus schlagen wir ein zweistufiges Instruction-Tuning-Framework vor, bei dem VLMs zunächst auf Vision-Flan feinabgestimmt und anschließend auf GPT-4-synthetisierten Daten weiter trainiert werden. Wir stellen fest, dass dieses zweistufige Tuning-Framework das traditionelle einstufige Framework für visuelles Instruction Tuning deutlich übertrifft und Spitzenleistungen über eine breite Palette von multimodalen Evaluierungsbenchmarks erzielt. Schließlich führen wir detaillierte Analysen durch, um das visuelle Instruction Tuning zu verstehen, und unsere Erkenntnisse zeigen, dass: (1) GPT-4-synthetisierte Daten die Fähigkeiten von VLMs nicht wesentlich verbessern, sondern eher die Antworten des Modells auf menschenfreundliche Formate abstimmen; (2) eine minimale Menge (z. B. 1.000) von GPT-4-synthetisierten Daten die Antworten von VLMs effektiv mit menschlichen Präferenzen in Einklang bringen kann; (3) visuelles Instruction Tuning hauptsächlich großen Sprachmodellen (LLMs) hilft, visuelle Merkmale zu verstehen.

Das Vorantreiben autoregressiver Modelle für die 3D-Formgenerierung in Bezug auf Kapazität und Skalierbarkeit
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability

Feb 19

ByXuelin Qian, Yu Wang, Simian Luo, Yinda Zhang, Ying Tai, Zhenyu Zhang, Chengjie Wang, Xiangyang Xue, Bo Zhao, Tiejun Huang, Yunsheng Wu, Yanwei Fu

Autoregressive Modelle haben beeindruckende Ergebnisse in der 2D-Bildgenerierung erzielt, indem sie gemeinsame Verteilungen im Gitterraum modellieren. In dieser Arbeit erweitern wir autoregressive Modelle auf 3D-Domänen und streben eine stärkere Fähigkeit zur 3D-Formgenerierung an, indem wir autoregressive Modelle gleichzeitig in Bezug auf Kapazität und Skalierbarkeit verbessern. Zunächst nutzen wir ein Ensemble öffentlich verfügbarer 3D-Datensätze, um das Training von großskaligen Modellen zu erleichtern. Es besteht aus einer umfassenden Sammlung von etwa 900.000 Objekten mit mehreren Eigenschaften wie Netzen, Punkten, Voxeln, gerenderten Bildern und Textbeschreibungen. Dieser vielfältig beschriftete Datensatz, genannt Objaverse-Mix, ermöglicht es unserem Modell, aus einer breiten Palette von Objektvariationen zu lernen. Die direkte Anwendung von 3D-Autoregression stößt jedoch auf kritische Herausforderungen wie hohe Rechenanforderungen an volumetrische Gitter und mehrdeutige autoregressive Reihenfolgen entlang der Gitterdimensionen, was zu einer minderwertigen Qualität der 3D-Formen führt. Daher stellen wir ein neuartiges Framework namens Argus3D vor, das die Kapazität verbessert. Konkret führt unser Ansatz diskretes Repräsentationslernen basierend auf einem latenten Vektor anstelle von volumetrischen Gittern ein, was nicht nur die Rechenkosten reduziert, sondern auch wesentliche geometrische Details bewahrt, indem die gemeinsamen Verteilungen in einer besser handhabbaren Reihenfolge gelernt werden. Die Kapazität der bedingten Generierung kann somit realisiert werden, indem verschiedene konditionierende Eingaben wie Punktwolken, Kategorien, Bilder und Texte einfach an den latenten Vektor angehängt werden. Darüber hinaus skalieren wir unseren Ansatz dank der Einfachheit unserer Modellarchitektur natürlich auf ein größeres Modell mit beeindruckenden 3,6 Milliarden Parametern, was die Qualität der vielseitigen 3D-Generierung weiter verbessert. Umfangreiche Experimente zu vier Generierungsaufgaben zeigen, dass Argus3D vielfältige und treue Formen über mehrere Kategorien hinweg synthetisieren kann und dabei bemerkenswerte Leistungen erzielt.

Schnelleres Lernen durch menschliches Feedback mit prädiktiver Steuerung von Sprachmodellen
Learning to Learn Faster from Human Feedback with Language Model Predictive Control

Feb 18