Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Methoden der rechnergestützten Quantenchemie liefern genaue Näherungen molekularer Eigenschaften, die für die computergestützte Arzneimittelforschung und andere Bereiche der chemischen Wissenschaft entscheidend sind. Allerdings begrenzt die hohe Rechenkomplexität die Skalierbarkeit ihrer Anwendungen. Neuronale Netzwerkpotenziale (NNPs) sind eine vielversprechende Alternative zu den Methoden der Quantenchemie, erfordern jedoch große und vielfältige Datensätze für das Training. Diese Arbeit präsentiert einen neuen Datensatz und Benchmark namens nabla^2DFT, der auf dem nablaDFT basiert. Er enthält doppelt so viele molekulare Strukturen, dreimal mehr Konformationen, neue Datentypen und Aufgaben sowie modernste Modelle. Der Datensatz umfasst Energien, Kräfte, 17 molekulare Eigenschaften, Hamilton- und Überlappungsmatrizen sowie ein Wellenfunktionsobjekt. Alle Berechnungen wurden auf DFT-Niveau (omegaB97X-D/def2-SVP) für jede Konformation durchgeführt. Darüber hinaus ist nabla^2DFT der erste Datensatz, der Relaxationstrajektorien für eine beträchtliche Anzahl von medikamentenähnlichen Molekülen enthält. Wir stellen auch einen neuen Benchmark zur Bewertung von NNPs in der Vorhersage molekularer Eigenschaften, der Hamilton-Vorhersage und der konformationellen Optimierungsaufgaben vor. Schließlich schlagen wir ein erweiterbares Framework für das Training von NNPs vor und implementieren 10 Modelle darin.
Unüberwachtes Multitask-Vortraining war die entscheidende Methode hinter dem jüngsten Erfolg von Sprachmodellen (LMs). Dennoch birgt überwachtes Multitask-Lernen weiterhin ein signifikantes Potenzial, da die Skalierung im Post-Training zu einer besseren Verallgemeinerung führt. In diesem Paper erforschen wir überwachtes Multitask-Vortraining, indem wir das Instruktions-Vortraining vorschlagen, ein Framework, das massive Rohkorpora skalierbar mit Instruktions-Antwort-Paaren erweitert, um LMs vorzutrainieren. Die Instruktions-Antwort-Paare werden von einem effizienten Instruktions-Synthesizer generiert, der auf Open-Source-Modellen basiert. In unseren Experimenten synthetisieren wir 200 Millionen Instruktions-Antwort-Paare, die über 40 Aufgabenkategorien abdecken, um die Wirksamkeit des Instruktions-Vortrainings zu überprüfen. Beim Vortraining von Grund auf verbessert das Instruktions-Vortraining nicht nur konsistent die vorab trainierten Basismodelle, sondern profitiert auch mehr von weiterer Instruktionsfeinabstimmung. Im kontinuierlichen Vortraining ermöglicht das Instruktions-Vortraining, dass Llama3-8B mit Llama3-70B vergleichbar oder sogar besser abschneidet. Unser Modell, Code und Daten sind verfügbar unter https://github.com/microsoft/LMOps.
Die Manipulation von echten Bildattributen durch StyleGAN-Inversion wurde eingehend erforscht. Dieser Prozess beinhaltet die Suche nach latenten Variablen aus einem gut trainierten StyleGAN-Generator, die ein echtes Bild synthetisieren können, das Modifizieren dieser latenten Variablen und dann die Synthese eines Bildes mit den gewünschten Änderungen. Es muss ein Gleichgewicht zwischen der Qualität der Rekonstruktion und der Bearbeitung gefunden werden. Frühere Studien verwendeten den niedrigdimensionalen W-Raum für die latente Suche, was eine effektive Bearbeitung ermöglichte, aber Schwierigkeiten bei der Rekonstruktion von komplexen Details bereitete. Neuere Forschungen haben sich dem hochdimensionalen Merkmalsraum F zugewandt, der das Eingangsbild erfolgreich invertiert, jedoch viele Details während der Bearbeitung verliert. In diesem Paper stellen wir StyleFeatureEditor vor - eine innovative Methode, die Bearbeitungen sowohl in w-latenten als auch in F-latenten ermöglicht. Diese Technik erlaubt nicht nur die Rekonstruktion feiner Bilddetails, sondern gewährleistet auch deren Erhalt während der Bearbeitung. Wir präsentieren auch einen neuen Schulungsprozess, der speziell darauf ausgelegt ist, unser Modell darauf zu trainieren, F-latente präzise zu bearbeiten. Unsere Methode wird mit State-of-the-Art-Kodierungsansätzen verglichen, was zeigt, dass unser Modell in Bezug auf Rekonstruktionsqualität herausragt und auch in der Lage ist, selbst herausfordernde Beispiele außerhalb des Domänenbereichs zu bearbeiten. Der Code ist verfügbar unter https://github.com/AIRI-Institute/StyleFeatureEditor.
Menschliche Vorkenntnisse spielen eine entscheidende Rolle bei der effizienten Nutzung von Daten im Bereich des Deep Learning. Mit der Entwicklung großer Sprachmodelle (LLMs) liegt jedoch ein zunehmender Schwerpunkt auf der Skalierung sowohl der Modellgröße als auch des Datenvolumens, was oft die Bedeutung menschlicher Vorkenntnisse bei der Datenerstellung verringert. Beeinflusst von diesen Trends verlassen sich bestehende kleine Sprachmodelle (SLMs) hauptsächlich auf im Web gesammelte, umfangreiche Trainingsdaten und vernachlässigen die angemessene Einbeziehung menschlicher Vorkenntnisse. Diese Vernachlässigung begrenzt die Effizienz des Trainings von Sprachmodellen in ressourcenbeschränkten Umgebungen. In diesem Artikel schlagen wir ein Prinzip vor, um menschliche Vorkenntnisse für die Datenerstellung zu nutzen. Dieses Prinzip legt den Schwerpunkt darauf, leistungsstarke SLMs zu erreichen, indem sie auf einem prägnanten Datensatz trainieren, der sowohl semantische Vielfalt als auch Datenqualitätskonsistenz berücksichtigt, während Datenlecks vermieden werden. Unter Anwendung dieses Prinzips trainieren wir ein SLM namens HARE-1.1B. Umfangreiche Experimente mit umfangreichen Benchmark-Datensätzen zeigen, dass HARE-1.1B gegenüber führenden SLMs gut abschneidet und die Wirksamkeit des vorgeschlagenen Prinzips bestätigt. Darüber hinaus liefert dies neue Erkenntnisse für das effiziente Training von Sprachmodellen in ressourcenbeschränkten Umgebungen aus der Sicht menschlicher Vorkenntnisse.
Vision Language Models (VLMs) zeigen bemerkenswerte Kompetenz bei der Bearbeitung einer Vielzahl von visuellen Fragen, was starke Wahrnehmungs- und Denkfähigkeiten erfordert. Die separate Bewertung dieser beiden Fähigkeiten ist entscheidend für die Modellverbesserung, trotz der inhärenten Schwierigkeit aufgrund der verflochtenen Natur des Sehens und Denkens in bestehenden VLMs. Um dieses Problem anzugehen, präsentieren wir Prism, ein innovatives Framework, das entwickelt wurde, um die Wahrnehmungs- und Denkprozesse bei der Lösung visueller Fragen zu entflechten. Prism besteht aus zwei unterschiedlichen Phasen: einer Wahrnehmungsphase, die ein VLM verwendet, um visuelle Informationen in Textform zu extrahieren und zu artikulieren, und einer Denkphase, die Antworten auf der extrahierten visuellen Information basierend formuliert, unter Verwendung eines Large Language Models (LLM). Dieses modulare Design ermöglicht den systematischen Vergleich und die Bewertung sowohl proprietärer als auch Open-Source VLMs hinsichtlich ihrer Wahrnehmungs- und Denkstärken. Unser analytisches Framework liefert mehrere wertvolle Erkenntnisse, die das Potenzial von Prism als kostengünstige Lösung für Vision-Language-Aufgaben hervorheben. Durch die Kombination eines schlanken VLMs, das sich auf Wahrnehmung konzentriert, mit einem leistungsstarken LLM, das auf Denken zugeschnitten ist, erzielt Prism überlegene Ergebnisse bei allgemeinen Vision-Language-Aufgaben und reduziert dabei erheblich Schulungs- und Betriebskosten. Quantitative Bewertungen zeigen, dass Prism, konfiguriert mit einem Standard-2B-LLaVA und dem frei zugänglichen GPT-3.5, Leistungen erbringt, die auf dem anspruchsvollen multimodalen Benchmark MMStar mit VLMs, die zehnmal größer sind, vergleichbar sind. Das Projekt ist unter folgendem Link verfügbar: https://github.com/SparksJoe/Prism.
Das Aufkommen großer Vision-Sprach-Modelle (LVLMs) hat die Forschung zu deren Anwendungen in multimodalen Kontexten, insbesondere im Bereich des Videoverständnisses, vorangetrieben. Traditionelle Video-Frage-Antwort-Benchmarks, obwohl sie quantitative Metriken liefern, scheitern oft daran, das gesamte Spektrum des Videomaterials zu erfassen und die zeitliche Erfassung der Modelle unzureichend zu bewerten. Um diese Einschränkungen zu überwinden, stellen wir MMBench-Video vor, einen quantitativen Benchmark, der entwickelt wurde, um die Kompetenz von LVLMs im Videoverständnis streng zu bewerten. MMBench-Video integriert lange Videos von YouTube und verwendet offene Fragen, die praktische Anwendungsfälle widerspiegeln. Der Benchmark wurde sorgfältig entwickelt, um die zeitlichen Denkfähigkeiten der Modelle zu prüfen, wobei alle Fragen gemäß einer sorgfältig erstellten Fähigkeitstaxonomie von Menschen annotiert wurden. Wir verwenden GPT-4 für die automatisierte Bewertung und zeigen eine überlegene Genauigkeit und Robustheit gegenüber früheren Bewertungen auf Basis von LLMs. Unter Verwendung von MMBench-Video haben wir umfassende Bewertungen durchgeführt, die sowohl proprietäre als auch Open-Source LVLMs für Bilder und Videos umfassen. MMBench-Video ist eine wertvolle Ressource für die Forschungsgemeinschaft, die eine verbesserte Bewertung von LVLMs ermöglicht und den Fortschritt im Bereich des Videoverständnisses vorantreibt. Der Bewertungscode von MMBench-Video wird in VLMEvalKit integriert: https://github.com/open-compass/VLMEvalKit.
Das Zusammenführen großer Sprachmodelle (Large Language Models, LLMs) ist eine kosteneffektive Technik, um mehrere Experten-LLMs zu einem einzigen vielseitigen Modell zu kombinieren und dabei das Fachwissen der Originalmodelle zu erhalten. Allerdings vernachlässigen aktuelle Ansätze oft die Bedeutung der Sicherheitsausrichtung während des Zusammenführens, was zu stark fehljustierten Modellen führt. Diese Arbeit untersucht die Auswirkungen des Modellzusammenführens auf die Ausrichtung. Wir bewerten mehrere beliebte Techniken zum Zusammenführen von Modellen und zeigen auf, dass bestehende Methoden nicht nur Fachwissen übertragen, sondern auch Fehlausrichtungen propagieren. Wir schlagen einen einfachen zweistufigen Ansatz zur Lösung dieses Problems vor: (i) die Generierung synthetischer Sicherheits- und domänenspezifischer Daten und (ii) die Integration dieser generierten Daten in den Optimierungsprozess bestehender datenbewusster Techniken zum Zusammenführen von Modellen. Dies ermöglicht es uns, die Ausrichtung als eine Fähigkeit zu behandeln, die im resultierenden zusammengeführten LLM maximiert werden kann. Unsere Experimente veranschaulichen die Wirksamkeit der Integration von ausrichtungsbezogenen Daten während des Zusammenführens, was zu Modellen führt, die sowohl im Fachwissen als auch in der Ausrichtung herausragend sind.
Bei Fragen, die visuelles Denken erfordern, wechseln Menschen natürlich oft zwischen verschiedenen Denkweisen, bilden häufig mentale Bilder oder erstellen visuelle Hilfsmittel. Große Sprachmodelle haben vielversprechende Ergebnisse in arithmetischem und symbolischem Denken gezeigt, indem sie Zwischenschlüsse im Text als Gedankenfolge ausdrücken, kämpfen jedoch damit, diese Fähigkeit auf die Beantwortung von Textabfragen auszudehnen, die durch visuelles Denken leicht gelöst werden können, selbst bei umfangreicher multimodaler Vorabtrainierung. Wir stellen eine einfache Methode vor, das "Whiteboard-of-Thought-Prompting", um die visuellen Denkfähigkeiten großer multimodaler Sprachmodelle über Modalitäten hinweg freizusetzen. Das "Whiteboard-of-Thought-Prompting" bietet großen multimodalen Sprachmodellen eine metaphorische 'Tafel', um Denkschritte als Bilder darzustellen und diese Bilder dann dem Modell zur weiteren Verarbeitung zurückzugeben. Wir stellen fest, dass dies ohne Demonstrationen oder spezialisierte Module erreicht werden kann, indem stattdessen die vorhandene Fähigkeit der Modelle genutzt wird, Code mit Bibliotheken wie Matplotlib und Turtle zu schreiben. Dieser einfache Ansatz zeigt Spitzenleistung bei vier schwierigen natürlichsprachlichen Aufgaben, die visuelles und räumliches Denken erfordern. Wir identifizieren mehrere Szenarien, in denen GPT-4o mit der Gedankenfolgenmethode dramatisch scheitert, darunter mehr als eine, bei der eine Genauigkeit von 0% erreicht wird, während das "Whiteboard-of-Thought-Prompting" in diesen gleichen Szenarien bis zu 92% Genauigkeit ermöglicht. Wir präsentieren eine detaillierte Erkundung, in welchen Bereichen die Technik erfolgreich ist, sowie ihre Fehlerquellen.
Die Diffusionsdestillation stellt eine äußerst vielversprechende Richtung dar, um eine präzise Text-zu-Bild-Generierung in wenigen Abtastschritten zu erreichen. Trotz jüngster Erfolge bieten bestehende destillierte Modelle immer noch nicht das volle Spektrum der Diffusionsfähigkeiten, wie z.B. die echte Bildumkehr, die viele präzise Bildmanipulationsmethoden ermöglicht. Diese Arbeit zielt darauf ab, destillierte Text-zu-Bild-Diffusionsmodelle mit der Fähigkeit anzureichern, echte Bilder effektiv in ihren latenten Raum zu kodieren. Zu diesem Zweck stellen wir Invertible Consistency Distillation (iCD) vor, ein generalisiertes Konsistenzdestillationsframework, das sowohl die hochwertige Bildsynthese als auch die genaue Bildkodierung in nur 3-4 Inferenzschritten erleichtert. Obwohl das Umkehrproblem für Text-zu-Bild-Diffusionsmodelle durch hohe klassifikatorfreie Führungsskalen verschärft wird, stellen wir fest, dass dynamische Führung die Rekonstruktionsfehler signifikant reduziert, ohne eine spürbare Verschlechterung der Generierungsleistung zu verursachen. Infolgedessen zeigen wir, dass iCD mit dynamischer Führung als äußerst effektives Werkzeug für textgesteuerte Bildbearbeitung ohne Trainingsdaten dienen kann und mit teureren State-of-the-Art-Alternativen konkurrieren kann.
Informationsextraktionstasks erfordern genaue, effiziente und generalisierbare Modelle. Klassische überwachte Deep-Learning-Ansätze können die erforderliche Leistung erbringen, benötigen jedoch große Datensätze und sind in ihrer Fähigkeit, sich an verschiedene Aufgaben anzupassen, begrenzt. Andererseits zeigen große Sprachmodelle (LLMs) eine gute Verallgemeinerungsfähigkeit, was bedeutet, dass sie sich auf viele verschiedene Aufgaben basierend auf Benutzeranfragen anpassen können. LLMs sind jedoch rechenaufwendig und neigen dazu, strukturierte Ausgaben nicht zu generieren. In diesem Artikel werden wir ein neues GLiNER-Modell vorstellen, das für verschiedene Informationsextraktionstasks verwendet werden kann, während es sich um ein kleines Encoder-Modell handelt. Unser Modell erzielte die beste Leistung auf Zero-Shot-NER-Benchmarks und führende Leistung bei Frage-Antworten, Zusammenfassungen und Beziehungsextraktionstasks. Darüber hinaus werden in diesem Artikel experimentelle Ergebnisse zu selbstlernenden Ansätzen für die benannte Entitätenerkennung unter Verwendung von GLiNER-Modellen behandelt.
In den letzten Fortschritten bei Large Multimodal Models (LMMs) wurden umfangreiche multimodale Datensätze genutzt, um die Fähigkeiten bei komplexen wissensgesteuerten Aufgaben zu verbessern. Dennoch begrenzen anhaltende Herausforderungen in der Wahrnehmung und im Schlussfolgern ihre Wirksamkeit, insbesondere bei der Interpretation komplexer visueller Daten und der Ableitung multimodaler Beziehungen. Zur Bewältigung dieser Probleme stellen wir ein neuartiges Datensatzformat vor, PIN (Paired and INterleaved multimodal documents), das konzipiert ist, um sowohl die Tiefe als auch die Breite des multimodalen Trainings signifikant zu verbessern. Das PIN-Format basiert auf drei grundlegenden Prinzipien: Wissensintensität, Skalierbarkeit und Unterstützung für verschiedene Trainingsmodalitäten. Dieses innovative Format kombiniert Markdown-Dateien und umfassende Bilder, um Trainingsdaten mit einer dichten Wissensstruktur und vielseitigen Trainingsstrategien anzureichern. Wir präsentieren PIN-14M, einen Open-Source-Datensatz bestehend aus 14 Millionen Beispielen, die aus einer vielfältigen Palette chinesischer und englischer Quellen stammen und komplexe Web- und wissenschaftliche Inhalte umfassen. Dieser Datensatz wurde sorgfältig erstellt, um die Datenqualität und ethische Integrität sicherzustellen, mit dem Ziel, fortgeschrittene Trainingsstrategien zu erleichtern und die Modellrobustheit gegenüber gängigen multimodalen Trainingsfallen zu verbessern. Unsere ersten Ergebnisse, die die Grundlage dieses technischen Berichts bilden, deuten auf ein signifikantes Potenzial des PIN-Formats hin, die Leistung von LMMs zu verbessern, mit Plänen für zukünftige Erweiterungen und detaillierte Bewertungen ihres Einflusses auf die Modellfähigkeiten.
Trainingskorpora für Vision Language Models (VLMs) weisen in der Regel nicht ausreichende Mengen an entscheidungszentrierten Daten auf. Dies macht Standard-VLMs für Entscheidungsaufgaben wie die Steuerung von Geräten in freier Wildbahn über grafische Benutzeroberflächen (GUIs) suboptimal. Obwohl das Training mit statischen Demonstrationen gewisse Erfolge gezeigt hat, zeigen wir, dass solche Methoden für die Steuerung realer GUIs aufgrund ihres Versagens im Umgang mit realer Stochastizität und Nicht-Stationarität, die in statischen Beobachtungsdaten nicht erfasst werden, nicht ausreichen. Dieses Papier stellt einen neuartigen autonomen RL-Ansatz namens DigiRL vor, um Gerätesteuerungsagenten in freier Wildbahn durch Feinabstimmung eines vorab trainierten VLM in zwei Phasen zu trainieren: Offline-RL zur Initialisierung des Modells, gefolgt von Offline-zu-Online-RL. Hierfür bauen wir eine skalierbare und parallelisierbare Android-Lernumgebung mit einem VLM-basierten Evaluierer auf und entwickeln einen einfachen, aber effektiven RL-Ansatz für das Lernen in diesem Bereich. Unser Ansatz verwendet Advantage-gewichtete RL mit Advantage-Schätzern, die zur Berücksichtigung der Stochastizität verbessert wurden, zusammen mit einem automatischen Lehrplan zur Ableitung des maximalen Lernsignals. Wir zeigen die Wirksamkeit von DigiRL anhand des Android-in-the-Wild (AitW) Datensatzes, wobei unser mit RL trainiertes 1,3B VLM eine absolute Verbesserung von 49,5% erzielt - von einer Erfolgsrate von 17,7% auf 67,2% - im Vergleich zur überwachten Feinabstimmung mit statischen menschlichen Demonstrationsdaten. Diese Ergebnisse übertreffen signifikant nicht nur die bisher besten Agenten, einschließlich AppAgent mit GPT-4V (8,3% Erfolgsrate) und dem 17B CogAgent, der mit AitW-Daten trainiert wurde (38,5%), sondern auch den bisher besten autonomen RL-Ansatz basierend auf gefiltertem Verhaltenscloning (57,8%), und etablieren somit einen neuen State-of-the-Art für digitale Agenten zur Gerätesteuerung in freier Wildbahn.
Eine Kernfähigkeit großer Sprachmodelle (LLMs) besteht darin, natürlichen Sprachanweisungen zu folgen. Allerdings bleibt das Problem der automatischen Erstellung hochwertiger Trainingsdaten zur Verbesserung der komplexen Anweisungsfolgefähigkeiten von LLMs ohne manuelle Annotation ungelöst. In diesem Artikel stellen wir AutoIF vor, die erste skalierbare und zuverlässige Methode zur automatischen Generierung von Trainingsdaten zur Anweisungsfolge. AutoIF wandelt die Validierung der Qualität von Anweisungsfolgedaten in Codeüberprüfung um, wobei LLMs aufgefordert werden, Anweisungen zu generieren, den entsprechenden Code zur Überprüfung der Korrektheit der Anweisungsantworten und Unit-Testproben zur Überprüfung der Korrektheit des Codes zu erstellen. Dann kann die Ablehnungsmustererkennung basierend auf Ausführungsfeedback Daten für das Überwachtes Feintuning (SFT) und das Verstärkungslernen aus menschlichem Feedback (RLHF) generieren. AutoIF erzielt signifikante Verbesserungen bei drei Trainingsalgorithmen, SFT, Offline DPO und Online DPO, wenn sie auf die führenden Open-Source LLMs, Qwen2 und LLaMA3, in den Einstellungen zur Selbstausrichtung und von stark zu schwach erfolgender Destillation angewendet werden. Unser Code ist öffentlich unter https://github.com/QwenLM/AutoIF verfügbar.
In diesem Paper stellen wir ein neuartiges Inferenz-Framework mit geringer Latenz für große Sprachmodelle (LLMs) vor, das es LLMs ermöglicht, Inferenzen mit unvollständigen Eingaben durchzuführen. Durch die Neuzuweisung von Rechenprozessen in die Eingabephase des Prompt erreichen wir eine erhebliche Reduzierung der Latenz, wodurch das interaktive Erlebnis für Benutzer von LLMs signifikant verbessert wird. Das Framework verwaltet geschickt die Sichtbarkeit des kontinuierlichen Eingabeprompt für das Modell, was es ihm ermöglicht, aus unvollständigen Eingaben zu inferieren oder auf zusätzliche Eingaben zu warten. Im Vergleich zu traditionellen Inferenzmethoden, die vollständige Eingaben verwenden, zeigt unser Ansatz eine durchschnittliche Reduzierung der Antwortlatenz um 59% auf dem MMLU-Pro Datensatz, bei gleichbleibender Genauigkeit. Darüber hinaus ermöglicht unser Framework eine kollaborative Inferenz und Ausgabe über verschiedene Modelle hinweg. Durch die Verwendung eines LLMs für die Inferenz und eines kleinen Sprachmodells (SLM) für die Ausgabe erreichen wir eine durchschnittliche Reduzierung der Antwortlatenz um 68%, zusammen mit einer Verbesserung der Genauigkeit um 5,5% auf dem MMLU-Pro Datensatz im Vergleich zum SLM-Baseline. Für lange Eingaben, die 20 Sätze überschreiten, kann die Antwortlatenz um bis zu 93% reduziert werden.
Das Alltagsdenken basiert grundlegend auf multimodalem Wissen. Allerdings werden bestehende große Sprachmodelle (LLMs) hauptsächlich nur mit textuellen Daten trainiert, was ihre Fähigkeit einschränkt, wesentliche visuelle Informationen zu integrieren. Im Gegensatz dazu scheitern Visual Language Models, die in visuell orientierten Aufgaben herausragend sind, oft bei nicht-visuellen Aufgaben wie grundlegendem Alltagsdenken. Diese Abweichung verdeutlicht eine entscheidende Herausforderung - die Integration einer robusten visuellen Verständnisfähigkeit mit grundlegendem textbasiertem Sprachdenken. Zu diesem Zweck stellen wir eine Methode vor, die darauf abzielt, das visuelle Alltagsdenken von LLMs zu verbessern. Speziell generiert unsere Methode mehrere Bilder basierend auf dem Eingabetext und integriert diese in den Entscheidungsfindungsprozess des Modells, indem sie ihre Vorhersage-Wahrscheinlichkeiten mischt. Um multimodellbasiertes Sprachmodellieren zu erleichtern, verwenden wir eine Spätverschmelzungsschicht, die die projizierten visuellen Merkmale mit der Ausgabe eines auf reinen Text konditionierten, vorab trainierten LLM kombiniert. Diese Spätverschmelzungsschicht ermöglicht Vorhersagen basierend auf umfassendem Bild-Text-Wissen sowie nur Text, wenn dies erforderlich ist. Wir bewerten unseren Ansatz anhand mehrerer visueller Alltagsdenkaufgaben zusammen mit traditionellen NLP-Aufgaben, einschließlich Alltagsdenken und Leseverständnis. Unsere experimentellen Ergebnisse zeigen eine signifikante Überlegenheit gegenüber bestehenden Ausgangspunkten. Bei Anwendung auf aktuelle Spitzen-LLMs (z. B. Llama3) beobachten wir Verbesserungen nicht nur im visuellen Alltagsdenken, sondern auch in traditionellen NLP-Benchmarks. Code und Modelle sind unter https://github.com/guyyariv/vLMIG verfügbar.
Die Direkte Präferenzoptimierung (DPO), eine Standardmethode zur Ausrichtung von Sprachmodellen an menschlichen Präferenzen, wird traditionell auf Offline-Präferenzen angewendet. Aktuelle Studien zeigen, dass DPO von iterativem Training mit Online-Präferenzen profitiert, die von einem trainierten Belohnungsmodell gekennzeichnet sind. In dieser Arbeit identifizieren wir eine Fallstrick von herkömmlicher iterativer DPO - eine verbesserte Antwortqualität kann zu erhöhter Wortanzahl führen. Um dies zu lösen, führen wir die iterativ längenregulierte DPO (iLR-DPO) ein, um die Antwortlänge zu bestrafen. Unsere empirischen Ergebnisse zeigen, dass iLR-DPO ein 7B-Modell verbessern kann, um auf Augenhöhe mit GPT-4 zu performen, ohne die Wortanzahl zu erhöhen. Speziell erreicht unser 7B-Modell eine 50,5%ige Gewinnrate unter Längenkontrolle gegenüber GPT-4 Preview in AlpacaEval 2.0 und übertrifft Standard-Benchmarks wie MT-Bench, Arena-Hard und OpenLLM Leaderboard. Diese Ergebnisse zeigen die Wirksamkeit von iterativer DPO bei der Ausrichtung von Sprachmodellen an menschlichem Feedback.
Die Fähigkeit von CodeLLMs, ausführbaren und funktional korrekten Code im Maßstab des Repositorys zu generieren, bleibt weitgehend unerforscht. Wir stellen RepoExec vor, einen neuartigen Benchmark zur Bewertung der Codegenerierung im Maßstab des Repositorys. RepoExec konzentriert sich auf drei Hauptaspekte: Ausführbarkeit, funktionale Korrektheit durch automatische Testfallgenerierung mit hoher Abdeckungsrate und sorgfältig ausgearbeitete kontextübergreifende Dateien, um Code genau zu generieren. Unsere Arbeit untersucht ein kontrolliertes Szenario, in dem Entwickler die erforderlichen Code-Abhängigkeiten angeben, um das Modell herauszufordern, diese genau zu integrieren. Experimente zeigen, dass vortrainierte LLMs zwar instruktionsangepasste Modelle in Bezug auf Korrektheit übertreffen, letztere jedoch in der Nutzung bereitgestellter Abhängigkeiten und der Demonstration von Debugging-Fähigkeiten herausragen. Wir stellen auch einen neuen instruktionsangepassten Datensatz vor, der sich auf Code-Abhängigkeiten konzentriert, und zeigen, dass CodeLLMs, die auf unserem Datensatz feinabgestimmt sind, besser in der Lage sind, diese Abhängigkeiten effektiv zu nutzen. RepoExec zielt darauf ab, eine umfassende Bewertung der Code-Funktionalität und -Ausrichtung mit der Entwicklerintention zu bieten und den Weg für zuverlässigere und anwendbarere CodeLLMs in realen Szenarien zu ebnen. Der Datensatz und der Quellcode sind unter folgendem Link zu finden: https://github.com/FSoft-AI4Code/RepoExec.
In letzter Zeit haben Fortschritte in der Videosynthese erhebliche Aufmerksamkeit erregt. Videosynthese-Modelle wie AnimateDiff und Stable Video Diffusion haben die praktische Anwendbarkeit von Diffusionsmodellen bei der Erstellung dynamischer visueller Inhalte gezeigt. Das Aufkommen von SORA hat das Potenzial von Videogenerierungstechnologien weiter in den Mittelpunkt gerückt. Dennoch wurde die Erweiterung von Videolängen durch die Beschränkungen in den Rechenressourcen eingeschränkt. Die meisten bestehenden Videosynthese-Modelle können nur kurze Videoclips generieren. In diesem Paper schlagen wir eine neuartige Post-Tuning-Methodologie für Videosynthese-Modelle namens ExVideo vor. Dieser Ansatz zielt darauf ab, die Leistungsfähigkeit aktueller Videosynthese-Modelle zu verbessern, sodass sie Inhalte über erweiterte zeitliche Dauer produzieren können, während die Trainingskosten gesenkt werden. Insbesondere entwerfen wir Erweiterungsstrategien für gängige zeitliche Modellarchitekturen, darunter 3D-Faltung, zeitliche Aufmerksamkeit und Positionseinbettung. Zur Bewertung der Wirksamkeit unseres vorgeschlagenen Post-Tuning-Ansatzes führen wir eine Erweiterungsschulung am Stable Video Diffusion-Modell durch. Unser Ansatz erweitert die Kapazität des Modells, bis zu 5-mal so viele Frames zu generieren wie ursprünglich, wobei nur 1,5k GPU-Stunden Training auf einem Datensatz von 40k Videos erforderlich sind. Wichtig ist, dass die erhebliche Zunahme der Videolänge die angeborenen Verallgemeinerungsfähigkeiten des Modells nicht beeinträchtigt, und das Modell zeigt seine Vorteile bei der Generierung von Videos in verschiedenen Stilen und Auflösungen. Wir werden den Quellcode und das verbesserte Modell öffentlich freigeben.
Bestehende Benchmarks testen Sprachagenten nicht auf ihre Interaktion mit menschlichen Benutzern oder ihre Fähigkeit, domänenspezifische Regeln zu befolgen, die beide für ihren Einsatz in realen Anwendungen entscheidend sind. Wir schlagen tau-bench vor, einen Benchmark, der dynamische Gespräche zwischen einem Benutzer (simuliert durch Sprachmodelle) und einem Sprachagenten nachbildet, der mit domänenspezifischen API-Tools und Richtlinien ausgestattet ist. Wir verwenden einen effizienten und verlässlichen Evaluierungsprozess, der den Datenbankzustand am Ende eines Gesprächs mit dem annotierten Zielzustand vergleicht. Wir schlagen auch eine neue Metrik (pass^k) vor, um die Zuverlässigkeit des Agentenverhaltens über mehrere Durchläufe zu bewerten. Unsere Experimente zeigen, dass selbst modernste Funktionsaufruf-Agenten (wie gpt-4o) bei <50% der Aufgaben erfolgreich sind und ziemlich inkonsistent sind (pass^8 <25% im Einzelhandel). Unsere Ergebnisse deuten auf die Notwendigkeit von Methoden hin, die die Fähigkeit von Agenten verbessern können, konsistent zu handeln und Regeln zuverlässig zu befolgen.
Die Gewährleistung der Verifizierbarkeit von Modellantworten ist eine grundlegende Herausforderung für die abrufgestützte Generierung (RAG) im Bereich der Fragebeantwortung (QA). Kürzlich wurde die Selbstzitierungs-Aufforderung vorgeschlagen, um große Sprachmodelle (LLMs) dazu zu bringen, Zitate zu unterstützenden Dokumenten zusammen mit ihren Antworten zu generieren. Selbstzitierende LLMs haben jedoch oft Schwierigkeiten, das erforderliche Format einzuhalten, beziehen sich auf nicht existierende Quellen und schaffen es nicht, den Kontextgebrauch der LLMs während der Generierung treu widerzuspiegeln. In dieser Arbeit präsentieren wir MIRAGE - Model Internals-basierte RAG-Erklärungen - einen Plug-and-Play-Ansatz unter Verwendung von Modellinternas für eine treue Antwortzuweisung in RAG-Anwendungen. MIRAGE erkennt kontextsensitive Antwort-Token und paart sie mit abgerufenen Dokumenten, die über Salienzmethoden zu ihrer Vorhersage beitragen. Wir evaluieren unseren vorgeschlagenen Ansatz anhand eines mehrsprachigen extraktiven QA-Datensatzes und stellen fest, dass eine hohe Übereinstimmung mit der menschlichen Antwortzuweisung besteht. Bei offenen QA erreicht MIRAGE eine Zitierqualität und Effizienz, die mit der Selbstzitierung vergleichbar sind, und ermöglicht gleichzeitig eine feinere Steuerung der Zuweisungsparameter. Unsere qualitative Bewertung hebt die Treue der Zuweisungen von MIRAGE hervor und unterstreicht die vielversprechende Anwendung von Modellinternas für die Zuweisung von Antworten in RAG.
Das Verständnis der Semantik von visuellen Szenen ist eine grundlegende Herausforderung in der Computer Vision. Ein Schlüsselaspekt dieser Herausforderung ist, dass Objekte, die ähnliche semantische Bedeutungen oder Funktionen teilen, auffällige visuelle Unterschiede aufweisen können, was eine genaue Identifizierung und Kategorisierung erschwert. Die jüngsten Fortschritte in Text-zu-Bild-Frameworks haben zu Modellen geführt, die implizit natürliche Szenenstatistiken erfassen. Diese Frameworks berücksichtigen die visuelle Variabilität von Objekten sowie komplexe Objektkoinzidenzen und Quellen von Rauschen wie unterschiedliche Lichtverhältnisse. Durch die Nutzung von umfangreichen Datensätzen und Kreuz-Aufmerksamkeitskonditionierung generieren diese Modelle detaillierte und kontextuell reiche Szenedarstellungen. Diese Fähigkeit eröffnet neue Möglichkeiten zur Verbesserung der Objekterkennung und Szenenverständnis in vielfältigen und anspruchsvollen Umgebungen. Unsere Arbeit präsentiert StableSemantics, einen Datensatz, der 224.000 von Menschen kuratierte Anregungen, verarbeitete natürlichsprachliche Bildunterschriften, über 2 Millionen synthetische Bilder und 10 Millionen Aufmerksamkeitskarten für einzelne Nomen-Phrasen umfasst. Wir nutzen explizit von Menschen generierte Anregungen, die visuell interessante stabile Diffusionsgenerierungen entsprechen, bieten 10 Generationen pro Ausdruck und extrahieren Kreuz-Aufmerksamkeitskarten für jedes Bild. Wir untersuchen die semantische Verteilung der generierten Bilder, analysieren die Verteilung von Objekten innerhalb der Bilder und bewerten Bildunterschriftungs- und offene Vokabularsegmentierungsmethoden anhand unserer Daten. Nach unserem Kenntnisstand sind wir die ersten, die einen Diffusionsdatensatz mit semantischen Zuschreibungen veröffentlichen. Wir erwarten, dass unser vorgeschlagener Datensatz Fortschritte im visuellen semantischen Verständnis vorantreibt und eine Grundlage für die Entwicklung anspruchsvollerer und effektiverer visueller Modelle bietet. Website: https://stablesemantics.github.io/StableSemantics
Die Forschung zur Interpretierbarkeit und Analyse (IA) ist ein wachsendes Teilgebiet innerhalb der NLP mit dem Ziel, ein tieferes Verständnis des Verhaltens oder der inneren Funktionsweise von NLP-Systemen und -Methoden zu entwickeln. Trotz des wachsenden Interesses an diesem Teilgebiet wird häufig kritisiert, dass es an umsetzbaren Erkenntnissen mangelt und daher wenig Einfluss auf die NLP hat. In diesem Artikel versuchen wir, den Einfluss der IA-Forschung auf das breitere Feld der NLP zu quantifizieren. Wir gehen dies mit einer Mixed-Methods-Analyse an: (1) einem Zitationsgraphen von über 185.000 Papieren, der aus allen auf den ACL- und EMNLP-Konferenzen von 2018 bis 2023 veröffentlichten Papieren erstellt wurde, und (2) einer Umfrage unter 138 Mitgliedern der NLP-Community. Unsere quantitativen Ergebnisse zeigen, dass die IA-Arbeit außerhalb der IA gut zitiert wird und im Zitationsgraphen der NLP eine zentrale Rolle spielt. Durch die qualitative Analyse von Umfrageantworten und die manuelle Annotation von 556 Papieren stellen wir fest, dass NLP-Forscher auf Erkenntnissen aus der IA-Arbeit aufbauen und diese als wichtig für den Fortschritt in der NLP sowie in mehreren Teilgebieten betrachten und sich auf deren Erkenntnisse und Terminologie für ihre eigene Arbeit verlassen. Viele neue Methoden werden auf der Grundlage von IA-Erkenntnissen vorgeschlagen und sind stark von ihnen beeinflusst, aber hoch einflussreiche nicht-IA-Arbeiten zitieren IA-Erkenntnisse, ohne von ihnen angetrieben zu werden. Wir schließen mit einer Zusammenfassung dessen, was in der IA-Arbeit heute fehlt, und geben einen Appell, um den Weg für eine wirkungsvollere Zukunft der IA-Forschung zu ebnen.
Die Forschung zur Textzusammenfassung hat durch den Aufstieg von tiefen neuronalen Netzwerken, vortrainierten Sprachmodellen (PLMs) und aktuellen großen Sprachmodellen (LLMs) mehrere signifikante Transformationen durchlaufen. Diese Übersicht bietet daher eine umfassende Bewertung des Forschungsfortschritts und der Entwicklung in der Textzusammenfassung durch die Brille dieser Paradigmenwechsel. Sie ist in zwei Hauptteile unterteilt: (1) eine detaillierte Übersicht über Datensätze, Evaluierungsmetriken und Zusammenfassungsmethoden vor der Ära der LLMs, die traditionelle statistische Methoden, Deep-Learning-Ansätze und PLM-Feinabstimmungstechniken umfasst, und (2) die erste detaillierte Untersuchung der jüngsten Fortschritte bei der Benchmarking, Modellierung und Evaluierung von Zusammenfassungen in der Ära der LLMs. Durch die Synthese bestehender Literatur und die Präsentation eines kohärenten Überblicks diskutiert diese Übersicht auch Forschungstrends, offene Herausforderungen und schlägt vielversprechende Forschungsrichtungen in der Zusammenfassung vor, mit dem Ziel, Forscher durch die sich entwickelnde Landschaft der Zusammenfassungsforschung zu führen.
Wir präsentieren ein latentes Diffusionsmodell über 3D-Szenen, das ausschließlich mit 2D-Bilddaten trainiert werden kann. Um dies zu erreichen, entwerfen wir zunächst einen Autoencoder, der Mehransichtsbilder auf 3D-Gaußsche Splats abbildet und gleichzeitig eine komprimierte latente Repräsentation dieser Splats erstellt. Anschließend trainieren wir ein Mehransichts-Diffusionsmodell über dem latenten Raum, um ein effizientes generatives Modell zu erlernen. Diese Pipeline erfordert weder Objektmasken noch Tiefeninformationen und eignet sich für komplexe Szenen mit beliebigen Kamerapositionen. Wir führen sorgfältige Experimente an zwei groß angelegten Datensätzen komplexer realer Szenen durch - MVImgNet und RealEstate10K. Wir zeigen, dass unser Ansatz das Generieren von 3D-Szenen in nur 0,2 Sekunden ermöglicht, entweder von Grund auf, aus einer einzelnen Eingangsansicht oder aus spärlichen Eingangsansichten. Er liefert vielfältige und qualitativ hochwertige Ergebnisse und läuft dabei um eine Größenordnung schneller als nicht-latente Diffusionsmodelle und frühere NeRF-basierte generative Modelle.