Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In diesem Paper stellen wir SaulLM-54B und SaulLM-141B vor, zwei große Sprachmodelle (LLMs), die speziell für den juristischen Sektor entwickelt wurden. Diese Modelle, die Architekturen mit 54 Milliarden bzw. 141 Milliarden Parametern aufweisen, basieren auf der Mixtral-Architektur. Die Entwicklung von SaulLM-54B und SaulLM-141B wird durch groß angelegte Domänenanpassung geleitet, die in drei Strategien unterteilt ist: (1) die Ausnutzung eines fortgesetzten Pretrainings mit einem Grundkorpus, das über 540 Milliarden juristische Tokens enthält, (2) die Implementierung eines spezialisierten rechtlichen Anweisungsfolgeprotokolls und (3) die Ausrichtung der Modellausgaben an menschlichen Präferenzen in rechtlichen Interpretationen. Die Integration von synthetisch generierten Daten in den zweiten und dritten Schritten verbessert die Fähigkeiten der Modelle bei der Interpretation und Verarbeitung von juristischen Texten und erreicht effektiv eine Spitzenleistung, wobei frühere Open-Source-Modelle auf LegalBench-Instruct übertroffen werden. Diese Arbeit untersucht die Abwägungen, die bei der domänenspezifischen Anpassung in diesem Maßstab eine Rolle spielen, und bietet Einblicke, die zukünftige Studien zur Domänenanpassung unter Verwendung starker Decoder-Modelle informieren können. Aufbauend auf SaulLM-7B verfeinert diese Studie den Ansatz, um ein LLM zu produzieren, das besser für juristische Aufgaben ausgestattet ist. Wir veröffentlichen Basismodelle, Anweisungsmodelle und ausgerichtete Versionen von SaulLM-54B und SaulLM-141B unter der MIT-Lizenz, um die Wiederverwendung und die Zusammenarbeit in der Forschung zu erleichtern.
Die Major Depressive Disorder (MDD) ist ein weit verbreiteter psychischer Gesundheitszustand, der 300 Millionen Menschen weltweit betrifft. Diese Arbeit stellt eine neuartige, auf BiLSTM basierende tri-modale Modell-Ebenen-Fusionsarchitektur für die binäre Klassifizierung von Depressionen anhand klinischer Interviewaufnahmen vor. Die vorgeschlagene Architektur integriert Mel Frequency Cepstral Coefficients, Facial Action Units und verwendet ein auf Zwei-Schuss-Lernen basierendes GPT-4-Modell zur Verarbeitung von Textdaten. Dies ist die erste Arbeit, die große Sprachmodelle in eine multi-modale Architektur für diese Aufgabe integriert. Sie erzielt beeindruckende Ergebnisse auf dem DAIC-WOZ AVEC 2016 Challenge Kreuzvalidierungs-Split und dem Leave-One-Subject-Out Kreuzvalidierungs-Split und übertrifft alle Basislinienmodelle sowie mehrere State-of-the-Art-Modelle. Im Leave-One-Subject-Out-Test erreicht sie eine Genauigkeit von 91,01%, einen F1-Score von 85,95%, eine Präzision von 80% und eine Erkennungsrate von 92,86%.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in verschiedenen Aufgaben gezeigt, jedoch lag ihr Schwerpunkt bei der Entwicklung hauptsächlich auf hochresourcen Sprachen wie Englisch und Chinesisch, wodurch niedrig resourcen Sprachen vernachlässigt wurden. Um diese Diskrepanz zu beheben, präsentieren wir SeaLLMs 3, die neueste Iteration der SeaLLMs Modellfamilie, speziell für südostasiatische Sprachen entwickelt. Diese Region, gekennzeichnet durch ihre reiche sprachliche Vielfalt, hat bisher nicht ausreichend Unterstützung durch Sprachtechnologie erhalten. SeaLLMs 3 zielt darauf ab, diese Lücke zu schließen, indem es eine umfassende Palette von Sprachen abdeckt, die in dieser Region gesprochen werden, darunter Englisch, Chinesisch, Indonesisch, Vietnamesisch, Thailändisch, Tagalog, Malaiisch, Burmesisch, Khmer, Laotisch, Tamil und Javanisch. Durch den Einsatz effizienter Sprachverbesserungstechniken und eines speziell konstruierten Anleitungstuning-Datensatzes reduziert SeaLLMs 3 signifikant die Trainingskosten, während es eine hohe Leistungsfähigkeit und Vielseitigkeit beibehält. Unser Modell zeichnet sich in Aufgaben wie Weltwissen, mathematisches Denken, Übersetzung und Anweisungsfolgen aus und erzielt eine Spitzenleistung unter ähnlich dimensionierten Modellen. Darüber hinaus haben wir Sicherheit und Zuverlässigkeit priorisiert, indem wir sowohl allgemeine als auch kulturspezifische Überlegungen berücksichtigt und Mechanismen zur Reduzierung von Halluzinationen integriert haben. Diese Arbeit unterstreicht die Bedeutung einer inklusiven KI und zeigt, dass fortgeschrittene LLM-Fähigkeiten benachteiligten sprachlichen und kulturellen Gemeinschaften zugutekommen können.
Die Modelle für die Diffusion von Videos haben in verschiedenen Anwendungen zur Videoerzeugung erhebliche Fortschritte gemacht. Das Training von Modellen für die Generierung langer Videos erfordert jedoch erhebliche Rechen- und Datenressourcen, was eine Herausforderung für die Entwicklung von langen Video-Diffusionsmodellen darstellt. Diese Arbeit untersucht einen einfachen und trainingsfreien Ansatz, um ein bestehendes kurzes Video-Diffusionsmodell (z. B. vortrainiert auf 16-Bild-Videos) für eine konsistente Generierung langer Videos (z. B. 128 Bilder) zu erweitern. Unsere vorläufige Beobachtung hat ergeben, dass das direkte Anwenden des kurzen Video-Diffusionsmodells zur Generierung langer Videos zu einer erheblichen Verschlechterung der Videoqualität führen kann. Weitere Untersuchungen zeigen, dass diese Verschlechterung hauptsächlich auf die Verzerrung von hochfrequenten Komponenten in langen Videos zurückzuführen ist, die sich durch eine Abnahme der räumlichen hochfrequenten Komponenten und eine Zunahme der zeitlichen hochfrequenten Komponenten auszeichnen. Angeregt durch dies, schlagen wir eine neuartige Lösung namens FreeLong vor, um die Frequenzverteilung der Merkmale langer Videos während des Rauschunterdrückungsprozesses auszugleichen. FreeLong vermischt die niederfrequenten Komponenten globaler Video-Merkmale, die die gesamte Videosequenz umfassen, mit den hochfrequenten Komponenten lokaler Video-Merkmale, die sich auf kürzere Teilsequenzen von Bildern konzentrieren. Dieser Ansatz gewährleistet globale Konsistenz, während er vielfältige und hochwertige räumlich-zeitliche Details aus lokalen Videos integriert, was sowohl die Konsistenz als auch die Treue der Generierung langer Videos verbessert. Wir haben FreeLong an mehreren Basis-Video-Diffusionsmodellen evaluiert und signifikante Verbesserungen festgestellt. Darüber hinaus unterstützt unsere Methode eine kohärente Multi-Prompt-Generierung, die sowohl visuelle Kohärenz als auch nahtlose Übergänge zwischen Szenen gewährleistet.
Die lernbasierte Robotikpolitik auf der Grundlage von Visionen, die visuelle Eingaben in Aktionen abbildet, erfordert ein ganzheitliches Verständnis verschiedener visueller Aufgaben jenseits einzelner Anforderungen wie Klassifizierung oder Segmentierung. Inspiriert davon stellen wir Theia vor, ein Vision-Grundlagenmodell für das Roboterlernen, das mehrere handelsübliche Vision-Grundlagenmodelle zusammenfasst, die auf verschiedenen visuellen Aufgaben trainiert wurden. Die reichen visuellen Darstellungen von Theia codieren vielfältiges visuelles Wissen und verbessern das nachgelagerte Roboterlernen. Umfangreiche Experimente zeigen, dass Theia seine Lehrmodelle und frühere Roboterlernmodelle mit weniger Trainingsdaten und kleineren Modellgrößen übertrifft. Darüber hinaus quantifizieren wir die Qualität der vorab trainierten visuellen Darstellungen und stellen die Hypothese auf, dass eine höhere Entropie in den Merkmalsnormverteilungen zu einer verbesserten Leistung des Roboterlernens führt. Der Code und die Modelle sind unter https://github.com/bdaiinstitute/theia verfügbar.
Die Suche nach Informationen und deren Integration ist eine komplexe kognitive Aufgabe, die enorme Zeit und Mühe in Anspruch nimmt. Inspiriert von den bemerkenswerten Fortschritten großer Sprachmodelle versuchen aktuelle Arbeiten, diese Aufgabe zu lösen, indem sie LLMs und Suchmaschinen kombinieren. Allerdings erzielen diese Methoden noch immer unbefriedigende Leistungen aufgrund von drei Herausforderungen: (1) komplexe Anfragen können oft nicht genau und vollständig von der Suchmaschine abgerufen werden, (2) die entsprechenden Informationen zur Integration sind über mehrere Webseiten verteilt, zusammen mit massivem Rauschen, und (3) eine große Anzahl von Webseiten mit langen Inhalten kann schnell die maximale Kontextlänge von LLMs überschreiten. Inspiriert vom kognitiven Prozess, wenn Menschen diese Probleme lösen, stellen wir MindSearch vor, um die menschlichen Denkweisen bei der Suche und Integration von Webinformationen nachzuahmen, was durch ein einfaches und dennoch effektives LLM-basiertes Multi-Agenten-Framework instantiiert werden kann. Der WebPlanner modelliert den menschlichen Denkprozess der mehrstufigen Informationssuche als dynamischen Graphenkonstruktionsprozess: Er zerlegt die Benutzeranfrage in atomare Teilfragen als Knoten im Graphen und erweitert den Graphen schrittweise basierend auf dem Suchergebnis des WebSearcher. Mit jeder Teilfrage beauftragt, führt der WebSearcher hierarchische Informationsabrufe mit Suchmaschinen durch und sammelt wertvolle Informationen für den WebPlanner. Das Multi-Agenten-Design von MindSearch ermöglicht es dem gesamten Framework, Informationen parallel von einer größeren Anzahl von Webseiten (z. B. mehr als 300) in 3 Minuten zu suchen und zu integrieren, was 3 Stunden menschlicher Arbeit entspricht. MindSearch zeigt eine signifikante Verbesserung in der Antwortqualität in Bezug auf Tiefe und Breite, sowohl bei geschlossenen als auch bei offenen Frage-Antwort-Problemen. Darüber hinaus bevorzugen Menschen die Antworten von MindSearch basierend auf InternLM2.5-7B gegenüber ChatGPT-Web und Perplexity.ai-Anwendungen, was darauf hindeutet, dass MindSearch bereits eine wettbewerbsfähige Lösung für die proprietäre KI-Suchmaschine liefern kann.
Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) haben die Nachfrage nach umfassenden Benchmarks erhöht, um ihre Fähigkeiten als menschenähnliche Agenten zu bewerten. Bestehende Benchmarks konzentrieren sich oft auf spezifische Anwendungsszenarien, betonen die Aufgabenerfüllung, analysieren jedoch nicht die zugrunde liegenden Fähigkeiten, die diese Ergebnisse antreiben. Dieser Mangel an Granularität erschwert es, genau zu erkennen, wo Fehler herrühren. Darüber hinaus erfordert die Einrichtung dieser Umgebungen erheblichen Aufwand, und Probleme mit Unzuverlässigkeit und Reproduzierbarkeit treten manchmal auf, insbesondere bei interaktiven Aufgaben. Um diese Einschränkungen zu adressieren, führen wir den Massive Multitask Agent Understanding (MMAU) Benchmark ein, der umfassende Offline-Aufgaben bietet, die komplexe Umgebungssetups überflüssig machen. Er bewertet Modelle in fünf Bereichen, darunter Werkzeugverwendung, Directed Acyclic Graph (DAG) QA, Data Science und Machine Learning-Codierung, Programmierung auf Wettbewerbsniveau und Mathematik, und umfasst fünf wesentliche Fähigkeiten: Verständnis, Schlussfolgerung, Planung, Problemlösung und Selbstkorrektur. Mit insgesamt 20 sorgfältig gestalteten Aufgaben, die über 3.000 verschiedene Aufforderungen umfassen, bietet MMAU einen umfassenden Rahmen zur Bewertung der Stärken und Schwächen von LLM-Agenten. Durch den Test von 18 repräsentativen Modellen auf MMAU liefern wir tiefe und aufschlussreiche Analysen. Letztendlich beleuchtet MMAU nicht nur die Fähigkeiten und Grenzen von LLM-Agenten, sondern verbessert auch die Interpretierbarkeit ihrer Leistung. Die Datensätze und Auswertungsskripte von MMAU sind unter https://github.com/apple/axlearn/docs/research/mmau verfügbar.
Das Contrastive Language-Image Pre-training (CLIP), das sich auf das Abstrahieren von offenen Weltrepräsentationen über Domänen und Modalitäten hinweg spezialisiert hat, ist zu einem Grundpfeiler für eine Vielzahl von Vision- und multimodalen Aufgaben geworden. Allerdings zeigen aktuelle Studien, dass CLIP schwerwiegende visuelle Mängel aufweist, wie z.B. die kaum vorhandene Unterscheidung von Orientierung, Menge, Farbe, Struktur usw. Diese visuellen Mängel beschränken auch die Wahrnehmungsfähigkeiten multimodaler großer Sprachmodelle (MLLMs), die auf CLIP aufbauen. Der Hauptgrund könnte sein, dass die Bild-Text-Paare, die zur Schulung von CLIP verwendet werden, inhärent voreingenommen sind, aufgrund des Mangels an Unterscheidungskraft des Textes und der Vielfalt der Bilder. In dieser Arbeit stellen wir einen einfachen Post-Training-Ansatz für CLIP-Modelle vor, der seine visuellen Mängel weitgehend durch einen selbstüberwachten Diffusionsprozess überwindet. Wir stellen DIVA vor, das das Diffusionsmodell als visuellen Assistenten für CLIP nutzt. Speziell nutzt DIVA generatives Feedback von Text-zu-Bild-Diffusionsmodellen zur Optimierung von CLIP-Repräsentationen, nur mit Bildern (ohne entsprechenden Text). Wir zeigen, dass DIVA die Leistung von CLIP im anspruchsvollen MMVP-VLM-Benchmark verbessert, der feinkörnige visuelle Fähigkeiten in großem Maße bewertet (z.B. 3-7%), und die Leistung von MLLMs und Vision-Modellen bei multimodalen Verständnis- und Segmentierungsaufgaben steigert. Eine umfangreiche Evaluation an 29 Bildklassifizierungs- und Abruf-Benchmarks bestätigt, dass unser Framework CLIPs starke Zero-Shot-Fähigkeiten bewahrt. Der Code wird unter https://github.com/baaivision/DIVA verfügbar sein.
Das visuelle Medium (Bilder und Videos) enthält natürlicherweise eine große Menge an Informationsredundanz, was eine hervorragende Möglichkeit zur Steigerung der Effizienz bei der Verarbeitung bietet. Während Modelle auf Basis des Vision Transformers (ViT) effektiv auf große Datenregime skalieren, nutzen sie diese inhärente Redundanz nicht aus, was zu höheren Rechenkosten führt. Mixture of Experts (MoE)-Netzwerke zeigen Skalierbarkeit bei gleichbleibenden Inferenzzeitkosten, bringen jedoch einen größeren Parameter-Fußabdruck mit sich. Wir präsentieren Mixture of Nested Experts (MoNE), das eine verschachtelte Struktur für Experten nutzt, bei der einzelne Experten auf einer steigenden Berechnungs-Genauigkeits-Kurve liegen. Unter Berücksichtigung eines Berechnungsbudgets lernt MoNE, Token dynamisch in einer Prioritätsreihenfolge auszuwählen, wodurch redundante Tokens durch kostengünstigere verschachtelte Experten verarbeitet werden. Unter Verwendung dieses Rahmens erzielen wir eine äquivalente Leistung wie bei den Basismodellen, während wir die Rechenzeit um mehr als das Zweifache reduzieren. Wir validieren unseren Ansatz anhand von Standardbild- und Videodatensätzen - ImageNet-21K, Kinetics400 und Something-Something-v2. Darüber hinaus heben wir die Anpassungsfähigkeit von MoNE hervor, indem wir seine Fähigkeit zeigen, starke Leistung bei verschiedenen Inferenzzeit-Berechnungsbudgets für Videos aufrechtzuerhalten, unter Verwendung eines einzigen trainierten Modells.
Die effektive Schulung von Sprachmodellen (LMs) für mathematische Denkaufgaben erfordert hochwertige überwachte Feinabstimmungsdaten. Neben der Beschaffung von Annotationen von menschlichen Experten ist eine häufige Alternative das Samplen von größeren und leistungsstärkeren LMs. Allerdings kann dieser Ansatz des Wissensabgleichs kostspielig und instabil sein, insbesondere wenn man sich auf geschlossene, proprietäre LMs wie GPT-4 verlässt, deren Verhalten oft unvorhersehbar ist. In dieser Arbeit zeigen wir, dass die Denkfähigkeiten von LMs im kleinen Maßstab durch Selbstschulung verbessert werden können, einem Prozess, bei dem Modelle von ihren eigenen Ausgaben lernen. Wir zeigen auch, dass die herkömmliche Selbstschulung durch einen Präferenzlernalgorithmus namens Direkte Präferenzoptimierung (DPO) weiter verbessert werden kann. Durch die Integration von DPO in die Selbstschulung nutzen wir Präferenzdaten, um LMs zu einer präziseren und vielfältigeren Ketten-Denkbegründung zu führen. Wir evaluieren unsere Methode über verschiedene mathematische Denkaufgaben hinweg unter Verwendung verschiedener Basismodelle. Unsere Experimente zeigen, dass dieser Ansatz nicht nur die Denkleistung von LMs verbessert, sondern auch eine kostengünstigere und skalierbarere Lösung im Vergleich zur Abhängigkeit von großen proprietären LMs bietet.
Aktuelle 3D-Großrekonstruktionsmodelle verwenden typischerweise einen zweistufigen Prozess, der zunächst das Generieren von Multi-View-Bildern durch ein Multi-View-Diffusionsmodell und anschließend die Verwendung eines Feed-Forward-Modells zur Rekonstruktion von Bildern zu 3D-Inhalten umfasst. Allerdings erzeugen Multi-View-Diffusionsmodelle oft Bilder von geringer Qualität und Inkonsistenzen, was sich negativ auf die Qualität der endgültigen 3D-Rekonstruktion auswirkt. Um dieses Problem zu lösen, schlagen wir ein vereinheitlichtes 3D-Generierungsframework namens Cycle3D vor, das zyklisch ein 2D-Diffusionsbasiertes Generierungsmodul und ein Feed-Forward-3D-Rekonstruktionsmodul während des mehrstufigen Diffusionsprozesses verwendet. Konkret wird das 2D-Diffusionsmodell zur Generierung hochwertiger Texturen angewendet, während das Rekonstruktionsmodell die Multi-View-Konsistenz gewährleistet. Darüber hinaus kann das 2D-Diffusionsmodell den generierten Inhalt weiter steuern und Referenzansichtsinformationen für nicht gesehene Ansichten einspeisen, wodurch die Vielfalt und Texturkonsistenz der 3D-Generierung während des Entrauschungsprozesses verbessert werden. Umfangreiche Experimente zeigen die überlegene Fähigkeit unserer Methode, 3D-Inhalte mit hoher Qualität und Konsistenz im Vergleich zu State-of-the-Art-Baselines zu erstellen.
Stellen Sie sich vor, Sie beobachten jemanden, der sich den Arm kratzt; um zu verstehen, warum, wäre zusätzlicher Kontext erforderlich. Wenn man jedoch eine Mücke in der Nähe entdeckt, würde dies sofort eine wahrscheinliche Erklärung für das Unbehagen der Person bieten und somit die Notwendigkeit weiterer Informationen verringern. Dieses Beispiel verdeutlicht, wie subtile visuelle Hinweise unsere kognitiven Fähigkeiten herausfordern können und die Komplexität der Interpretation visueller Szenarien zeigt. Um diese Fähigkeiten zu untersuchen, präsentieren wir Visual Riddles, einen Benchmark, der darauf abzielt, Vision- und Sprachmodelle anhand visueller Rätsel zu testen, die gesunden Menschenverstand und Weltwissen erfordern. Der Benchmark umfasst 400 visuelle Rätsel, von denen jedes ein einzigartiges Bild enthält, das von verschiedenen Text-zu-Bild-Modellen erstellt wurde, eine Frage, die richtige Antwort, einen textuellen Hinweis und eine Zuschreibung. Die menschliche Bewertung zeigt, dass bestehende Modelle deutlich hinter der menschlichen Leistung zurückbleiben, die bei einer Genauigkeit von 82\% liegt, wobei Gemini-Pro-1.5 mit einer Genauigkeit von 40\% führend ist. Unser Benchmark wird mit automatischen Bewertungsaufgaben geliefert, um die Bewertung skalierbar zu machen. Diese Ergebnisse unterstreichen das Potenzial von Visual Riddles als wertvolle Ressource zur Verbesserung der Fähigkeiten von Vision- und Sprachmodellen bei der Interpretation komplexer visueller Szenarien.
Die 3D Multimodale Fragebeantwortung (MQA) spielt eine entscheidende Rolle bei der Szenenverständnis, indem intelligente Agenten befähigt werden, ihre Umgebung in 3D-Umgebungen zu verstehen. Während bisherige Forschung hauptsächlich auf Aufgaben im Innenbereich von Haushalten und im autonomen Fahren an Straßenrändern im Freien fokussiert war, gab es nur begrenzte Erkundungen von Aufgaben zum Verständnis von Stadtszenen. Darüber hinaus stehen bestehende Forschungen vor Herausforderungen im Verständnis von Stadtszenen aufgrund des Fehlens von räumlichen semantischen Informationen und Informationen zur Interaktion zwischen Mensch und Umgebung auf Stadtebene. Um diesen Herausforderungen zu begegnen, untersuchen wir 3D MQA aus Datensatz- und Methodenperspektiven. Aus der Datensatzperspektive stellen wir einen neuartigen 3D MQA-Datensatz namens City-3DQA für das Verständnis von Stadtszenen vor, der der erste Datensatz ist, der Szenen-semantische und mensch-umgebungsinteraktive Aufgaben innerhalb der Stadt integriert. Aus der Methodenperspektive schlagen wir eine Methode zur Verbesserung des Stadtebenenverständnisses mit Szenengraphen (Sg-CityU) vor, die den Szenengraphen nutzt, um die räumliche Semantik einzuführen. Ein neuer Benchmark wird vorgestellt, und unser vorgeschlagenes Sg-CityU erreicht Genauigkeiten von 63,94 % und 63,76 % in verschiedenen Einstellungen von City-3DQA. Im Vergleich zu Innenraum-3D-MQA-Methoden und der Null-Schuss-Verwendung von fortschrittlichen großen Sprachmodellen (LLMs) zeigt Sg-CityU eine State-of-the-Art (SOTA)-Leistung in Robustheit und Verallgemeinerung.
Die klassische arabische Sprache repräsentiert eine bedeutende Ära, die das goldene Zeitalter der arabischen Kultur, Philosophie und wissenschaftlichen Literatur umfasst. Mit einem breiten Konsens über die Bedeutung der Übersetzung dieser Literatur zur Bereicherung der Wissensvermittlung zwischen Gemeinschaften bieten die Entstehung großer Sprachmodelle (LLMs) und Übersetzungssysteme vielversprechende Werkzeuge, um dieses Ziel zu erleichtern. Allerdings haben wir einen Mangel an Übersetzungsdatensätzen im Bereich des klassischen Arabischen identifiziert, die oft in Umfang und Themen begrenzt sind und die Entwicklung hochwertiger Übersetzungssysteme behindern. Als Reaktion darauf präsentieren wir den ATHAR-Datensatz, der 66.000 hochwertige Übersetzungsbeispiele von klassischem Arabisch ins Englische umfasst und eine Vielzahl von Themen wie Wissenschaft, Kultur und Philosophie abdeckt. Darüber hinaus bewerten wir die Leistung der aktuellen State-of-the-Art LLMs unter verschiedenen Einstellungen und kommen zu dem Schluss, dass solche Datensätze in aktuellen Systemen benötigt werden. Unsere Ergebnisse zeigen, wie Modelle von Feinabstimmung oder der Integration dieses Datensatzes in ihre Vorbereitungspipelines profitieren können. Der Datensatz ist öffentlich auf dem HuggingFace Data Hub unter https://huggingface.co/datasets/mohamed-khalil/ATHAR verfügbar.
Große Sprachmodelle (LLMs) übertreffen in vielen Bereichen schnell menschliches Wissen. Während die Verbesserung dieser Modelle traditionell auf kostspieligen menschlichen Daten beruht, haben jüngste selbstbelohnende Mechanismen (Yuan et al., 2024) gezeigt, dass LLMs sich verbessern können, indem sie ihre eigenen Antworten beurteilen, anstatt sich auf menschliche Labeler zu verlassen. Allerdings haben bestehende Methoden hauptsächlich darauf abgezielt, die Modellantworten zu verbessern, anstatt die Beurteilungsfähigkeiten zu entwickeln, was zu einer schnellen Sättigung während des iterativen Trainings führt. Um dieses Problem zu lösen, führen wir einen neuartigen Meta-Belohnungsschritt in den Selbstverbesserungsprozess ein, bei dem das Modell seine eigenen Beurteilungen beurteilt und dieses Feedback verwendet, um seine Beurteilungsfähigkeiten zu verfeinern. Überraschenderweise verbessert dieser unüberwachte Ansatz die Fähigkeit des Modells, Anweisungen zu beurteilen {\em und} zu befolgen, wie durch eine Steigerung der Gewinnrate von Llama-3-8B-Instruct von 22,9% auf 39,4% bei AlpacaEval 2 und von 20,6% auf 29,1% bei Arena-Hard gezeigt wird. Diese Ergebnisse legen nahe, dass das Potenzial für selbstverbessernde Modelle ohne menschliche Aufsicht stark ist.
Generative Modelle wie Diffusionsmodelle (DMs), Variational Autoencoder (VAEs) und Generative Adversarial Networks (GANs) erzeugen Bilder mit einem Grad an Authentizität, der sie nahezu von echten Fotos und Kunstwerken unterscheidet. Obwohl diese Fähigkeit für viele Branchen vorteilhaft ist, macht die Schwierigkeit, synthetische Bilder zu identifizieren, Online-Medienplattformen anfällig für Identitätsdiebstahl und Desinformationsversuche. Um die Entwicklung von Abwehrmethoden zu unterstützen, stellen wir ImagiNet vor, einen Datensatz für die Erkennung synthetischer Bilder mit hoher Auflösung und Ausgewogenheit, der darauf abzielt, potenzielle Vorurteile in bestehenden Ressourcen zu minimieren. Er umfasst 200.000 Beispiele aus vier Inhaltkategorien: Fotos, Gemälde, Gesichter und nicht kategorisiert. Synthetische Bilder werden mit Open-Source- und proprietären Generatoren erzeugt, während echte Gegenstücke derselben Inhaltstypen aus öffentlichen Datensätzen gesammelt werden. Die Struktur von ImagiNet ermöglicht ein Zwei-Spur-Bewertungssystem: i) Klassifizierung als echt oder synthetisch und ii) Identifizierung des generativen Modells. Um eine Basislinie zu etablieren, trainieren wir ein ResNet-50-Modell unter Verwendung eines selbstüberwachten kontrastiven Ziels (SelfCon) für jede Spur. Das Modell zeigt eine Leistung auf dem neuesten Stand der Technik und hohe Inferenzgeschwindigkeit über etablierte Benchmarks hinweg, erreicht eine AUC von bis zu 0,99 und eine ausgewogene Genauigkeit von 86% bis 95%, selbst unter Bedingungen sozialer Netzwerke, die Komprimierung und Größenänderung beinhalten. Unsere Daten und der Code sind unter https://github.com/delyan-boychev/imaginet verfügbar.
Die Sentimentanalyse ist ein weithin erforschtes Gebiet innerhalb der natürlichen Sprachverarbeitung (NLP), das aufgrund des Aufkommens automatisierter Lösungen erhebliches Interesse auf sich zieht. Trotzdem bleibt die Aufgabe herausfordernd aufgrund der inhärenten Komplexität von Sprachen und der subjektiven Natur von Stimmungen. Besonders schwierig gestaltet sich dies für weniger erforschte und weniger ressourcenreiche Sprachen wie Litauisch. Unsere Überprüfung bestehender litauischer NLP-Forschung zeigt, dass traditionelle maschinelle Lernverfahren und Klassifikationsalgorithmen nur begrenzte Wirksamkeit für diese Aufgabe haben. In dieser Arbeit befassen wir uns mit der Sentimentanalyse von litauischen Online-Bewertungen mit fünf Sternen aus verschiedenen Bereichen, die wir sammeln und bereinigen. Wir wenden erstmals Transformer-Modelle auf diese Aufgabe an und untersuchen die Fähigkeiten von vortrainierten mehrsprachigen Large Language Models (LLMs), wobei wir uns speziell auf das Feintuning von BERT- und T5-Modellen konzentrieren. Angesichts der inhärenten Schwierigkeit der Aufgabe schneiden die feinabgestimmten Modelle recht gut ab, insbesondere wenn die Stimmungen selbst weniger mehrdeutig sind: 80,74% bzw. 89,61% Testgenauigkeit bei der Erkennung der beliebtesten Ein-Stern- bzw. Fünf-Stern-Bewertungen. Sie übertreffen signifikant den aktuellen kommerziellen State-of-the-Art-General-Purpose-LLM GPT-4. Wir stellen unsere feinabgestimmten LLMs offen online zur Verfügung.
Die Erstellung fotorealistischer Avatare für Einzelpersonen erfordert traditionell umfangreiche Erfassungssitzungen mit komplexen und teuren Studio-Geräten wie dem LightStage-System. Während jüngste Fortschritte in neuronalen Repräsentationen die Generierung fotorealistischer und animierbarer 3D-Avatare aus schnellen Handy-Scans ermöglicht haben, sind sie mit der zum Erfassungszeitpunkt eingebetteten Beleuchtung versehen, weisen fehlende Gesichtsdetails auf und weisen Lücken in Bereichen wie der Rückseite der Ohren auf. Daher hinken sie in der Qualität im Vergleich zu im Studio erfassten Avataren hinterher. In diesem Artikel schlagen wir eine Methode vor, die diese Kluft überbrückt, indem sie studioähnlich beleuchtete Texturkarten aus kurzen monokularen Handy-Erfassungen generiert. Dies geschieht durch die Parametrisierung der Handy-Texturkarten mithilfe des W^+-Raums eines StyleGAN2, was eine nahezu perfekte Rekonstruktion ermöglicht. Anschließend verfeinern wir einen StyleGAN2, indem wir im W^+-parametrisierten Raum sampeln und dabei eine sehr kleine Menge an im Studio erfassten Texturen als adversiales Trainingssignal verwenden. Um die Realitätstreue und Genauigkeit der Gesichtsdetails weiter zu verbessern, superauflösen wir die Ausgabe des StyleGAN2 mithilfe eines sorgfältig gestalteten Diffusionsmodells, das von den Bildgradienten der mit dem Handy erfassten Texturkarte geleitet wird. Nach dem Training zeichnet sich unsere Methode durch die Fähigkeit aus, studioähnliche Gesichtstexturkarten aus zufälligen monokularen Smartphone-Videos zu erzeugen. Zur Demonstration ihrer Fähigkeiten präsentieren wir die Generierung fotorealistischer, gleichmäßig ausgeleuchteter, vollständiger Avatare aus monokularen Handy-Erfassungen.
Wir präsentieren einen neuen Ansatz zur Analyse der Periodizitätsstruktur und Semantik von Bewegungsdatensätzen, unabhängig von der Morphologie und dem Skelettbau der Figuren. Im Gegensatz zu bestehenden Methoden, die eine übermäßig spärliche hochdimensionale Latenz verwenden, schlagen wir eine Phasen-Mannigfaltigkeit vor, die aus mehreren geschlossenen Kurven besteht, von denen jede einer latenten Amplitude entspricht. Mit unserem vorgeschlagenen vektor-quantisierten periodischen Autoencoder lernen wir eine gemeinsame Phasen-Mannigfaltigkeit für mehrere Figuren, wie einen Menschen und einen Hund, ohne jegliche Überwachung. Dies wird durch die Ausnutzung der diskreten Struktur und eines flachen Netzwerks als Engpässe erreicht, so dass semantisch ähnliche Bewegungen in dieselbe Kurve der Mannigfaltigkeit gruppiert werden und die Bewegungen innerhalb desselben Komponenten durch die Phasenvariable zeitlich ausgerichtet sind. In Kombination mit einem verbesserten Bewegungsabgleichsrahmen zeigen wir die Fähigkeit der Mannigfaltigkeit zur zeitlichen und semantischen Ausrichtung in mehreren Anwendungen, einschließlich Bewegungsrückgewinnung, -übertragung und -stilisierung. Der Code und die vorab trainierten Modelle für diese Arbeit sind unter https://peizhuoli.github.io/walkthedog verfügbar.
Die Generalisierbarkeit auf verschiedene Domänen ist ein entscheidender Aspekt eines Deep-Learning-Modells, da sie die Fähigkeit des Modells bestimmt, gut auf Daten aus unbekannten Domänen zu performen. Die Forschung zur Generalisierbarkeit von Deep-Learning-Modellen für Vision-Sprach-Aufgaben ist jedoch begrenzt, hauptsächlich aufgrund des Mangels an erforderlichen Datensätzen. Um diesen Herausforderungen zu begegnen, schlagen wir VolDoGer vor: Vision-Language Dataset für Domain Generalization, ein spezieller Datensatz, der für die Generalisierung auf verschiedene Domänen entwickelt wurde und drei Vision-Sprach-Aufgaben umfasst: Bildbeschriftung, visuelle Fragebeantwortung und visuelle Schlussfolgerung. Wir haben VolDoGer konstruiert, indem wir LLM-basierte Datenannotations-Techniken auf Vision-Sprach-Aufgaben erweitert haben, wodurch die Belastung durch die Rekrutierung menschlicher Annotatoren verringert wird. Wir haben die Generalisierbarkeit auf verschiedene Domänen verschiedener Modelle, von feinabgestimmten Modellen bis hin zu einem kürzlich erschienenen multimodalen großen Sprachmodell, durch VolDoGer evaluiert.
In diesem Paper präsentieren wir TAPTRv2, einen auf Transformer basierenden Ansatz, der auf TAPTR aufbaut, um das Tracking Any Point (TAP) Problem zu lösen. TAPTR übernimmt Entwurfskonzepte des DEtection TRansformer (DETR) und formuliert jeden Verfolgungspunkt als Punkt-Query, was es ermöglicht, gut erforschte Operationen in DETR-ähnlichen Algorithmen zu nutzen. TAPTRv2 verbessert TAPTR, indem es ein kritisches Problem angeht, das sich auf dessen Abhängigkeit von Kosten-Volumen bezieht, was die Inhaltsmerkmale der Punkt-Query verunreinigt und sowohl die Sichtbarkeitsvorhersage als auch die Kosten-Volumen-Berechnung negativ beeinflusst. In TAPTRv2 schlagen wir eine neuartige auf Aufmerksamkeit basierende Positionsaktualisierung (APU) Operation vor und verwenden eine auf Schlüssel basierende verformbare Aufmerksamkeit zur Realisierung. Bei dieser Operation werden für jede Query Schlüssel-bewusste Aufmerksamkeitsgewichte verwendet, um ihre entsprechenden verformbaren Abtastpositionen zu kombinieren und eine neue Query-Position vorherzusagen. Dieses Design basiert auf der Beobachtung, dass lokale Aufmerksamkeit im Wesentlichen dasselbe ist wie Kosten-Volumen, die beide durch Punktproduktion zwischen einer Query und ihren umgebenden Merkmalen berechnet werden. Durch die Einführung dieser neuen Operation beseitigt TAPTRv2 nicht nur die zusätzliche Belastung der Kosten-Volumen-Berechnung, sondern führt auch zu einer erheblichen Leistungsverbesserung. TAPTRv2 übertrifft TAPTR und erzielt Spitzenleistungen auf vielen anspruchsvollen Datensätzen, was seine Überlegenheit demonstriert.