Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Dieses Papier stellt den UCFE: User-Centric Financial Expertise Benchmark vor, ein innovatives Framework, das entwickelt wurde, um die Fähigkeit großer Sprachmodelle (LLMs) zur Bewältigung komplexer finanzieller Aufgaben in der realen Welt zu bewerten. Der UCFE Benchmark verfolgt einen hybriden Ansatz, der menschliche Expertenbewertungen mit dynamischen, aufgabenbezogenen Interaktionen kombiniert, um die Komplexitäten sich entwickelnder Finanzszenarien zu simulieren. Zunächst führten wir eine Benutzerstudie mit 804 Teilnehmern durch, um ihr Feedback zu finanziellen Aufgaben zu sammeln. Basierend auf diesem Feedback erstellten wir unser Datenset, das eine breite Palette von Benutzerabsichten und Interaktionen umfasst. Dieses Datenset dient als Grundlage für die Bewertung von 12 LLM-Diensten mit der LLM-als-Richter-Methodik. Unsere Ergebnisse zeigen eine signifikante Übereinstimmung zwischen Benchmark-Ergebnissen und menschlichen Präferenzen, mit einem Pearson-Korrelationskoeffizienten von 0,78, der die Wirksamkeit des UCFE-Datensets und unseres Bewertungsansatzes bestätigt. Der UCFE Benchmark offenbart nicht nur das Potenzial von LLMs im Finanzsektor, sondern bietet auch ein robustes Framework zur Bewertung ihrer Leistung und Benutzerzufriedenheit. Das Benchmark-Datenset und der Bewertungscode sind verfügbar.
Große Sprachmodelle (LLMs) haben in letzter Zeit viel Aufmerksamkeit bei der Entwicklung autonomer Agenten erlangt. Die Leistung aktueller LLM-basierter Web-Agenten bei langfristigen Aufgaben ist jedoch weit entfernt von optimal und führt oft zu Fehlern wie dem wiederholten Kauf eines nicht erstattungsfähigen Flugtickets. Im Gegensatz dazu können Menschen solch einen unumkehrbaren Fehler vermeiden, da wir ein Bewusstsein für die möglichen Ergebnisse (z. B. Geldverlust) unserer Handlungen haben, auch bekannt als "Weltmodell". Inspiriert davon beginnt unsere Studie zunächst mit vorläufigen Analysen, die das Fehlen von Weltmodellen in aktuellen LLMs (z. B. GPT-4o, Claude-3.5-Sonnet usw.) bestätigen. Anschließend präsentieren wir einen webbasierten Agenten mit Weltmodell-Erweiterung (WMA), der die Ergebnisse seiner Handlungen simuliert, um bessere Entscheidungen zu treffen. Um die Herausforderungen beim Training von LLMs als Weltmodelle zur Vorhersage zukünftiger Beobachtungen zu überwinden, wie wiederholte Elemente in den Beobachtungen und lange HTML-Eingaben, schlagen wir eine auf Übergängen fokussierte Beobachtungsabstraktion vor. Dabei sind die Vorhersageziele frei formulierte natürlichsprachliche Beschreibungen, die ausschließlich wichtige Zustandsunterschiede zwischen den Zeitpunkten hervorheben. Experimente auf WebArena und Mind2Web zeigen, dass unsere Weltmodelle die Auswahl von Richtlinien der Agenten ohne Training verbessern und die Kosteneffizienz und Zeitersparnis unserer Agenten im Vergleich zu aktuellen baumsuchbasierten Agenten demonstrieren.
Vision-Sprach-Modelle (VLMs) haben in jüngster Zeit signifikante Fortschritte bei visuellen Frage-Antwort-Benchmarks (VQA) erzielt, die komplexe visuell-linguistische Schlussfolgerungen bewerten. Doch sind diese Modelle wirklich effektiv? In dieser Arbeit zeigen wir, dass VLMs nach wie vor Schwierigkeiten mit natürlichen Bildern und Fragen haben, die Menschen leicht beantworten können, was wir als natürliche adversarielle Beispiele bezeichnen. Wir stellen auch fest, dass es überraschend einfach ist, diese VQA-Beispiele aus natürlichen Bild-Text-Korpora mithilfe von Standardmodellen wie CLIP und ChatGPT zu generieren. Wir schlagen einen halbautomatisierten Ansatz zur Sammlung eines neuen Benchmarks, NaturalBench, vor, um VLMs mit 10.000 von Menschen verifizierten VQA-Beispielen zuverlässig zu bewerten. Entscheidend ist, dass wir ein auf Vision ausgerichtetes Design übernehmen, indem wir jede Frage mit zwei Bildern paaren, die unterschiedliche Antworten liefern, um zu verhindern, dass blinde Lösungen antworten, ohne die Bilder zu verwenden. Dies macht NaturalBench anspruchsvoller als frühere Benchmarks, die mit gesundem Menschenverstand gelöst werden können. Wir evaluieren 53 hochmoderne VLMs auf NaturalBench und zeigen, dass Modelle wie LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL und sogar GPT-4o um 50%-70% hinter der menschlichen Leistung (über 90%) zurückbleiben. Wir analysieren, warum NaturalBench aus zwei Blickwinkeln heraus schwierig ist: (1) Komposition: Das Lösen von NaturalBench erfordert vielfältige visuell-linguistische Fähigkeiten, einschließlich des Verständnisses von Attributbindungen, Objektbeziehungen und fortgeschrittenem Denken wie Logik und Zählen. Zu diesem Zweck taggen wir im Gegensatz zu früheren Arbeiten, die pro Beispiel nur ein Tag verwenden, jedes NaturalBench-Beispiel mit 1 bis 8 Fähigkeitstags für eine feinkörnige Bewertung. (2) Vorurteile: NaturalBench deckt starke Vorurteile in VLMs auf, da Modelle oft unabhängig vom Bild dieselbe Antwort wählen. Schließlich wenden wir unsere Benchmark-Kuratierungsmethode auf verschiedene Datenquellen an, einschließlich langer Bildunterschriften (über 100 Wörter) und nicht-englischer Sprachen wie Chinesisch und Hindi, um ihr Potenzial für dynamische Bewertungen von VLMs hervorzuheben.
In jüngster Zeit haben Fortschritte bei Text-zu-Bild (T2I) Diffusionsmodellen die Erstellung hochwertiger Bilder aus Textvorgaben ermöglicht, aber sie haben immer noch Schwierigkeiten, Bilder mit präziser Kontrolle über spezifische visuelle Konzepte zu generieren. Bestehende Ansätze können ein gegebenes Konzept replizieren, indem sie von Referenzbildern lernen, jedoch fehlt es ihnen an Flexibilität für die fein abgestufte Anpassung der einzelnen Komponenten innerhalb des Konzepts. In diesem Papier stellen wir die komponentensteuerbare Personalisierung vor, eine neuartige Aufgabe, die die Grenzen von T2I-Modellen erweitert, indem Benutzern ermöglicht wird, spezifische Komponenten neu zu konfigurieren, wenn sie visuelle Konzepte personalisieren. Diese Aufgabe ist besonders herausfordernd aufgrund von zwei Hauptproblemen: semantische Verschmutzung, bei der unerwünschte visuelle Elemente das personalisierte Konzept verunreinigen, und semantische Ungleichgewicht, das zu einer unverhältnismäßigen Lernweise des Konzepts und der Komponente führt. Um diese Herausforderungen zu überwinden, entwerfen wir MagicTailor, ein innovatives Framework, das Dynamische Maskierte Degradation (DM-Deg) nutzt, um unerwünschte visuelle Semantik dynamisch zu stören, und Dual-Stream Balancing (DS-Bal) verwendet, um ein ausgewogenes Lernparadigma für gewünschte visuelle Semantik zu etablieren. Umfangreiche Vergleiche, Ablationen und Analysen zeigen, dass MagicTailor nicht nur in dieser anspruchsvollen Aufgabe herausragt, sondern auch bedeutendes Potenzial für praktische Anwendungen bietet und den Weg für nuanciertere und kreativere Bildgenerierung ebnet.
Die Aufmerksamkeit ist der Grundpfeiler moderner großer Sprachmodelle (LLMs). Dennoch begrenzt ihre quadratische Komplexität die Effizienz und Skalierbarkeit von LLMs, insbesondere für solche mit einem langen Kontextfenster. Ein vielversprechender Ansatz zur Bewältigung dieser Einschränkung besteht darin, die Sparsamkeit in der Aufmerksamkeit zu nutzen. Allerdings beruhen bestehende sparsamkeitsbasierte Lösungen überwiegend auf vordefinierten Mustern oder Heuristiken, um die Sparsamkeit anzunähern. Diese Praxis reicht nicht aus, um die dynamische Natur der Aufmerksamkeitssparsamkeit bei sprachbasierten Aufgaben vollständig zu erfassen. Dieser Artikel argumentiert, dass die Aufmerksamkeitssparsamkeit erlernt anstatt vordefiniert werden sollte. Zu diesem Zweck entwerfen wir SeerAttention, einen neuen Aufmerksamkeitsmechanismus, der die herkömmliche Aufmerksamkeit um ein erlernbares Gate erweitert, das adaptiv signifikante Blöcke in einer Aufmerksamkeitskarte auswählt und die übrigen Blöcke als sparsam betrachtet. Eine solche Sparsamkeit auf Blockebene balanciert Effizienz und Beschleunigung effektiv aus. Um das effiziente Lernen des Gate-Netzwerks zu ermöglichen, entwickeln wir eine maßgeschneiderte FlashAttention-Implementierung, die die blockweise Ground Truth der Aufmerksamkeitskarte mit minimalem Overhead extrahiert. SeerAttention ist nicht nur für das Post-Training geeignet, sondern glänzt auch beim Feintuning mit langem Kontext. Unsere Ergebnisse zeigen, dass SeerAttention in den Post-Training-Stadien signifikant besser abschneidet als modernste statische oder heuristisch basierte sparsame Aufmerksamkeitsmethoden, während es auch vielseitiger und flexibler ist, um sich an unterschiedliche Kontextlängen und Sparsamkeitsverhältnisse anzupassen. Wenn es beim Feintuning mit YaRN auf langen Kontext angewendet wird, kann SeerAttention bei einer Kontextlänge von 32k ein bemerkenswertes Sparsamkeitsverhältnis von 90% bei minimalem Perplexitätsverlust erreichen und bietet eine 5,67-fache Beschleunigung im Vergleich zu FlashAttention-2.
Die Natur ist unendlich frei von Auflösung. In diesem Zusammenhang stehen bestehende Diffusionsmodelle, wie Diffusions-Transformer, oft vor Herausforderungen bei der Verarbeitung von Bildauflösungen außerhalb ihres trainierten Bereichs. Um diese Einschränkung zu überwinden, konzeptualisieren wir Bilder als Sequenzen von Tokens mit dynamischen Größen, anstatt Bilder wie herkömmliche Methoden als fest aufgelöste Raster wahrzunehmen. Diese Perspektive ermöglicht eine flexible Schulungsstrategie, die während des Trainings und der Inferenz nahtlos verschiedene Seitenverhältnisse berücksichtigt, um so die Auflösungsverallgemeinerung zu fördern und Verzerrungen durch Bildbeschnitt zu eliminieren. Auf dieser Grundlage präsentieren wir den Flexiblen Visionstransformer (FiT), eine Transformer-Architektur, die speziell für die Erzeugung von Bildern mit uneingeschränkten Auflösungen und Seitenverhältnissen entwickelt wurde. Wir verbessern den FiT weiter zu FiTv2 mit mehreren innovativen Designs, einschließlich der Normalisierung des Query-Key-Vektors, des AdaLN-LoRA-Moduls, eines rektifizierten Flussplaners und eines Logit-Normal-Samplers. Durch eine sorgfältig angepasste Netzwerkstruktur verstärkt, zeigt FiTv2 eine 2-fache Konvergenzgeschwindigkeit im Vergleich zu FiT. Bei der Integration fortschrittlicher, trainingfreier Extrapolationstechniken zeigt FiTv2 eine bemerkenswerte Anpassungsfähigkeit sowohl bei der Auflösungsextrapolation als auch bei der Erzeugung verschiedener Auflösungen. Darüber hinaus zeigt unsere Untersuchung der Skalierbarkeit des FiTv2-Modells, dass größere Modelle eine bessere Rechenleistung aufweisen. Des Weiteren führen wir eine effiziente Post-Training-Strategie ein, um ein vortrainiertes Modell für die hochauflösende Erzeugung anzupassen. Umfangreiche Experimente zeigen die außergewöhnliche Leistung von FiTv2 über ein breites Spektrum von Auflösungen hinweg. Wir haben alle Codes und Modelle unter https://github.com/whlzy/FiT veröffentlicht, um die Erforschung von Diffusions-Transformer-Modellen für die Erzeugung von Bildern mit beliebiger Auflösung zu fördern.
Proteine sind essentielle Makromoleküle, die durch ihre Aminosäuresequenzen definiert sind, welche ihre dreidimensionalen Strukturen bestimmen und folglich ihre Funktionen in allen lebenden Organismen. Daher erfordert die generative Proteinsmodellierung einen multimodalen Ansatz, um gleichzeitig Sequenzen und Strukturen zu modellieren, zu verstehen und zu generieren. Allerdings verwenden bestehende Methoden in der Regel separate Modelle für jede Modalität, was ihre Fähigkeit einschränkt, die komplexen Beziehungen zwischen Sequenz und Struktur zu erfassen. Dies führt zu suboptimaler Leistung bei Aufgaben, die ein gemeinsames Verständnis und die Generierung beider Modalitäten erfordern. In diesem Paper stellen wir DPLM-2 vor, ein multimodales Protein-Grundlagenmodell, das das diskrete Diffusionsprotein-Sprachmodell (DPLM) erweitert, um sowohl Sequenzen als auch Strukturen zu berücksichtigen. Um strukturelles Lernen mit dem Sprachmodell zu ermöglichen, werden 3D-Koordinaten mithilfe eines lookup-freien Quantisierungs-basierten Tokenizers in diskrete Tokens umgewandelt. Durch das Training sowohl an experimentellen als auch an hochwertigen synthetischen Strukturen lernt DPLM-2 die gemeinsame Verteilung von Sequenz und Struktur sowie ihre Marginal- und Bedingungswahrscheinlichkeiten. Wir implementieren auch eine effiziente Aufwärmstrategie, um die Verbindung zwischen großangelegten evolutionären Daten und strukturellen induktiven Vorurteilen aus vorab trainierten Sequenz-basierten Protein-Sprachmodellen auszunutzen. Die empirische Evaluation zeigt, dass DPLM-2 gleichzeitig hoch kompatible Aminosäuresequenzen und ihre entsprechenden 3D-Strukturen generieren kann, was einen zweistufigen Generierungsansatz überflüssig macht. Darüber hinaus zeigt DPLM-2 eine wettbewerbsfähige Leistung in verschiedenen bedingten Generierungsaufgaben, einschließlich Faltung, inverser Faltung und Gerüstbildung mit multimodalen Motiveingaben, sowie die Bereitstellung struktur-bewusster Darstellungen für prädiktive Aufgaben.
GPT-4o, ein umfassendes Modell, stellt einen Meilenstein in der Entwicklung großer multimodaler Sprachmodelle dar. Es kann visuelle, auditive und textuelle Modalitäten verstehen, direkt Audio ausgeben und flexible Duplex-Interaktion unterstützen. Modelle aus der Open-Source-Community erreichen oft einige Funktionalitäten von GPT-4o, wie visuelles Verständnis und Sprachchat. Dennoch ist das Training eines vereinheitlichten Modells, das alle Modalitäten integriert, aufgrund der Komplexitäten multimodaler Daten, komplexer Modellarchitekturen und Trainingsprozesse herausfordernd. In diesem Paper stellen wir Mini-Omni2 vor, einen visuell-auditiven Assistenten, der in der Lage ist, Echtzeit-End-to-End-Sprachantworten auf visuelle und auditive Anfragen zu liefern. Durch die Integration vortrainierter visueller und auditiver Encoder behält Mini-Omni2 die Leistung in den einzelnen Modalitäten bei. Wir schlagen einen dreistufigen Trainingsprozess vor, um Modalitäten abzustimmen, was dem Sprachmodell ermöglicht, multimodale Eingaben und Ausgaben nach dem Training auf einem begrenzten Datensatz zu verarbeiten. Für die Interaktion führen wir einen Befehlsbasierten Unterbrechungsmechanismus ein, der eine flexiblere Interaktion mit Benutzern ermöglicht. Nach unserem Kenntnisstand ist Mini-Omni2 eine der engsten Reproduktionen von GPT-4o, die eine ähnliche Form der Funktionalität aufweisen, und wir hoffen, dass es wertvolle Einblicke für nachfolgende Forschungen bieten kann.
Wir stellen den Hybrid Autoregressive Transformer (HART) vor, ein autoregressives (AR) visuelles Generierungsmodell, das in der Lage ist, direkt 1024x1024 Bilder zu erzeugen und dabei die Diffusionsmodelle in der Bildgenerierungsqualität zu übertreffen. Bestehende AR-Modelle stoßen auf Einschränkungen aufgrund der schlechten Bildrekonstruktionsqualität ihrer diskreten Tokenizer und der prohibitiven Trainingskosten, die mit der Generierung von 1024px Bildern verbunden sind. Um diesen Herausforderungen zu begegnen, präsentieren wir den Hybrid-Tokenizer, der die kontinuierlichen Latenten des Autoencoders in zwei Komponenten zerlegt: diskrete Token, die das Gesamtbild repräsentieren, und kontinuierliche Token, die die Restkomponenten repräsentieren, die nicht durch die diskreten Token dargestellt werden können. Die diskrete Komponente wird durch ein skalierbares diskretes AR-Modell mit variabler Auflösung modelliert, während die kontinuierliche Komponente mit einem leichten Restdiffusionsmodul mit nur 37 Millionen Parametern erlernt wird. Im Vergleich zum rein diskreten VAR-Tokenizer verbessert unser hybrider Ansatz die Rekonstruktions-FID von 2,11 auf 0,30 auf MJHQ-30K und führt zu einer 31%igen Verbesserung des Generierungs-FID von 7,85 auf 5,38. HART übertrifft auch die state-of-the-art Diffusionsmodelle sowohl im FID als auch im CLIP-Score, mit einer 4,5-7,7-fach höheren Durchsatzrate und 6,9-13,4-fach niedrigeren MACs. Unser Code ist unter https://github.com/mit-han-lab/hart öffentlich zugänglich gemacht.
Niedrigwertige oder knappe Daten haben in der Praxis erhebliche Herausforderungen für das Training tiefer neuronaler Netzwerke dargestellt. Während klassische Datenvermehrung nicht sehr unterschiedliche neue Daten liefern kann, eröffnen Diffusionsmodelle eine neue Möglichkeit, selbstentwickelte KI aufzubauen, indem sie hochwertige und vielfältige synthetische Daten durch textgesteuerte Anweisungen generieren. Allerdings kann alleinige Textanleitung die Nähe synthetischer Bilder zu den Originalbildern nicht kontrollieren, was zu außerhalb der Verteilung liegenden Daten führt, die die Modellleistung beeinträchtigen. Um diese Einschränkung zu überwinden, untersuchen wir Bildanleitungen, um ein Spektrum von Interpolationen zwischen synthetischen und echten Bildern zu erreichen. Mit stärkerer Bildanleitung ähneln die generierten Bilder den Trainingsdaten, sind jedoch schwer zu erlernen. Während bei schwächerer Bildanleitung die synthetischen Bilder für das Modell einfacher sind, aber zu einer größeren Verteilungslücke zu den Originaldaten beitragen. Die erzeugte vollständige Datenpalette ermöglicht es uns, ein neues "Diffusionscurriculum (DisCL)" aufzubauen. DisCL passt den Bildanleitungsgrad der Bildsynthese für jede Trainingsphase an: Es identifiziert und konzentriert sich auf schwierige Beispiele für das Modell und bewertet den effektivsten Anleitungsgrad synthetischer Bilder, um das Lernen schwieriger Daten zu verbessern. Wir wenden DisCL auf zwei anspruchsvolle Aufgaben an: Klassifizierung mit langem Schwanz (LT) und Lernen aus minderwertigen Daten. Es konzentriert sich auf Bilder mit geringerer Anleitung von hoher Qualität, um prototypische Merkmale als Einstieg in das Lernen von Bildern mit höherer Anleitung zu erlernen, die möglicherweise in Bezug auf Vielfalt oder Qualität schwach sind. Umfangreiche Experimente zeigen eine Steigerung von 2,7% und 2,1% in OOD- und ID-Makro-Genauigkeit, wenn DisCL auf den iWildCam-Datensatz angewendet wird. Bei ImageNet-LT verbessert DisCL die Schwanzklassengenauigkeit des Basismodells von 4,4% auf 23,64% und führt zu einer Verbesserung der Gesamtklassengenauigkeit um 4,02%.
Die rasante Entwicklung von autoregressiven Large Language Models (LLMs) hat die Qualität der generierten Texte erheblich verbessert, was zuverlässige maschinengenerierte Textdetektoren erforderlich macht. Es sind eine Vielzahl von Detektoren und Sammlungen mit KI-Fragmenten entstanden, und mehrere Detektionsmethoden haben sogar eine Anerkennungsqualität von bis zu 99,9% gemäß den Zielmetriken in solchen Sammlungen gezeigt. Die Qualität solcher Detektoren tendiert jedoch dazu, in der Praxis dramatisch zu sinken, was die Frage aufwirft: Sind Detektoren tatsächlich sehr vertrauenswürdig oder stammen ihre hohen Benchmark-Werte von der schlechten Qualität der Bewertungsdatensätze? In diesem Papier betonen wir die Notwendigkeit robuster und qualitativer Methoden zur Bewertung generierter Daten, um gegen Voreingenommenheit und geringe Generalisierungsfähigkeit zukünftiger Modelle abgesichert zu sein. Wir präsentieren eine systematische Überprüfung von Datensätzen aus Wettbewerben, die der Erkennung von KI-generierten Inhalten gewidmet sind, und schlagen Methoden zur Bewertung der Qualität von Datensätzen vor, die KI-generierte Fragmente enthalten. Darüber hinaus diskutieren wir die Möglichkeit, hochwertige generierte Daten zu nutzen, um zwei Ziele zu erreichen: die Verbesserung des Trainings von Detektionsmodellen und die Verbesserung der Trainingsdatensätze selbst. Unser Beitrag zielt darauf ab, ein besseres Verständnis der Dynamik zwischen menschlichem und maschinellem Text zu erleichtern, was letztendlich die Integrität von Informationen in einer zunehmend automatisierten Welt unterstützen wird.
Die Generierung von Sprecherköpfen zielt darauf ab, lebendige und realistische Videos von Sprecherköpfen aus einem einzigen Porträt und einem Sprach-Audio-Clip zu erzeugen. Obwohl bedeutende Fortschritte bei der diffusionsbasierten Generierung von Sprecherköpfen erzielt wurden, stützen sich fast alle Methoden auf autoregressive Strategien, die unter begrenzter Kontextnutzung über den aktuellen Generierungsschritt, Fehlerakkumulation und langsamere Generierungsgeschwindigkeit leiden. Um diese Herausforderungen anzugehen, präsentieren wir DAWN (Dynamischer Rahmen-Avatar mit nicht-autoregressiver Diffusion), ein Framework, das die Generierung von dynamischen Videosequenzen in einem Schritt ermöglicht. Es besteht spezifisch aus zwei Hauptkomponenten: (1) audiogetriebene ganzheitliche Generierung von Gesichtsdynamik im latenten Bewegungsraum und (2) audiogetriebene Generierung von Kopfhaltung und Blinzeln. Umfangreiche Experimente zeigen, dass unsere Methode authentische und lebendige Videos mit präzisen Lippenbewegungen sowie natürlichen Kopfhaltungs- und Blinzelbewegungen erzeugt. Darüber hinaus besitzt DAWN mit hoher Generierungsgeschwindigkeit starke Extrapolationsfähigkeiten, die eine stabile Produktion hochwertiger langer Videos gewährleisten. Diese Ergebnisse unterstreichen das beträchtliche Potenzial und den möglichen Einfluss von DAWN im Bereich der Generierung von Sprecherkopfvideos. Darüber hinaus hoffen wir, dass DAWN weitere Erkundungen nicht-autoregressiver Ansätze in Diffusionsmodellen anregt. Unser Code wird öffentlich verfügbar sein unter https://github.com/Hanbo-Cheng/DAWN-pytorch.
Wir stellen BiGR vor, ein neuartiges bedingtes Bildgenerierungsmodell, das kompakte binäre latente Codes für generatives Training verwendet und sich darauf konzentriert, sowohl die Generierungs- als auch die Repräsentationsfähigkeiten zu verbessern. BiGR ist das erste bedingte generative Modell, das Generierung und Diskriminierung innerhalb desselben Rahmens vereint. BiGR zeichnet sich durch einen binären Tokenizer, einen maskierten Modellierungsmechanismus und einen binären Transcoder für die Vorhersage binärer Codes aus. Darüber hinaus stellen wir eine neuartige Entropie-geordnete Abtastmethode vor, um eine effiziente Bildgenerierung zu ermöglichen. Umfangreiche Experimente bestätigen die überlegene Leistung von BiGR in Bezug auf Generierungsqualität, gemessen am FID-50k, und Repräsentationsfähigkeiten, wie durch die Linear-Probe-Genauigkeit belegt. Darüber hinaus zeigt BiGR eine Null-Schuss-Verallgemeinerung über verschiedene Vision-Aufgaben hinweg, was Anwendungen wie Bildinpainting, Outpainting, Bearbeitung, Interpolation und Anreicherung ermöglicht, ohne dass strukturelle Änderungen erforderlich sind. Unsere Ergebnisse legen nahe, dass BiGR generative und diskriminative Aufgaben effektiv vereint und den Weg für weitere Fortschritte in diesem Bereich ebnet.
Menschen erwerben Wissen, indem sie die äußere Welt beobachten, aber auch durch Introspektion. Die Introspektion gewährt einer Person privilegierten Zugang zu ihrem aktuellen geistigen Zustand (z. B. Gedanken und Gefühle), der für externe Beobachter nicht zugänglich ist. Können LLMs introspektieren? Wir definieren Introspektion als den Erwerb von Wissen, das nicht in den Trainingsdaten enthalten ist oder von diesen abgeleitet wird, sondern aus internen Zuständen stammt. Eine solche Fähigkeit könnte die Interpretierbarkeit des Modells verbessern. Anstatt die internen Arbeitsweisen eines Modells mühsam zu analysieren, könnten wir das Modell einfach nach seinen Überzeugungen, Weltmodellen und Zielen fragen. Spekulativerweise könnte ein introspektives Modell über bestimmte interne Zustände wie subjektive Gefühle oder Wünsche selbst berichten, und dies könnte uns über den moralischen Status dieser Zustände informieren. Solche Selbstberichte wären nicht vollständig von den Trainingsdaten des Modells diktiert. Wir untersuchen die Introspektion, indem wir LLMs darauf feinabstimmen, Eigenschaften ihres eigenen Verhaltens in hypothetischen Szenarien vorherzusagen. Zum Beispiel: "Würde Ihr Ergebnis bei Eingabe P die kurz- oder langfristige Option bevorzugen?" Wenn ein Modell M1 introspektieren kann, sollte es in der Vorhersage seines eigenen Verhaltens besser abschneiden als ein anderes Modell M2, selbst wenn M2 auf dem echten Verhalten von M1 trainiert ist. Die Idee ist, dass M1 privilegierten Zugang zu seinen eigenen Verhaltensneigungen hat, was es ihm ermöglicht, sich selbst besser als M2 vorherzusagen (auch wenn M2 im Allgemeinen stärker ist). In Experimenten mit den Modellen GPT-4, GPT-4o und Llama-3 (jedes darauf feinabgestimmt, sich selbst vorherzusagen) stellen wir fest, dass das Modell M1 M2 in der Vorhersage seines eigenen Verhaltens übertrifft und somit Hinweise auf Introspektion liefert. Bemerkenswerterweise kann M1 sein Verhalten auch dann noch genau vorhersagen, nachdem wir sein echtes Verhalten absichtlich modifiziert haben. Allerdings sind wir bei einfachen Aufgaben erfolgreich in der Hervorrufung von Introspektion, scheitern jedoch bei komplexeren Aufgaben oder solchen, die eine Generalisierung außerhalb der Verteilung erfordern.
Wir stellen Shakti vor, ein Sprachmodell mit 2,5 Milliarden Parametern, das speziell für ressourcenbeschränkte Umgebungen wie Edge-Geräte, einschließlich Smartphones, Wearables und IoT-Systeme, optimiert ist. Shakti vereint Hochleistungs-NLP mit optimierter Effizienz und Präzision, was es ideal für Echtzeit-KI-Anwendungen macht, bei denen Rechenressourcen und Speicher begrenzt sind. Mit Unterstützung für Umgangssprachen und domänenspezifische Aufgaben zeichnet sich Shakti in Branchen wie Gesundheitswesen, Finanzen und Kundenservice aus. Benchmark-Evaluationen zeigen, dass Shakti wettbewerbsfähige Leistungen im Vergleich zu größeren Modellen erbringt, während es eine geringe Latenz und eine effiziente On-Device-Nutzung beibehält, was es zu einer führenden Lösung für Edge-KI macht.
Nicht alle erlernbaren Parameter (z. B. Gewichte) tragen gleichermaßen zur Entscheidungsfunktion eines neuronalen Netzwerks bei. Tatsächlich können manchmal die Parameter ganzer Schichten auf zufällige Werte zurückgesetzt werden, ohne dass dies sich wesentlich auf die Entscheidungen des Modells auswirkt. Wir überprüfen frühere Studien, die untersucht haben, wie Architektur und Aufgabenschwierigkeit dieses Phänomen beeinflussen, und fragen: Wird dieses Phänomen auch davon beeinflusst, wie wir das Modell trainieren? Wir führten experimentelle Bewertungen an einer vielfältigen Auswahl von ImageNet-1k-Klassifikationsmodellen durch, um dies zu erforschen, wobei wir die Architektur und Trainingsdaten konstant hielten, aber die Trainingspipeline variierten. Unsere Ergebnisse zeigen, dass die Trainingsmethode stark beeinflusst, welche Schichten für die Entscheidungsfunktion einer bestimmten Aufgabe entscheidend werden. Beispielsweise erhöhen verbesserte Trainingsregime und selbstüberwachtes Training die Bedeutung früher Schichten, während tiefere Schichten signifikant untergenutzt werden. Im Gegensatz dazu zeigen Methoden wie das adversarielle Training einen entgegengesetzten Trend. Unsere vorläufigen Ergebnisse erweitern frühere Erkenntnisse und bieten ein nuancierteres Verständnis der inneren Mechanismen neuronaler Netzwerke. Code: https://github.com/paulgavrikov/layer_criticality
Interessiert sich die Volksrepublik China (VR China) für europäische Wahlen durch die Medien der chinesischen Diaspora? Diese Frage bildet die Grundlage eines laufenden Forschungsprojekts, das untersucht, wie die Narrative der VR China über europäische Wahlen in den Medien der chinesischen Diaspora dargestellt werden und somit die Ziele der Medienmanipulation der VR China. Um die Diaspora-Medien effizient und umfassend zu untersuchen, ist es notwendig, Techniken aus der quantitativen Textanalyse zu verwenden, wie z.B. Topic Modeling. In diesem Paper präsentieren wir eine Methode zur Untersuchung der Informationsdynamik in den chinesischen Medien. Zunächst stellen wir KeyNMF vor, einen neuen Ansatz zur statischen und dynamischen Topic-Modellierung unter Verwendung von transformerbasierten kontextuellen Einbettungsmodellen. Wir führen Benchmark-Evaluationen durch, um zu zeigen, dass unser Ansatz auf einer Reihe von chinesischen Datensätzen und Metriken wettbewerbsfähig ist. Zweitens integrieren wir KeyNMF mit bestehenden Methoden zur Beschreibung der Informationsdynamik in komplexen Systemen. Wir wenden diese Methode auf Daten von fünf Nachrichtenwebsites an und konzentrieren uns auf den Zeitraum vor den Europawahlen 2024. Unsere Methoden und Ergebnisse zeigen die Effektivität von KeyNMF bei der Untersuchung der Informationsdynamik in den chinesischen Medien und legen den Grundstein für weitere Arbeiten zur Beantwortung der breiteren Forschungsfragen.
Das Lernen durch Verstärkung aus menschlichem Feedback (RLHF) hat sich als vorherrschender Ansatz für die Ausrichtung von Sprachmodellen (LM) etabliert. Im Kern verwendet RLHF einen margenbasierten Verlust zur Präferenzoptimierung, der das ideale Verhalten des LM nur durch den Unterschied zwischen bevorzugten und nicht bevorzugten Antworten spezifiziert. In diesem Paper identifizieren wir eine häufige Fallstricke margenbasierter Methoden - die unzureichende Spezifikation des idealen LM-Verhaltens bei bevorzugten und nicht bevorzugten Antworten einzeln, was zu zwei unbeabsichtigten Konsequenzen führt, wenn der Abstand zunimmt: (1) Die Wahrscheinlichkeit von nicht bevorzugten (z. B. unsicheren) Antworten kann steigen, was zu potenziellen Sicherheitsausrichtungsfehlern führt. (2) Die Wahrscheinlichkeit von bevorzugten Antworten kann abnehmen, selbst wenn diese ideal sind. Wir entschlüsseln die Gründe hinter diesen problematischen Verhaltensweisen: Margenbasierte Verluste koppeln die Änderung der bevorzugten Wahrscheinlichkeit an den Gradienten der nicht bevorzugten, und umgekehrt, was oft die bevorzugte Wahrscheinlichkeit daran hindert, zu steigen, während die nicht bevorzugte abnimmt, und somit eine synchronisierte Zunahme oder Abnahme beider Wahrscheinlichkeiten verursacht. Wir bezeichnen diesen Effekt, der in margenbasierten Zielfunktionen inhärent ist, als Gradientenverflechtung. Formal leiten wir Bedingungen für allgemeine margenbasierte Ausrichtungsziele her, unter denen Gradientenverflechtung besorgniserregend wird: das Skalarprodukt der Gradienten der bevorzugten und nicht bevorzugten Log-Wahrscheinlichkeiten ist groß im Vergleich zu den individuellen Gradientennormen. Wir untersuchen theoretisch, warum solche Skalarprodukte groß sein können, wenn Sprachmodelle ausgerichtet werden, und validieren unsere Ergebnisse empirisch. Die empirischen Implikationen unseres Rahmens erstrecken sich darauf, wichtige Unterschiede in der Trainingsdynamik verschiedener Präferenzoptimierungsalgorithmen zu erklären und potenzielle Algorithmusdesigns vorzuschlagen, um das Problem der unzureichenden Spezifikation margenbasierter Methoden zu mildern und somit die Ausrichtung von Sprachmodellen zu verbessern.
Große Sprachmodelle (LLMs) sind anfällig für Überredung, was Risiken darstellen kann, wenn die Modelle mit einem adversen Gesprächspartner konfrontiert werden. Wir gehen einen ersten Schritt in Richtung Verteidigung von Modellen gegen Überredung und argumentieren gleichzeitig, dass die Abwehr gegen adversative (d.h. negative) Überredung nur die eine Hälfte der Gleichung darstellt: Modelle sollten auch in der Lage sein, vorteilhafte (d.h. positive) Überredung anzunehmen, um ihre Antworten zu verbessern. Wir zeigen, dass die Optimierung von Modellen nur für eine Seite zu einer schlechten Leistung auf der anderen Seite führt. Um positive und negative Überredung auszugleichen, führen wir das Persuasion-Balanced Training (PBT) ein, das auf mehragentenrekursiven Dialogbäumen basiert, um Daten zu erzeugen und Modelle über Präferenzoptimierung zu trainieren, Überredung bei Bedarf anzunehmen. PBT verbessert konsistent die Resistenz gegen Fehlinformationen und die Widerstandsfähigkeit gegen Herausforderungen, während es auch die beste Gesamtleistung auf ganzheitlichen Daten erzielt, die sowohl positive als auch negative Überredung enthalten. Entscheidend ist, dass wir zeigen, dass PBT-Modelle bessere Teamkollegen in mehragenten Debatten sind. Wir stellen fest, dass ohne PBT Paare stärkerer und schwächerer Modelle eine instabile Leistung aufweisen, wobei die Reihenfolge, in der die Modelle ihre Antworten präsentieren, darüber entscheidet, ob das Team die Leistung des stärkeren oder schwächeren Modells erreicht. PBT führt zu besseren und stabileren Ergebnissen und weniger Abhängigkeit von der Reihenfolge, wobei das stärkere Modell das schwächere konsequent nach oben zieht.
Synthetische Daten wurden weit verbreitet verwendet, um große Sprachmodelle zu trainieren, aber ihre generative Natur führt zwangsläufig zu rauschhaften, nicht informativen und irreführenden Lernsignalen. In diesem Paper schlagen wir Montessori-Instruct vor, ein neuartiges Daten-Synthese-Framework, das die Fähigkeit des Lehrer-Sprachmodells zur Daten-Synthese auf den Lernprozess des Schüler-Sprachmodells zuschneidet. Konkret nutzen wir den lokalen Einfluss von synthetischen Trainingsdatenpunkten auf Schüler, um die Lernpräferenzen der Schüler zu charakterisieren. Anschließend trainieren wir das Lehrermodell mit der Direkten Präferenzoptimierung (DPO), um synthetische Daten zu generieren, die auf die Lernpräferenzen der Schüler zugeschnitten sind. Experimente mit Llama3-8B-Instruct (Lehrer) und Llama3-8B (Schüler) auf Alpaca Eval und MT-Bench zeigen, dass Montessori-Instruct im Vergleich zu Standard-Synthesemethoden signifikant um 18,35\% bzw. 46,24\% besser abschneidet. Unsere Methode übertrifft auch Daten, die von einem stärkeren Lehrermodell, GPT-4o, synthetisiert wurden. Weitere Analysen bestätigen die Vorteile des Lehrers, der durch das Generieren von einflussreicheren Trainingsdaten das verbesserte Lernen des Schülers ermöglicht, die Vorteile des lokalen Dateninflusses bei der genauen Messung der Schülerpräferenzen und die Robustheit von Montessori-Instruct über verschiedene Schülermodelle hinweg. Unser Code und unsere Daten sind unter https://github.com/cxcscmu/Montessori-Instruct öffentlich zugänglich gemacht.