Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Aktuelle universelle Segmentierungsmethoden zeigen starke Fähigkeiten in der pixelgenauen Bild- und Videoanalyse. Allerdings fehlt es ihnen an Begründungsfähigkeiten und sie können nicht über Textanweisungen gesteuert werden. Im Gegensatz dazu zeigen große vision-sprachliche multimodale Modelle leistungsstarke, auf Vision basierende Konversations- und Begründungsfähigkeiten, jedoch fehlt es ihnen an pixelgenauer Verständnisfähigkeit und sie haben Schwierigkeiten, visuelle Anweisungen für eine flexible Benutzerinteraktion anzunehmen. Dieser Artikel schlägt OMG-LLaVA vor, ein neues und elegantes Framework, das leistungsstarke pixelgenaue Visionserfassung mit Begründungsfähigkeiten kombiniert. Es kann verschiedene visuelle und Textanweisungen für eine flexible Benutzerinteraktion akzeptieren. Speziell verwenden wir eine universelle Segmentierungsmethode als den visuellen Encoder, der Bildinformationen, Wahrnehmungsprioritäten und visuelle Anweisungen in visuelle Token integriert, die dem LLM bereitgestellt werden. Der LLM ist verantwortlich für das Verstehen der Textanweisungen des Benutzers und das Bereitstellen von Textantworten sowie pixelgenauen Segmentierungsergebnissen basierend auf den visuellen Informationen. Wir schlagen die Einbettung von Wahrnehmungsprioritäten vor, um Wahrnehmungsprioritäten besser mit Bildmerkmalen zu integrieren. OMG-LLaVA erreicht Bild-, Objekt- und pixelgenaue Begründungs- und Verständnisfähigkeiten in einem einzigen Modell und entspricht oder übertrifft die Leistung spezialisierter Methoden auf mehreren Benchmarks. Anstatt den LLM zu verwenden, um jeden Spezialisten zu verbinden, zielt unsere Arbeit auf ein End-to-End-Training an einem Encoder, einem Decoder und einem LLM ab. Der Code und das Modell wurden für weitere Forschungszwecke veröffentlicht.
Mathematisches Denken stellt eine bedeutende Herausforderung für große Sprachmodelle (LLMs) dar, aufgrund der umfangreichen und präzisen Kette von Schlussfolgerungen, die für die Genauigkeit erforderlich sind. Die Gewährleistung der Korrektheit jedes Schlussfolgerungsschritts ist entscheidend. Um dies zu erreichen, zielen wir darauf ab, die Robustheit und Faktentreue von LLMs durch das Lernen aus menschlichem Feedback zu verbessern. Allerdings haben Direkte Präferenzoptimierung (DPO) nur begrenzte Vorteile für langkettiges mathematisches Denken gezeigt, da Modelle, die DPO verwenden, Schwierigkeiten haben, detaillierte Fehler in falschen Antworten zu identifizieren. Diese Einschränkung resultiert aus einem Mangel an feinkörniger Prozessaufsicht. Wir schlagen eine einfache, effektive und dateneffiziente Methode namens Step-DPO vor, die einzelne Schlussfolgerungsschritte als Einheiten für die Präferenzoptimierung behandelt, anstatt Antworten ganzheitlich zu bewerten. Darüber hinaus haben wir eine Datenkonstruktionspipeline für Step-DPO entwickelt, die die Erstellung eines qualitativ hochwertigen Datensatzes mit 10K schrittweisen Präferenzpaaren ermöglicht. Wir stellen auch fest, dass bei DPO selbstgenerierte Daten effektiver sind als von Menschen oder GPT-4 generierte Daten, aufgrund der außerhalb der Verteilung liegenden Natur der Letzteren. Unsere Ergebnisse zeigen, dass bereits 10K Präferenzdatenpaare und weniger als 500 Step-DPO-Trainingsschritte einen fast 3%igen Genauigkeitsgewinn bei MATH für Modelle mit über 70B Parametern erzielen können. Bemerkenswerterweise erreicht Step-DPO, wenn es auf Qwen2-72B-Instruct angewendet wird, Punktzahlen von 70,8% bzw. 94,0% auf den Testsets von MATH und GSM8K und übertrifft damit eine Reihe von Closed-Source-Modellen, darunter GPT-4-1106, Claude-3-Opus und Gemini-1.5-Pro. Unser Code, unsere Daten und unsere Modelle sind unter https://github.com/dvlab-research/Step-DPO verfügbar.
Wir trainieren ein Modell, um Bilder aus multimodalen Anfragen von abwechselndem Text und Bildern zu generieren, wie z.B. "ein <Bild eines Mannes> Mann und sein <Bild eines Hundes> Hund im <Bild einer Cartoonfigur> animierten Stil." Wir initialisieren einen multimodalen Datensatz, indem wir semantisch sinnvolle Bildausschnitte extrahieren, die den Wörtern in den Bildunterschriften von synthetisch generierten und öffentlich verfügbaren Text-Bild-Daten entsprechen. Unser Modell, MUMU, besteht aus einem Vision-Sprach-Modell-Encoder mit einem Diffusionsdecoder und wird auf einem einzelnen 8xH100 GPU-Knoten trainiert. Obwohl es nur auf Ausschnitten aus demselben Bild trainiert wird, lernt MUMU, Eingaben aus verschiedenen Bildern in eine kohärente Ausgabe zu komponieren. Zum Beispiel wird eine Eingabe einer realistischen Person und einer Cartoonfigur die gleiche Person im Cartoonstil ausgeben, und eine Eingabe eines stehenden Motivs und eines Rollers wird das Motiv auf dem Roller fahrend ausgeben. Als Ergebnis generalisiert unser Modell auf Aufgaben wie Stiltransfer und Charakterkonsistenz. Unsere Ergebnisse zeigen das Potenzial der Verwendung von multimodalen Modellen als universelle Steuerungen für die Bildgenerierung.
Große Sprachmodelle (LLMs) wurden in verschiedenen intelligenten Bildungsaufgaben eingesetzt, um beim Unterrichten zu helfen. Während erste Erkundungen sich auf unabhängige LLM-unterstützte Agenten für spezifische Bildungsaufgaben konzentriert haben, bleibt das Potenzial von LLMs innerhalb eines Multi-Agenten-Kollaborationsrahmens zur Simulation eines Klassenzimmers mit echter Benutzerbeteiligung unerforscht. In dieser Arbeit schlagen wir SimClass vor, ein Multi-Agenten-Klassenzimmersimulationsframework mit Benutzerbeteiligung. Wir erkennen repräsentative Klassenrollen an und führen einen neuartigen Klassensteuerungsmechanismus für automatischen Klassenunterricht ein und führen Benutzerexperimente in zwei realen Kursen durch. Unter Verwendung des Flanders Interaktionsanalyse-Systems und der Community of Inquiry-Theorie aus der Bildungsanalyse zeigen wir, dass LLMs traditionelle Klasseninteraktionsmuster effektiv simulieren können, während sie die Benutzererfahrung verbessern. Wir beobachten auch aufkommende Gruppenverhaltensweisen unter Agenten in SimClass, wo Agenten zusammenarbeiten, um belebende Interaktionen in Klassenzimmern zu schaffen, um den Lernprozess der Benutzer zu verbessern. Wir hoffen, dass diese Arbeit die Anwendung von LLM-unterstützten Multi-Agenten-Systemen im virtuellen Klassenraumunterricht vorantreibt.
Dieses Papier stellt Self-aware Knowledge Retrieval (SeaKR) vor, ein neuartiges adaptives RAG-Modell, das selbstbewusste Unsicherheit von LLMs aus ihren internen Zuständen extrahiert. SeaKR aktiviert die Wissensabfrage, wenn die LLMs eine hohe selbstbewusste Unsicherheit für die Generierung aufweisen. Um Wissensfragmente effektiv zu integrieren, werden sie von SeaKR basierend auf der selbstbewussten Unsicherheit des LLMs neu geordnet, um das Fragment zu bewahren, das ihre Unsicherheit am meisten reduziert. Um die Lösung komplexer Aufgaben zu erleichtern, die mehrere Abfragen erfordern, nutzt SeaKR ihre selbstbewusste Unsicherheit, um zwischen verschiedenen Schlussfolgerungsstrategien zu wählen. Unsere Experimente mit komplexen und einfachen Frage-Antwort-Datensätzen zeigen, dass SeaKR bestehende adaptive RAG-Methoden übertrifft. Wir veröffentlichen unseren Code unter https://github.com/THU-KEG/SeaKR.
Große Sprachmodelle (LLMs) haben sich als vielversprechende Co-Piloten in verschiedenen Aufgaben erwiesen. Die lokale Bereitstellung von LLMs auf Edge-Geräten ist erforderlich, wenn datenschutzsensible Daten oder latenzempfindliche Aufgaben behandelt werden. Die Rechenbeschränkungen solcher Geräte machen die direkte Bereitstellung leistungsstarker groß angelegter LLMs unpraktisch, was die Wissensdestillation von groß angelegten Modellen zu leichtgewichtigen Modellen erforderlich macht. Es wurde viel Arbeit geleistet, um Vielfalt und Qualität von Trainingsbeispielen von LLMs zu erlangen, aber wenig Aufmerksamkeit wurde darauf gerichtet, den Lehrinhalt des Lehrers basierend auf den Vorlieben der Schüler auszurichten, ähnlich dem "responsiven Unterricht" in der Pädagogik. Daher schlagen wir ARTE vor, genannt Aligning TeacheR with StudenT PreferencEs, ein Rahmenwerk, das das Lehrermodell mit den Vorlieben der Schüler abstimmt, um maßgeschneiderte Trainingsbeispiele für die Wissensdestillation zu generieren. Konkret ermitteln wir Entwurfsfragen und Begründungen aus dem Lehrermodell, sammeln dann die Vorlieben der Schüler zu diesen Fragen und Begründungen anhand der Leistung der Schüler beim kontextbezogenen Lernen als Proxy und stimmen schließlich das Lehrermodell mit den Schülervorlieben ab. Am Ende wiederholen wir den ersten Schritt mit dem abgestimmten Lehrermodell, um maßgeschneiderte Trainingsbeispiele für das Schülermodell in der Ziel-Aufgabe zu ermitteln. Umfangreiche Experimente an akademischen Benchmarks zeigen die Überlegenheit von ARTE gegenüber bestehenden Instruktionsabstimmungsdatensätzen, die aus leistungsstarken LLMs destilliert wurden. Darüber hinaus untersuchen wir gründlich die Verallgemeinerung von ARTE, einschließlich der Verallgemeinerung von feinabgestimmten Schülermodellen in der Denkfähigkeit und der Verallgemeinerung von abgestimmten Lehrermodellen zur Generierung maßgeschneiderter Trainingsdaten über Aufgaben und Schüler hinweg. Zusammenfassend liegen unsere Beiträge darin, ein neuartiges Rahmenwerk für die Generierung maßgeschneiderter Trainingsbeispiele vorzuschlagen, dessen Wirksamkeit in Experimenten zu demonstrieren und die Verallgemeinerung sowohl der Schüler- als auch der abgestimmten Lehrermodelle in ARTE zu untersuchen.
Testset-Kontamination, bei der Testdaten aus einem Benchmark im Trainingssatz eines neueren Modells landen, ist ein gut dokumentiertes Hindernis für eine faire LLM-Bewertung und kann Benchmarks schnell veralten lassen. Um dies zu mildern, greifen viele aktuelle Benchmarks auf neue Anregungen und Bewertungen von menschlichen oder LLM-Richtern zurück; jedoch können dadurch erhebliche Voreingenommenheiten eingeführt werden und Schwierigkeiten bei der Bewertung von schwierigen Fragen auftreten. In dieser Arbeit stellen wir einen neuen Benchmark für LLMs vor, der sowohl immun gegen Testset-Kontamination als auch gegen die Fallstricke der LLM-Bewertung und menschliches Crowdsourcing konzipiert ist. Wir veröffentlichen LiveBench, den ersten Benchmark, der (1) häufig aktualisierte Fragen aus aktuellen Informationsquellen enthält, (2) Antworten automatisch gemäß objektiver Ground-Truth-Werte bewertet und (3) eine Vielzahl anspruchsvoller Aufgaben umfasst, darunter Mathematik, Codierung, Schlussfolgerung, Sprache, Anweisungsfolgen und Datenanalyse. Um dies zu erreichen, enthält LiveBench Fragen, die auf kürzlich veröffentlichten Mathematikwettbewerben, arXiv-Papieren, Nachrichtenartikeln und Datensätzen basieren, und es enthält schwierigere, kontaminationsfreie Versionen von Aufgaben aus früheren Benchmarks wie Big-Bench Hard, AMPS und IFEval. Wir evaluieren viele prominente Closed-Source-Modelle sowie Dutzende von Open-Source-Modellen mit Größen von 0,5B bis 110B. LiveBench ist anspruchsvoll, wobei Spitzenmodelle eine Genauigkeit von unter 65 % erreichen. Wir veröffentlichen alle Fragen, den Code und Modellantworten. Fragen werden monatlich hinzugefügt und aktualisiert, und im Laufe der Zeit werden neue Aufgaben und schwierigere Versionen von Aufgaben veröffentlicht, damit LiveBench die Fähigkeiten von LLMs unterscheiden kann, während sie sich in Zukunft verbessern. Wir begrüßen das Engagement und die Zusammenarbeit der Community zur Erweiterung der Benchmark-Aufgaben und Modelle.
Das Lehren zur Verbesserung von Schülermodellen (z. B. Wissensvermittlung) ist eine umfassend untersuchte Methodik in LLMs. Allerdings verbessert das Lehren für Menschen nicht nur die Schüler, sondern auch die Lehrer. Wir fragen: Können LLMs auch durch Lehren lernen (LbT)? Wenn ja, könnten wir potenziell die Möglichkeit erschließen, die Modelle kontinuierlich weiterzuentwickeln, ohne ausschließlich auf menschenerzeugte Daten oder stärkere Modelle angewiesen zu sein. In diesem Papier bieten wir eine vorläufige Erkundung dieser ehrgeizigen Agenda an. Wir zeigen, dass LbT-Ideen in bestehende LLM-Trainings-/Aufforderungspipelines integriert werden können und deutliche Verbesserungen liefern. Konkret entwerfen wir drei Methoden, die jeweils eine der drei Ebenen des LbT bei Menschen nachahmen: Beobachten des Feedbacks der Schüler, Lernen aus dem Feedback und iteratives Lernen, mit dem Ziel, die Antwortgenauigkeit ohne Training zu verbessern und die inhärente Fähigkeit der Modelle durch Feinabstimmung zu verbessern. Die Ergebnisse sind vielversprechend. Beispielsweise sehen wir ähnlich wie beim LbT bei Menschen, dass: (1) LbT eine schwache-zu-starke Verallgemeinerung induzieren kann: Starke Modelle können sich verbessern, indem sie anderen schwachen Modellen beibringen; (2) Vielfalt bei den Schülern hilfreich sein könnte: Das Unterrichten mehrerer Schüler könnte besser sein als das Unterrichten eines Schülers oder des Lehrers selbst. Wir hoffen, dass dieses frühe Versprechen zukünftige Forschung zu LbT inspirieren und die breitere Übernahme fortschrittlicher Techniken in der Bildung zur Verbesserung von LLMs fördern kann. Der Code ist verfügbar unter https://github.com/imagination-research/lbt.
Das Ziel von Modellinversions- und Mitgliedschaftsableitungsangriffen besteht darin, die Daten zu rekonstruieren und zu überprüfen, auf denen ein Modell trainiert wurde. Es ist jedoch nicht garantiert, dass sie alle Trainingssamples finden, da sie die Größe des Trainingssatzes nicht kennen. In diesem Paper stellen wir eine neue Aufgabe vor: die Wiederherstellung der Datensatzgröße, die darauf abzielt, die Anzahl der Proben zu bestimmen, die zur Schulung eines Modells verwendet wurden, direkt aus seinen Gewichten. Anschließend schlagen wir DSiRe vor, eine Methode zur Wiederherstellung der Anzahl von Bildern, die zur Feinabstimmung eines Modells verwendet wurden, im üblichen Fall, in dem die Feinabstimmung LoRA verwendet. Wir entdecken, dass sowohl die Norm als auch das Spektrum der LoRA-Matrizen eng mit der Größe des Feinabstimmungsdatensatzes verbunden sind; wir nutzen diese Erkenntnis, um einen einfachen, aber effektiven Vorhersagealgorithmus vorzuschlagen. Zur Bewertung der Wiederherstellung der Datensatzgröße von LoRA-Gewichten entwickeln und veröffentlichen wir einen neuen Benchmark, LoRA-WiSE, der aus über 25000 Gewichtsschnappschüssen von mehr als 2000 verschiedenen LoRA-feinabgestimmten Modellen besteht. Unser bester Klassifizierer kann die Anzahl der Feinabstimmungsbilder mit einem mittleren absoluten Fehler von 0,36 Bildern vorhersagen und damit die Machbarkeit dieses Angriffs nachweisen.
Eine spärliche Aufmerksamkeit kann effektiv die signifikanten Speicher- und Durchsatzanforderungen von Large Language Models (LLMs) in langen Kontexten mildern. Bestehende Methoden verwenden in der Regel eine einheitliche spärliche Aufmerksamkeitsmaske, die dasselbe spärliche Muster über verschiedene Aufmerksamkeitsköpfe und Eingangslängen anwendet. Allerdings versagt dieser einheitliche Ansatz dabei, die vielfältigen Aufmerksamkeitsmuster, die in LLMs inhärent sind, zu erfassen, und ignoriert ihre unterschiedlichen Genauigkeits-Latenz-Abwägungen. Um diese Herausforderung anzugehen, schlagen wir das Mixture of Attention (MoA) vor, das automatisch unterschiedliche spärliche Aufmerksamkeitskonfigurationen für verschiedene Köpfe und Schichten maßschneidert. MoA konstruiert und navigiert durch einen Suchraum verschiedener Aufmerksamkeitsmuster und ihrer Skalierungsregeln im Verhältnis zu Eingabesequenzlängen. Es erstellt ein Profil des Modells, bewertet potenzielle Konfigurationen und ermittelt den optimalen Plan zur spärlichen Aufmerksamkeitskompression. MoA passt sich an unterschiedliche Eingabegrößen an und zeigt, dass einige Aufmerksamkeitsköpfe ihren Fokus erweitern, um längere Sequenzen zu berücksichtigen, während andere Köpfe sich konsequent auf festgelegte lokale Kontexte konzentrieren. Experimente zeigen, dass MoA die effektive Kontextlänge um das 3,9-fache erhöht, bei gleichbleibender durchschnittlicher Aufmerksamkeitsspanne die Abrufgenauigkeit um das 1,5-7,1-fache über dem einheitlichen Aufmerksamkeits-Benchmark bei den Modellen Vicuna-7B, Vicuna-13B und Llama3-8B steigert. Darüber hinaus verringert MoA die Leistungslücken zwischen spärlichen und dichten Modellen, reduziert den maximalen relativen Leistungsabfall von 9%-36% auf weniger als 5% bei zwei Benchmarks für das Verständnis von langen Kontexten. MoA erreicht eine 1,2-1,4-fache Reduzierung des GPU-Speichers und steigert den Decodierdurchsatz um das 5,5-6,7-fache für 7B- und 13B-dichte Modelle auf einer einzelnen GPU, mit minimalem Einfluss auf die Leistung.
Programming-by-Examples (PBE) zielt darauf ab, einen Algorithmus aus Ein- und Ausgabebeispielen zu generieren. Solche Systeme sind praktisch und theoretisch wichtig: Aus Sicht der Endbenutzer werden sie von Millionen von Menschen eingesetzt, und aus Sicht der KI entspricht PBE einer sehr allgemeinen Form des Few-Shot induktiven Schließens. Angesichts des Erfolgs von Large Language Models (LLMs) bei der Codegenerierung untersuchen wir hier, inwieweit gesagt werden kann, dass LLMs PBE "gelöst" haben. Wir experimentieren in klassischen Bereichen wie Listen und Zeichenketten sowie in einem ungewöhnlichen Grafikprogrammierbereich, der in typischen Vortrainingsdaten nicht gut vertreten ist. Wir stellen fest, dass vortrainierte Modelle bei PBE nicht effektiv sind, aber dass sie durch Feinabstimmung eine wesentlich höhere Leistung erbringen können, vorausgesetzt die Testprobleme sind in der Verteilung. Wir analysieren empirisch, was dazu führt, dass diese Modelle erfolgreich sind oder scheitern, und gehen Schritte in Richtung des Verständnisses, wie eine bessere Generalisierung außerhalb der Verteilung erreicht werden kann. Insgesamt deuten diese Ergebnisse darauf hin, dass LLMs starke Fortschritte bei der Lösung des typischen PBE-Aufgabenspektrums machen und möglicherweise die Flexibilität und Anwendbarkeit von PBE-Systemen erhöhen, während sie gleichzeitig aufzeigen, in welchen Bereichen LLMs noch nicht ausreichend sind.
Tokenisierer sind entscheidend für die Codierung von Informationen in großen Sprachmodellen, aber in letzter Zeit ist ihre Entwicklung ins Stocken geraten, und sie weisen inhärente Schwächen auf. Hauptbeschränkungen umfassen den Rechenaufwand, ineffektive Vokabularnutzung und unnötig große Einbettungs- und Kopfschichten. Darüber hinaus ist ihre Leistung auf ein Referenzkorpus ausgerichtet, was zu einer verringerten Effektivität für unterrepräsentierte Sprachen führt. Zur Behebung dieser Probleme schlagen wir T-FREE vor, das Wörter direkt durch spärliche Aktivierungsmuster über Zeichentripel einbettet und kein Referenzkorpus erfordert. T-FREE nutzt morphologische Ähnlichkeiten von Grund auf und ermöglicht eine starke Komprimierung von Einbettungsschichten. In unserer umfassenden experimentellen Bewertung erzielen wir eine wettbewerbsfähige Leistung bei nachgelagerten Aufgaben mit einer Parameterreduzierung von mehr als 85 % auf diesen Schichten. Darüber hinaus zeigt T-FREE signifikante Verbesserungen beim transferlernen über verschiedene Sprachen hinweg.
Große Vision-Sprach-Modelle (LVLMs) halluzinieren: Bestimmte Kontexthinweise in einem Bild können das Sprachmodul dazu veranlassen, übermütig und fehlerhaft auf abnormale oder hypothetische Objekte zu schließen. Obwohl einige Benchmarks entwickelt wurden, um LVLM-Halluzinationen zu untersuchen, basieren sie hauptsächlich auf handgefertigten Grenzfällen, deren Fehlermuster kaum verallgemeinerbar sind, und das Feintuning an ihnen könnte ihre Gültigkeit untergraben. Dies motiviert uns, den ersten automatischen Benchmark-Generierungsansatz, AUTOHALLUSION, zu entwickeln, der einige Hauptstrategien nutzt, um vielfältige Halluzinationsbeispiele zu erstellen. Er sondiert die Sprachmodule in LVLMs nach Kontexthinweisen und verwendet sie, um Bilder zu synthetisieren, indem er: (1) Objekte hinzufügt, die abnorm zu den Kontexthinweisen sind; (2) bei zwei gleichzeitig auftretenden Objekten eines behält und das andere ausschließt; oder (3) Objekte entfernt, die eng mit den Kontexthinweisen verbunden sind. Anschließend generiert er bildbasierte Fragen, deren richtige Antworten im Widerspruch zu den Vorannahmen des Sprachmoduls stehen. Ein Modell muss kontextuelle Voreingenommenheiten und Ablenkungen überwinden, um zu korrekten Antworten zu gelangen, während falsche oder inkonsistente Antworten auf Halluzinationen hinweisen. AUTOHALLUSION ermöglicht es uns, neue Benchmarks mit minimalem Aufwand zu erstellen und überwindet somit die Fragilität handgefertigter Benchmarks. Es zeigt auch häufige Fehlermuster und Gründe auf und liefert wichtige Erkenntnisse, um Halluzinationen zu erkennen, zu vermeiden oder zu kontrollieren. Umfassende Bewertungen von Spitzentechnologie-LVLMs, z. B. GPT-4V(ision), Gemini Pro Vision, Claude 3 und LLaVA-1.5, zeigen eine Erfolgsrate von 97,7% und 98,7% bei der Induktion von Halluzinationen auf synthetischen und realen Datensätzen von AUTOHALLUSION und ebnet so den Weg für einen langen Kampf gegen Halluzinationen.
Grafische Benutzeroberflächen (GUIs) sind zentral für unsere Interaktion mit digitalen Geräten. In letzter Zeit wurden zunehmende Anstrengungen unternommen, um Modelle für verschiedene GUI-Verständnisaufgaben zu entwickeln. Diese Bemühungen vernachlässigen jedoch weitgehend eine wichtige GUI-bezogene Aufgabe: das Bildschirmlesen basierend auf vom Benutzer angegebenen Punkten, die wir als Bildschirmpunkt-und-Lese (SPR) Aufgabe bezeichnen. Diese Aufgabe wird hauptsächlich von starren zugänglichen Bildschirmlesewerkzeugen behandelt, die dringend neue Modelle benötigen, die von Fortschritten in Multimodalen Großen Sprachmodellen (MLLMs) angetrieben werden. In diesem Artikel schlagen wir einen Tree-of-Lens (ToL) Agenten vor, der einen neuartigen ToL-Verankerungsmechanismus nutzt, um die SPR-Aufgabe anzugehen. Basierend auf den Eingabepunktkoordinaten und dem entsprechenden GUI-Screenshot konstruiert unser ToL-Agent einen Hierarchischen Layout-Baum. Basierend auf dem Baum versteht unser ToL-Agent nicht nur den Inhalt des angezeigten Bereichs, sondern artikuliert auch das Layout und die räumlichen Beziehungen zwischen den Elementen. Solche Layout-Informationen sind entscheidend für die genaue Interpretation von Informationen auf dem Bildschirm und unterscheiden unseren ToL-Agenten von anderen Bildschirmlesewerkzeugen. Wir evaluieren den ToL-Agenten auch gründlich gegen andere Baselines anhand eines neu vorgeschlagenen SPR-Benchmarks, der GUIs von mobilen, Web- und Betriebssystemen umfasst. Zu guter Letzt testen wir den ToL-Agenten bei mobilen GUI-Navigationsaufgaben und zeigen seine Nützlichkeit bei der Identifizierung falscher Aktionen entlang der Pfade der Agentenausführung. Code und Daten: screen-point-and-read.github.io.
Die Retrieval-erweiterte Generierung (RAG) hat sich als wirksam erwiesen, um das Halluzinationsproblem großer Sprachmodelle (LLMs) zu mildern. Die Schwierigkeit, den Rekurrenten mit den vielfältigen Wissenspräferenzen der LLMs in Einklang zu bringen, stellt jedoch zwangsläufig eine Herausforderung bei der Entwicklung eines zuverlässigen RAG-Systems dar. Um dieses Problem anzugehen, schlagen wir DPA-RAG vor, ein universelles Framework, das darauf abzielt, diverse Wissenspräferenzen innerhalb von RAG-Systemen auszurichten. Konkret führen wir zunächst einen Vorliebenwissenskonstruktions-Pipeline ein und integrieren fünf neuartige Abfrageerweiterungsstrategien, um die Knappheit von Präferenzdaten zu lindern. Basierend auf Präferenzdaten erreicht DPA-RAG sowohl externe als auch interne Präferenzausrichtung: 1) Es integriert gemeinsam paarweise, punktweise und kontrastive Präferenzausrichtungsfähigkeiten in den Reranker und erreicht so eine externe Präferenzausrichtung zwischen den RAG-Komponenten. 2) Es führt zusätzlich eine vorab ausgerichtete Phase vor dem herkömmlichen überwachten Feintuning (SFT) ein, wodurch LLMs implizit Wissen erfassen können, das mit ihren Begründungspräferenzen übereinstimmt, und so die interne Ausrichtung der LLMs erreichen. Experimentelle Ergebnisse über vier wissensintensive QA-Datensätze zeigen, dass DPA-RAG alle Baselines übertrifft und sowohl Black-Box- als auch Open-Source-LLM-Reader nahtlos integriert. Weitere qualitative Analysen und Diskussionen bieten auch empirische Leitlinien für die Erreichung zuverlässiger RAG-Systeme. Unser Code ist öffentlich verfügbar unter https://github.com/dongguanting/DPA-RAG.
Angespornt durch den weit verbreiteten Anstieg des Phänomens des Code-Switchings zwischen Ägyptisch-Arabisch und Englisch in letzter Zeit, untersucht diese Arbeit die Feinheiten von maschineller Übersetzung (MT) und automatischer Spracherkennung (ASR)-Systemen, mit dem Fokus auf die Übersetzung von code-geschaltetem Ägyptisch-Arabisch-Englisch entweder ins Englische oder Ägyptisch-Arabisch. Unser Ziel ist es, die Methodologien vorzustellen, die bei der Entwicklung dieser Systeme eingesetzt werden, unter Verwendung großer Sprachmodelle wie LLama und Gemma. Im Bereich der ASR untersuchen wir die Nutzung des Whisper-Modells für die Erkennung von code-geschaltetem Ägyptisch-Arabisch, wobei wir unsere experimentellen Verfahren einschließlich der Datenvorverarbeitung und Schulungstechniken im Detail beschreiben. Durch die Implementierung eines aufeinanderfolgenden Sprach-zu-Text-Übersetzungssystems, das ASR mit MT integriert, zielen wir darauf ab, Herausforderungen durch begrenzte Ressourcen und die einzigartigen Merkmale des ägyptisch-arabischen Dialekts zu überwinden. Die Evaluation anhand etablierter Metriken zeigt vielversprechende Ergebnisse, wobei unsere Methodologien eine signifikante Verbesserung von 56% bei der Übersetzung ins Englische gegenüber dem Stand der Technik und 9,3% bei der Übersetzung ins Arabische erzielen. Da Code-Switching tief in gesprochenen Sprachen verwurzelt ist, ist es entscheidend, dass ASR-Systeme dieses Phänomen effektiv bewältigen können. Diese Fähigkeit ist entscheidend, um eine nahtlose Interaktion in verschiedenen Bereichen, einschließlich Geschäftsverhandlungen, kultureller Austausch und akademischer Diskurs, zu ermöglichen. Unsere Modelle und der Code sind als Open-Source-Ressourcen verfügbar. Code: http://github.com/ahmedheakl/arazn-llm}, Modelle: http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.
Die zunehmende Abhängigkeit von Online-Rekrutierungsplattformen in Verbindung mit der Verbreitung von KI-Technologien hat den kritischen Bedarf an effizienten Methoden zur Lebenslaufklassifizierung hervorgehoben. Herausforderungen wie kleine Datensätze, fehlende standardisierte Lebenslaufvorlagen und Datenschutzbedenken beeinträchtigen jedoch die Genauigkeit und Effektivität bestehender Klassifizierungsmodelle. In dieser Arbeit gehen wir auf diese Herausforderungen ein, indem wir einen umfassenden Ansatz zur Lebenslaufklassifizierung vorstellen. Wir haben einen umfangreichen Datensatz von 13.389 Lebensläufen aus verschiedenen Quellen zusammengestellt und Large Language Models (LLMs) wie BERT und Gemma1.1 2B zur Klassifizierung eingesetzt. Unsere Ergebnisse zeigen signifikante Verbesserungen gegenüber traditionellen maschinellen Lernansätzen, wobei unser bestes Modell eine Top-1-Genauigkeit von 92 % und eine Top-5-Genauigkeit von 97,5 % erreicht. Diese Ergebnisse unterstreichen die Bedeutung der Datensatzqualität und fortschrittlicher Modellarchitekturen zur Steigerung der Genauigkeit und Robustheit von Lebenslaufklassifizierungssystemen und damit zur Weiterentwicklung des Bereichs der Online-Rekrutierungspraktiken.
Obwohl zahlreiche Arbeiten die generative Leistung von Sprachmodellen (LMs) bei Aufgaben, die Theory of Mind-Überlegungen erfordern, bewertet haben, ist die Forschung zu den internen Repräsentationen mentaler Zustände der Modelle begrenzt. In jüngsten Arbeiten wurde durch Sondierung gezeigt, dass LMs Überzeugungen von sich selbst und anderen darstellen können. Diese Behauptungen werden jedoch von einer begrenzten Bewertung begleitet, was es schwierig macht zu beurteilen, wie mentale Zustandsrepräsentationen durch Modellentwurf und Trainingsentscheidungen beeinflusst werden. Wir berichten über einen umfangreichen Leistungsvergleich mit verschiedenen LM-Typen mit unterschiedlichen Modellgrößen, Feinabstimmungsansätzen und Prompt-Designs, um die Robustheit mentaler Zustandsrepräsentationen und Memorierungsprobleme innerhalb der Sonden zu untersuchen. Unsere Ergebnisse zeigen, dass die Qualität der internen Repräsentationen der Überzeugungen anderer durch Modelgröße und vor allem durch Feinabstimmung zunimmt. Wir sind die ersten, die untersuchen, wie Prompt-Variationen die Leistung bei Sondierungen von Theory of Mind-Aufgaben beeinflussen. Wir zeigen, dass die Repräsentationen der Modelle auf Prompt-Variationen empfindlich reagieren, selbst wenn solche Variationen vorteilhaft sein sollten. Schließlich ergänzen wir frühere Aktivierungsbearbeitungsexperimente zu Theory of Mind-Aufgaben und zeigen, dass es möglich ist, die Argumentationsleistung der Modelle zu verbessern, indem man ihre Aktivierungen lenkt, ohne dass eine Sonde trainiert werden muss.