Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In diesem Bericht stellen wir die Qwen2.5-Coder-Serie vor, ein bedeutendes Upgrade von ihrem Vorgänger, CodeQwen1.5. Diese Serie umfasst zwei Modelle: Qwen2.5-Coder-1.5B und Qwen2.5-Coder-7B. Als ein auf Code spezialisiertes Modell basiert Qwen2.5-Coder auf der Qwen2.5-Architektur und setzt das Training auf einem umfangreichen Korpus von über 5,5 Billionen Tokens fort. Durch sorgfältige Datenbereinigung, skalierbare synthetische Datenerzeugung und ausgewogenes Datenmischen zeigt Qwen2.5-Coder beeindruckende Fähigkeiten zur Codegenerierung, während es gleichzeitig eine allgemeine Vielseitigkeit beibehält. Das Modell wurde auf eine Vielzahl von codebezogenen Aufgaben evaluiert und erzielt Spitzenleistungen (SOTA) in über 10 Benchmarks, darunter Codegenerierung, -vervollständigung, -begründung und -reparatur, wobei es kontinuierlich größere Modelle derselben Größe übertrifft. Wir sind der Überzeugung, dass die Veröffentlichung der Qwen2.5-Coder-Serie nicht nur die Grenzen der Forschung im Bereich der Code-Intelligenz erweitern wird, sondern auch, durch ihre großzügige Lizenzierung, eine breitere Akzeptanz durch Entwickler in realen Anwendungen fördern wird.
Wir präsentieren die Qwen2-VL-Serie, ein fortschrittliches Upgrade der vorherigen Qwen-VL-Modelle, das den konventionellen Ansatz mit vorbestimmter Auflösung in der visuellen Verarbeitung neu definiert. Qwen2-VL führt den Mechanismus der Naiven Dynamischen Auflösung ein, der es dem Modell ermöglicht, Bilder mit unterschiedlichen Auflösungen dynamisch in verschiedene Anzahlen von visuellen Tokens zu verarbeiten. Dieser Ansatz ermöglicht es dem Modell, effizientere und genauere visuelle Repräsentationen zu generieren, die eng an menschliche Wahrnehmungsprozesse angelehnt sind. Das Modell integriert auch Multimodale Rotationspositions-Einbettung (M-RoPE), was die effektive Fusion von Positionsinformationen über Texte, Bilder und Videos erleichtert. Wir verwenden ein einheitliches Paradigma zur Verarbeitung von Bildern und Videos, um die visuellen Wahrnehmungsfähigkeiten des Modells zu verbessern. Um das Potenzial großer multimodaler Modelle zu erforschen, untersucht Qwen2-VL die Skalierungsgesetze für große Bildsprachmodelle (LVLMs). Durch Skalierung sowohl der Modellgröße – mit Versionen von 2B, 8B und 72B Parametern – als auch der Menge an Trainingsdaten erzielt die Qwen2-VL-Serie eine äußerst wettbewerbsfähige Leistung. Beachtenswert ist, dass das Qwen2-VL-72B-Modell Ergebnisse erzielt, die mit führenden Modellen wie GPT-4o und Claude3.5-Sonnet bei verschiedenen multimodalen Benchmarks vergleichbar sind und andere Generalistenmodelle übertreffen. Der Code ist verfügbar unter https://github.com/QwenLM/Qwen2-VL.
Ein umfassendes Textverständnis und das Lernen im Kontext erfordern Sprachmodelle, die den vollständigen Dokumentenkontext nutzen. Aufgrund der Implementierungsherausforderungen, die mit dem direkten Training von Modellen mit langem Kontext verbunden sind, wurden viele Methoden vorgeschlagen, um Modelle für den Umgang mit langen Kontexten zu erweitern. Aufgrund von Unterschieden in Daten und Modellklassen war es jedoch schwierig, diese Ansätze zu vergleichen, was zu Unsicherheiten hinsichtlich der Bewertung der Leistung bei langem Kontext und ob sie sich von der Standardbewertung unterscheidet, geführt hat. Wir implementieren ein kontrolliertes Protokoll für Erweitungsmethoden mit einer standardisierten Bewertung, unter Verwendung konsistenter Basismodelle und Erweiterungsdaten. Unsere Studie liefert mehrere Erkenntnisse zum Verhalten bei langem Kontext. Erstens bestätigen wir erneut die entscheidende Rolle der Perplexität als allgemeiner Leistungsindikator auch bei längeren Kontextaufgaben. Zweitens stellen wir fest, dass aktuelle approximative Aufmerksamkeitsmethoden systematisch bei langen Kontextaufgaben unterdurchschnittlich abschneiden. Schließlich bestätigen wir, dass genaue Feinabstimmungsmethoden im Allgemeinen innerhalb des Bereichs ihrer Erweiterung wirksam sind, während die Extrapolation herausfordernd bleibt. Alle Codebasen, Modelle und Checkpoints werden Open Source verfügbar gemacht, um Transparenz zu fördern und weitere Forschung in diesem kritischen Bereich der KI-Entwicklung zu erleichtern.
Ketten-Denken (CoT) durch Aufforderung ist die Standardmethode zur Ermittlung von Denkfähigkeiten großer Sprachmodelle (LLMs). Doch für welche Arten von Aufgaben ist dieses zusätzliche "Denken" wirklich hilfreich? Um dies zu analysieren, führten wir eine quantitative Metaanalyse durch, die über 100 Arbeiten mit CoT abdeckt, und führten eigene Bewertungen von 20 Datensätzen über 14 Modelle durch. Unsere Ergebnisse zeigen, dass CoT hauptsächlich bei Aufgaben mit Mathematik oder Logik starke Leistungssteigerungen bringt, während die Vorteile bei anderen Aufgabentypen deutlich geringer ausfallen. Bei MMLU führt das direkte Generieren der Antwort ohne CoT zu fast identischer Genauigkeit wie mit CoT, es sei denn, die Frage oder die Antwort des Modells enthält ein Gleichheitszeichen, was symbolische Operationen und Denken anzeigt. Basierend auf dieser Erkenntnis analysieren wir das Verhalten von CoT bei diesen Problemen, indem wir Planung und Ausführung trennen und gegen werkzeugunterstützte LLMs vergleichen. Ein Großteil des Nutzens von CoT resultiert aus der Verbesserung der symbolischen Ausführung, jedoch schneidet es im Vergleich zur Verwendung eines symbolischen Lösers schlechter ab. Unsere Ergebnisse deuten darauf hin, dass CoT selektiv eingesetzt werden kann, um die Leistung zu erhalten und gleichzeitig Inferenzkosten zu sparen. Darüber hinaus legen sie nahe, dass es notwendig ist, über promptbasiertes CoT hinauszugehen und neue Paradigmen zu entwickeln, die die Zwischenberechnung über die gesamte Bandbreite von LLM-Anwendungen besser nutzen.
Personalisierung spielt eine entscheidende Rolle in zahlreichen Sprachaufgaben und Anwendungen, da Benutzer mit denselben Anforderungen unterschiedliche Ausgaben basierend auf ihren individuellen Interessen bevorzugen können. Dies hat zur Entwicklung verschiedener personalisierter Ansätze geführt, die darauf abzielen, große Sprachmodelle (LLMs) anzupassen, um maßgeschneiderte Ausgaben zu generieren, die den Benutzervorlieben entsprechen. Einige davon beinhalten das Feintuning eines einzigartigen personalisierten LLMs für jeden Benutzer, was für eine weitreichende Anwendung zu teuer ist. Alternativansätze integrieren Personalisierungsinformationen auf Plug-and-Play-Basis, indem sie die relevanten historischen Texte des Benutzers als Demonstrationen abrufen. Allerdings kann diese abrufbasierte Strategie die Kontinuität des Benutzerverlaufs unterbrechen und es versäumen, die Gesamtstile und -muster des Benutzers zu erfassen, was zu suboptimaler Leistung führt. Um diese Herausforderungen anzugehen, schlagen wir ein neuartiges personalisiertes LLM-Modell vor. Es erstellt für jeden einzelnen Benutzer eine benutzerspezifische Einbettung, indem es alle ihre historischen Kontexte durch ein leichtgewichtiges Plug-in-Benutzer-Einbettungsmodul modelliert. Durch Anhängen dieser Einbettung an die Aufgabeneingabe können LLMs die Benutzergewohnheiten und -präferenzen besser verstehen und erfassen, wodurch sie personalisiertere Ausgaben erzeugen können, ohne ihre eigenen Parameter anzupassen. Umfangreiche Experimente zu verschiedenen Aufgaben im Benchmark für die Personalisierung von Sprachmodellen (LaMP) zeigen, dass das vorgeschlagene Modell signifikant bessere Leistungen erbringt als bestehende personalisierte LLM-Ansätze.
Die Feineinstellung von Präferenzen ist ein entscheidender Prozess zur Ausrichtung von tiefen generativen Modellen mit menschlichen Präferenzen. Diese Übersicht bietet einen gründlichen Überblick über die jüngsten Fortschritte bei der Feineinstellung von Präferenzen und der Integration von menschlichem Feedback. Der Artikel ist in drei Hauptabschnitte unterteilt: 1) Einführung und Grundlagen: eine Einführung in die Rahmenbedingungen des Reinforcement-Learning, Präferenzfeineinstellungsaufgaben, Modelle und Datensätze in verschiedenen Modalitäten wie Sprache, Sprache und Vision sowie verschiedene Policy-Ansätze, 2) eingehende Untersuchung jeder Präferenzfeineinstellungsmethode: eine detaillierte Analyse der verwendeten Methoden bei der Feineinstellung von Präferenzen, und 3) Anwendungen, Diskussion und zukünftige Richtungen: eine Erkundung der Anwendungen der Präferenzfeineinstellung in nachgelagerten Aufgaben, einschließlich Bewertungsmethoden für verschiedene Modalitäten, sowie einen Ausblick auf zukünftige Forschungsrichtungen. Unser Ziel ist es, die neuesten Methodologien in der Präferenzfeineinstellung und Modellausrichtung vorzustellen, um das Verständnis dieses Bereichs für Forscher und Praktiker zu verbessern. Wir hoffen, weiteres Engagement und Innovation in diesem Bereich zu fördern.
Mixture-of-Experts (MoE)-Modelle skalieren effektiver als dichte Modelle aufgrund der spärlichen Berechnung durch Experten-Routing, das selektiv nur eine kleine Teilmenge von Expertenmodulen aktiviert. Allerdings stellen spärliche Berechnungen traditionelle Trainingspraktiken vor Herausforderungen, da diskretes Experten-Routing herkömmliches Backpropagation behindert und somit die auf Gradienten basierende Optimierung, die das Fundament des Deep Learning bildet. Um die Skalierbarkeit von MoE besser zu verfolgen, führen wir GRIN (GRadient-INformed MoE-Training) ein, das spärliche Gradientenschätzung für das Experten-Routing integriert und die Modellparallelität konfiguriert, um das Fallenlassen von Tokens zu vermeiden. Durch die Anwendung von GRIN auf autoregressive Sprachmodellierung entwickeln wir ein Top-2 16mal3,8 Milliarden MoE-Modell. Unser Modell, mit nur 6,6 Milliarden aktivierten Parametern, übertrifft ein 7 Milliarden dichtes Modell und erreicht die Leistung eines 14 Milliarden dichten Modells, das auf denselben Daten trainiert wurde. Umfangreiche Bewertungen über verschiedene Aufgaben hinweg zeigen das Potenzial von GRIN, die Wirksamkeit von MoE signifikant zu steigern, wobei 79,4 bei MMLU, 83,7 bei HellaSwag, 74,4 bei HumanEval und 58,9 bei MATH erreicht werden.
Mit dem Aufkommen der Ära von Big Data und großen Sprachmodellen hat sich die personalisierte schnelle Anpassung ohne vorheriges Training als bedeutender Trend herauskristallisiert. In diesem Bericht stellen wir Takin AudioLLM vor, eine Reihe von Techniken und Modellen, die hauptsächlich Takin TTS, Takin VC und Takin Morphing umfassen und speziell für die Hörbuchproduktion entwickelt wurden. Diese Modelle sind in der Lage, sprachbasierte Inhalte ohne vorheriges Training zu generieren, hochwertige Sprache zu erzeugen, die kaum von echter menschlicher Sprache zu unterscheiden ist, und Einzelpersonen zu ermöglichen, den Sprachinhalt entsprechend ihren eigenen Bedürfnissen anzupassen. Zunächst stellen wir Takin TTS vor, ein neuronales Codec-Sprachmodell, das auf einem verbesserten neuronalen Sprachcodec und einem Multi-Task-Trainingsrahmen aufbaut und in der Lage ist, hochwertige natürliche Sprache auf nullschrittige Weise zu generieren. Bei Takin VC befürworten wir einen effektiven Ansatz zur gemeinsamen Modellierung von Inhalt und Klangfarbe, um die Ähnlichkeit der Sprecher zu verbessern, und befürworten einen auf einem bedingten Flussabgleich basierenden Decoder, um seine Natürlichkeit und Ausdruckskraft weiter zu verbessern. Schließlich schlagen wir das Takin Morphing-System vor, das hochgradig entkoppelte und fortschrittliche Ansätze zur Modellierung von Klangfarbe und Prosodie verwendet, um Einzelpersonen zu ermöglichen, die Sprachproduktion mit ihrer bevorzugten Klangfarbe und Prosodie auf präzise und kontrollierbare Weise anzupassen. Umfangreiche Experimente bestätigen die Wirksamkeit und Robustheit unserer Takin AudioLLM-Modellreihe. Für detaillierte Demonstrationen besuchen Sie bitte https://takinaudiollm.github.io.
Wir begeben uns auf die jahrhundertealte Suche: die verborgenen Dimensionen von Objekten aus bloßen Blicken auf ihre sichtbaren Teile zu enthüllen. Um dies anzugehen, präsentieren wir Vista3D, ein Framework, das innerhalb von nur 5 Minuten eine schnelle und konsistente 3D-Generierung realisiert. Im Herzen von Vista3D liegt ein zweiphasiger Ansatz: die grobe Phase und die feine Phase. In der groben Phase generieren wir schnell eine initiale Geometrie mit Gausschem Splatting aus einem einzigen Bild. In der feinen Phase extrahieren wir eine Signierte Distanzfunktion (SDF) direkt aus dem erlernten Gausschen Splatting und optimieren sie mit einer differenzierbaren Isoflächen-Repräsentation. Darüber hinaus verbessert es die Qualität der Generierung, indem es eine entwirrte Repräsentation mit zwei unabhängigen impliziten Funktionen verwendet, um sowohl sichtbare als auch verdeckte Aspekte von Objekten zu erfassen. Zusätzlich harmonisiert es Gradienten aus 2D-Diffusionsprior mit 3D-bewussten Diffusionspriors durch die Komposition eines Winkel-Diffusionspriors. Durch umfangreiche Evaluation zeigen wir, dass Vista3D effektiv ein Gleichgewicht zwischen der Konsistenz und Vielfalt der generierten 3D-Objekte aufrechterhält. Demos und Code sind verfügbar unter https://github.com/florinshen/Vista3D.
In diesem Paper stellen wir SoloAudio vor, ein neuartiges, auf Diffusion basierendes generatives Modell für die Extraktion von Zielgeräuschen (TSE). Unser Ansatz trainiert latente Diffusionsmodelle auf Audio, wobei das vorherige U-Net-Grundgerüst durch einen Transformer mit Skip-Verbindungen ersetzt wird, der auf latenten Merkmalen arbeitet. SoloAudio unterstützt sowohl audioorientierte als auch sprachorientierte TSE, indem es ein CLAP-Modell als Merkmalsextraktor für Zielgeräusche verwendet. Darüber hinaus nutzt SoloAudio synthetische Audiosignale, die von modernsten Text-zu-Audio-Modellen generiert wurden, für das Training. Dies zeigt eine starke Verallgemeinerung auf Daten außerhalb des Domänen und auf unbekannte Geräuschereignisse. Wir evaluieren diesen Ansatz anhand des FSD Kaggle 2018 Mischdatensatzes und echter Daten aus AudioSet, wobei SoloAudio sowohl auf in-domain als auch auf out-of-domain Daten state-of-the-art Ergebnisse erzielt und beeindruckende Zero-Shot- und Few-Shot-Fähigkeiten zeigt. Der Quellcode und Demos sind veröffentlicht worden.
Wir stellen Diffusionsbasiertes Audio-Untertitelung (DAC) vor, ein nicht-autoregressives Diffusionsmodell, das für vielfältige und effiziente Audio-Untertitelung entwickelt wurde. Obwohl bestehende Untertitelungsmodelle, die auf Sprach-Backbones angewiesen sind, bemerkenswerte Erfolge bei verschiedenen Untertitelungsaufgaben erzielt haben, behindern ihre unzureichende Leistung in Bezug auf Generierungsgeschwindigkeit und Vielfalt den Fortschritt im Bereich der Audio-Verständnis und Multimedia-Anwendungen. Unser diffusionsbasiertes Framework bietet einzigartige Vorteile, die sich aus seiner inhärenten Stochastizität und ganzheitlichen Kontextmodellierung in der Untertitelung ergeben. Durch eine gründliche Evaluation zeigen wir, dass DAC nicht nur Spitzenleistungen im Vergleich zu bestehenden Benchmarks in Bezug auf die Untertitelqualität erreicht, sondern sie auch signifikant in Bezug auf Generierungsgeschwindigkeit und Vielfalt übertrifft. Der Erfolg von DAC verdeutlicht, dass die Textgenerierung auch nahtlos mit Audio- und visuellen Generierungsaufgaben unter Verwendung eines Diffusions-Backbones integriert werden kann und so den Weg für ein vereinigtes, audio-bezogenes generatives Modell über verschiedene Modalitäten hinweg ebnet.
Offline Multi-Agent Reinforcement Learning (MARL) ist eine spannende Forschungsrichtung, die statische Datensätze verwendet, um optimale Steuerungsrichtlinien für Multi-Agenten-Systeme zu finden. Obwohl das Feld per Definition datengetrieben ist, haben bisherige Bemühungen Daten in ihrem Streben nach Spitzenleistungen vernachlässigt. Wir untermauern diese Behauptung zunächst durch eine Literaturübersicht, die zeigt, wie die Mehrheit der Arbeiten ihre eigenen Datensätze generiert, ohne konsistente Methodologie und nur spärliche Informationen über die Merkmale dieser Datensätze bereitstellt. Anschließend zeigen wir, warum die Vernachlässigung der Datenbeschaffenheit problematisch ist, anhand von anschaulichen Beispielen, wie eng die algorithmische Leistung mit dem verwendeten Datensatz verbunden ist, was eine gemeinsame Grundlage für Experimente in diesem Bereich erforderlich macht. Als Reaktion darauf gehen wir einen großen Schritt in Richtung Verbesserung der Datennutzung und Datenbewusstsein in Offline-MARL, mit drei wesentlichen Beiträgen: (1) eine klare Richtlinie zur Generierung neuer Datensätze; (2) eine Standardisierung von über 80 vorhandenen Datensätzen, die in einem öffentlich zugänglichen Repository gehostet werden, unter Verwendung eines konsistenten Speicherformats und einer benutzerfreundlichen API; und (3) eine Reihe von Analysetools, die es uns ermöglichen, diese Datensätze besser zu verstehen und so die weitere Entwicklung zu unterstützen.
Mathematik wurde lange Zeit hauptsächlich durch natürliche Sprache vermittelt, primär zum Verständnis durch Menschen. Mit dem Aufkommen von mechanisierter Mathematik und Beweisassistenten besteht ein wachsender Bedarf, informelle mathematische Texte zu verstehen, doch die meisten bestehenden Benchmarks konzentrieren sich ausschließlich auf Englisch und vernachlässigen andere Sprachen. Dieser Artikel stellt RoMath vor, eine rumänische Benchmark-Suite für mathematisches Denken, die aus drei Datensätzen besteht: RoMath-Baccalaureate, RoMath-Competitions und RoMath-Synthetic, die verschiedene mathematische Bereiche und Schwierigkeitsgrade abdecken und darauf abzielen, nicht-englische Sprachmodelle zu verbessern und die Entwicklung multilingualer KI voranzutreiben. Durch die Fokussierung auf Rumänisch, eine Sprache mit geringen Ressourcen und einzigartigen sprachlichen Merkmalen, begegnet RoMath den Einschränkungen von anglozentrischen Modellen und betont die Notwendigkeit dedizierter Ressourcen jenseits einfacher automatischer Übersetzungen. Wir evaluieren mehrere offene Sprachmodelle und unterstreichen die Bedeutung der Erstellung von Ressourcen für unterrepräsentierte Sprachen. Wir stellen den Code und den Datensatz zur Verfügung.
KI-Agenten haben das Potenzial, Benutzern bei einer Vielzahl von bedeutsamen Aufgaben zu helfen, einschließlich der Durchführung wissenschaftlicher Forschung. Um die Entwicklung nützlicher Agenten voranzutreiben, benötigen wir Benchmarks, die anspruchsvoll sind, aber vor allem direkt mit realen Aufgaben von Interesse korrespondieren. Dieses Papier stellt einen solchen Benchmark vor, der entwickelt wurde, um die Genauigkeit von KI-Agenten bei der Bewältigung eines entscheidenden, aber überraschend herausfordernden Aspekts wissenschaftlicher Forschung zu messen: der Rechenreproduzierbarkeit. Diese Aufgabe, die fundamental für den wissenschaftlichen Prozess ist, beinhaltet die Reproduktion der Ergebnisse einer Studie unter Verwendung des bereitgestellten Codes und der Daten. Wir stellen CORE-Bench (Computational Reproducibility Agent Benchmark) vor, einen Benchmark, der aus 270 Aufgaben basierend auf 90 wissenschaftlichen Arbeiten in drei Disziplinen (Informatik, Sozialwissenschaften und Medizin) besteht. Die Aufgaben in CORE-Bench umfassen drei Schwierigkeitsstufen und beinhalten sowohl sprachbasierte als auch Bild-Sprach-Aufgaben. Wir stellen ein Bewertungssystem bereit, um die Genauigkeit von Agenten auf schnelle und parallelisierbare Weise zu messen, was im Vergleich zu einer sequenziellen Implementierung Tage an Evaluierungszeit pro Durchlauf einspart. Wir haben zwei Basis-Agenten evaluiert: den Allzweck-Agenten AutoGPT und einen aufgabenspezifischen Agenten namens CORE-Agent. Wir haben beide Varianten unter Verwendung von zwei zugrunde liegenden Sprachmodellen getestet: GPT-4o und GPT-4o-mini. Der beste Agent erreichte eine Genauigkeit von 21% bei der schwierigsten Aufgabe, was das große Verbesserungspotenzial bei der Automatisierung routinemäßiger wissenschaftlicher Aufgaben zeigt. Das Vorhandensein von Agenten, die bestehende Arbeiten reproduzieren können, ist ein notwendiger Schritt hin zur Entwicklung von Agenten, die neuartige Forschung betreiben können und die Leistung anderer Forschungsagenten überprüfen und verbessern könnten. Wir hoffen, dass CORE-Bench den Stand der Reproduzierbarkeit verbessern und die Entwicklung zukünftiger Forschungsagenten vorantreiben kann.
Die Rekonstruktion von 3D-Visuals aus funktionellen Magnetresonanztomographie (fMRT)-Daten, eingeführt als Recon3DMind in unserer Konferenzarbeit, ist von erheblichem Interesse sowohl für die kognitive Neurowissenschaft als auch für die Computer Vision. Um diese Aufgabe voranzutreiben, präsentieren wir das fMRT-3D-Datenset, das Daten von 15 Teilnehmern umfasst und insgesamt 4768 3D-Objekte zeigt. Das Datenset besteht aus zwei Komponenten: fMRT-Form, zuvor eingeführt und abrufbar unter https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape, und fMRT-Objaverse, in diesem Paper vorgeschlagen und verfügbar unter https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse. fMRT-Objaverse enthält Daten von 5 Probanden, von denen 4 auch Teil des Kernsets in fMRT-Form sind, wobei jeder Proband 3142 3D-Objekte über 117 Kategorien betrachtet, alle begleitet von Textunterschriften. Dies erhöht signifikant die Vielfalt und potenziellen Anwendungen des Datensets. Darüber hinaus schlagen wir MinD-3D vor, ein neuartiges Framework, das entwickelt wurde, um 3D-Visuelle Informationen aus fMRT-Signalen zu entschlüsseln. Das Framework extrahiert und aggregiert zunächst Merkmale aus fMRT-Daten mithilfe eines Neuro-Fusionsencoders, verwendet dann ein Merkmalsbrücken-Diffusionsmodell, um visuelle Merkmale zu generieren, und rekonstruiert schließlich das 3D-Objekt mithilfe eines generativen Transformer-Decoders. Wir etablieren neue Benchmarks, indem wir Metriken auf semantischer und struktureller Ebene entwerfen, um die Leistung des Modells zu bewerten. Darüber hinaus bewerten wir die Effektivität unseres Modells in einem Out-of-Distribution-Szenario und analysieren die Zuschreibung der extrahierten Merkmale und der visuellen ROIs in fMRT-Signalen. Unsere Experimente zeigen, dass MinD-3D nicht nur 3D-Objekte mit hoher semantischer und räumlicher Genauigkeit rekonstruiert, sondern auch unser Verständnis davon vertieft, wie das menschliche Gehirn 3D-visuelle Informationen verarbeitet. Projektseite unter: https://jianxgao.github.io/MinD-3D.
Bei der Bewältigung der Herausforderung der Multi-Dokumenten-Zusammenfassung (MDS) wurden zahlreiche Methoden vorgeschlagen, die sowohl extraktive als auch abstraktive Zusammenfassungstechniken umfassen. Jeder Ansatz hat jedoch seine eigenen Einschränkungen, wodurch es weniger effektiv ist, sich ausschließlich auf einen zu verlassen. Eine aufkommende und vielversprechende Strategie beinhaltet eine synergistische Fusion von extraktiven und abstraktiven Zusammenfassungsmethoden. Trotz der Vielzahl von Studien in diesem Bereich ist die Forschung zu der kombinierten Methodik nach wie vor knapp, insbesondere im Kontext der vietnamesischen Sprachverarbeitung. Dieser Artikel stellt ein neuartiges vietnamesisches MDS-Framework vor, das eine Zwei-Komponenten-Pipeline-Architektur nutzt, die extraktive und abstraktive Techniken integriert. Die erste Komponente verwendet einen extraktiven Ansatz, um Schlüsselsätze in jedem Dokument zu identifizieren. Dies wird durch eine Modifikation des vorab trainierten BERT-Netzwerks erreicht, das semantisch sinnvolle Satz-Einbettungen mithilfe von Siamese- und Triplet-Netzwerkstrukturen ableitet. Die zweite Komponente verwendet das VBD-LLaMA2-7B-50b-Modell für abstrakte Zusammenfassungen und generiert letztendlich das endgültige Zusammenfassungsdokument. Unser vorgeschlagenes Framework zeigt eine positive Leistung und erreicht ROUGE-2-Werte von 39,6% auf dem VN-MDS-Datensatz und übertrifft die State-of-the-Art-Baselines.
Menschliche Werte und ihre Messung sind ein langjähriges interdisziplinäres Forschungsgebiet. Die jüngsten Fortschritte in der KI haben ein erneutes Interesse an diesem Bereich geweckt, wobei große Sprachmodelle (LLMs) sowohl als Werkzeuge als auch als Gegenstände der Wertemessung auftauchen. Diese Arbeit stellt Generative Psychometrie für Werte (GPV) vor, ein auf LLM basierendes, datengesteuertes Wertemessungsparadigma, das theoretisch auf textoffenbarten selektiven Wahrnehmungen basiert. Wir beginnen mit dem Feinabstimmen eines LLM für eine präzise Wahrnehmungsebene der Wertemessung und überprüfen die Fähigkeit von LLMs, Texte in Wahrnehmungen zu analysieren, was den Kern der GPV-Pipeline bildet. Durch die Anwendung von GPV auf von Menschen verfasste Blogs zeigen wir dessen Stabilität, Gültigkeit und Überlegenheit gegenüber früheren psychologischen Werkzeugen. Anschließend erweitern wir GPV auf die LLM-Wertemessung und verbessern den aktuellen Stand der Technik durch 1) eine psychometrische Methodik, die LLM-Werte anhand ihrer skalierbaren und freiformatigen Ausgaben misst und eine kontextspezifische Messung ermöglicht; 2) eine vergleichende Analyse von Messparadigmen, die aufzeigt, welche Antwortverzerrungen bei früheren Methoden auftreten; und 3) einen Versuch, LLM-Werte und ihre Sicherheit zu verknüpfen, wodurch die Vorhersagekraft unterschiedlicher Wertesysteme und die Auswirkungen verschiedener Werte auf die LLM-Sicherheit aufgezeigt werden. Durch interdisziplinäre Bemühungen streben wir danach, KI für psychometrische Verfahren der nächsten Generation zu nutzen und psychometrische Verfahren für an Werten ausgerichtete KI einzusetzen.