Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Qwen2.5-VL vor, das neueste Flaggschiffmodell der Qwen Vision-Language-Serie, das bedeutende Fortschritte sowohl in den grundlegenden Fähigkeiten als auch in innovativen Funktionalitäten demonstriert. Qwen2.5-VL macht einen großen Sprung nach vorn im Verständnis und der Interaktion mit der Welt durch verbesserte visuelle Erkennung, präzise Objektlokalisierung, robuste Dokumentenanalyse und Langzeit-Videoverständnis. Ein herausragendes Merkmal von Qwen2.5-VL ist seine Fähigkeit, Objekte mithilfe von Begrenzungsrahmen oder Punkten genau zu lokalisieren. Es bietet eine robuste Extraktion strukturierter Daten aus Rechnungen, Formularen und Tabellen sowie eine detaillierte Analyse von Diagrammen, Grafiken und Layouts. Um komplexe Eingaben zu verarbeiten, führt Qwen2.5-VL dynamische Auflösungsverarbeitung und absolute Zeitcodierung ein, wodurch es Bilder unterschiedlicher Größen und Videos mit langer Laufzeit (bis zu Stunden) mit sekundengenauer Ereignislokalisierung verarbeiten kann. Dies ermöglicht es dem Modell, räumliche Skalen und zeitliche Dynamiken nativ wahrzunehmen, ohne auf traditionelle Normalisierungstechniken angewiesen zu sein. Durch das Training eines nativen dynamischen Auflösungs-Vision Transformers (ViT) von Grund auf und die Einbindung von Window Attention reduzieren wir den Rechenaufwand bei Beibehaltung der nativen Auflösung. Infolgedessen zeichnet sich Qwen2.5-VL nicht nur im Verständnis statischer Bilder und Dokumente aus, sondern auch als interaktiver visueller Agent, der in der Lage ist, in realen Szenarien wie dem Betrieb von Computern und Mobilgeräten zu schlussfolgern, Werkzeuge zu nutzen und Aufgaben auszuführen. Qwen2.5-VL ist in drei Größen verfügbar, die verschiedene Anwendungsfälle von Edge AI bis hin zu Hochleistungsrechnen abdecken. Das Flaggschiffmodell Qwen2.5-VL-72B erreicht das Niveau von State-of-the-Art-Modellen wie GPT-4o und Claude 3.5 Sonnet, insbesondere im Verständnis von Dokumenten und Diagrammen. Darüber hinaus behält Qwen2.5-VL eine robuste sprachliche Leistungsfähigkeit bei und bewahrt die Kernkompetenzen des Qwen2.5 LLM.
Generative Foundation Models (GenFMs) haben sich als transformative Werkzeuge etabliert. Ihre breite Anwendung wirft jedoch kritische Bedenken hinsichtlich der Vertrauenswürdigkeit in verschiedenen Dimensionen auf. Dieses Papier präsentiert einen umfassenden Rahmen, um diese Herausforderungen durch drei zentrale Beiträge zu adressieren. Zunächst führen wir eine systematische Überprüfung globaler KI-Governance-Gesetze und -Richtlinien von Regierungen und Regulierungsbehörden sowie von Branchenpraktiken und -standards durch. Basierend auf dieser Analyse schlagen wir eine Reihe von Leitprinzipien für GenFMs vor, die durch umfangreiche multidisziplinäre Zusammenarbeit entwickelt wurden und technische, ethische, rechtliche und gesellschaftliche Perspektiven integrieren. Zweitens stellen wir TrustGen vor, die erste dynamische Benchmarking-Plattform, die entwickelt wurde, um die Vertrauenswürdigkeit über mehrere Dimensionen und Modelltypen hinweg zu bewerten, einschließlich Text-zu-Bild-, Large-Language- und Vision-Language-Modelle. TrustGen nutzt modulare Komponenten – Metadatenkuratierung, Testfallgenerierung und kontextuelle Variation –, um adaptive und iterative Bewertungen zu ermöglichen und die Grenzen statischer Evaluierungsmethoden zu überwinden. Mit TrustGen zeigen wir signifikante Fortschritte in der Vertrauenswürdigkeit auf, identifizieren aber auch anhaltende Herausforderungen. Schließlich bieten wir eine detaillierte Diskussion der Herausforderungen und zukünftigen Richtungen für vertrauenswürdige GenFMs, die die komplexe, sich entwickelnde Natur der Vertrauenswürdigkeit offenlegt, die subtilen Abwägungen zwischen Nutzen und Vertrauenswürdigkeit hervorhebt und Überlegungen für verschiedene nachgelagerte Anwendungen berücksichtigt, wobei anhaltende Herausforderungen identifiziert und eine strategische Roadmap für zukünftige Forschung bereitgestellt wird. Diese Arbeit etabliert einen ganzheitlichen Rahmen zur Förderung der Vertrauenswürdigkeit in der generativen KI und ebnet den Weg für eine sicherere und verantwortungsvollere Integration von GenFMs in kritische Anwendungen. Um Fortschritte in der Gemeinschaft zu erleichtern, stellen wir das Toolkit für die dynamische Bewertung zur Verfügung.
Text-to-Song-Generierung, die Aufgabe, Gesang und Begleitung aus textuellen Eingaben zu erstellen, stellt aufgrund der Komplexität des Bereichs und der Datenknappheit erhebliche Herausforderungen dar. Bestehende Ansätze verwenden oft mehrstufige Generierungsverfahren, was zu umständlichen Trainings- und Inferenz-Pipelines führt. In diesem Artikel schlagen wir SongGen vor, ein vollständig quelloffenes, einstufiges autoregressives Transformer-Modell, das für kontrollierbare Song-Generierung entwickelt wurde. Das vorgeschlagene Modell ermöglicht eine fein abgestimmte Kontrolle über verschiedene musikalische Attribute, einschließlich Texten und textuellen Beschreibungen von Instrumentierung, Genre, Stimmung und Klangfarbe, während es auch einen optionalen dreisekündigen Referenzclip für das Klonen von Stimmen bietet. Innerhalb eines einheitlichen autoregressiven Frameworks unterstützt SongGen zwei Ausgabemodi: den Mixed-Modus, der eine Mischung aus Gesang und Begleitung direkt erzeugt, und den Dual-Track-Modus, der sie separat synthetisiert, um eine größere Flexibilität in nachgelagerten Anwendungen zu ermöglichen. Wir untersuchen verschiedene Token-Muster-Strategien für jeden Modus, was zu bemerkenswerten Verbesserungen und wertvollen Erkenntnissen führt. Darüber hinaus entwerfen wir eine automatisierte Datenvorverarbeitungs-Pipeline mit effektiver Qualitätskontrolle. Um die Gemeinschaftsarbeit und zukünftige Forschung zu fördern, werden wir unsere Modellgewichte, Trainingscode, annotierte Daten und Vorverarbeitungs-Pipeline veröffentlichen. Die generierten Beispiele werden auf unserer Projektseite unter https://liuzh-19.github.io/SongGen/ präsentiert, und der Code wird unter https://github.com/LiuZH-19/SongGen verfügbar sein.
Bestehende End-to-End-Algorithmen für autonomes Fahren (AD) folgen in der Regel dem Imitation Learning (IL)-Paradigma, das mit Herausforderungen wie kausaler Verwirrung und der Open-Loop-Lücke konfrontiert ist. In dieser Arbeit etablieren wir ein auf 3DGS basierendes Closed-Loop Reinforcement Learning (RL)-Trainingsparadigma. Durch die Nutzung von 3DGS-Techniken konstruieren wir eine fotorealistische digitale Nachbildung der realen physischen Welt, wodurch die AD-Politik den Zustandsraum umfassend erkunden und den Umgang mit Out-of-Distribution-Szenarien durch groß angelegtes Ausprobieren und Fehlermachen erlernen kann. Um die Sicherheit zu erhöhen, entwerfen wir spezialisierte Belohnungen, die die Politik dazu anleiten, effektiv auf sicherheitskritische Ereignisse zu reagieren und reale kausale Zusammenhänge zu verstehen. Für eine bessere Übereinstimmung mit menschlichem Fahrverhalten wird IL als Regularisierungsterm in das RL-Training integriert. Wir führen ein Closed-Loop-Evaluierungsbenchmark ein, das aus vielfältigen, zuvor unbekannten 3DGS-Umgebungen besteht. Im Vergleich zu IL-basierten Methoden erzielt RAD eine stärkere Leistung in den meisten Closed-Loop-Metriken, insbesondere eine dreimal niedrigere Kollisionsrate. Umfangreiche Closed-Loop-Ergebnisse werden unter https://hgao-cv.github.io/RAD präsentiert.
Große Sprachmodelle (LLMs) zeichnen sich bei komplexen Denkaufgaben aus, und die Destillation ihrer Denkfähigkeiten in kleinere Modelle hat vielversprechende Ergebnisse gezeigt. Wir entdecken jedoch ein interessantes Phänomen, das wir als Small Model Learnability Gap bezeichnen: Kleine Modelle (≤3B Parameter) profitieren nicht konsistent von langen Chain-of-Thought (CoT)-Denkprozessen oder der Destillation von größeren Modellen. Stattdessen schneiden sie besser ab, wenn sie auf kürzeren, einfacheren Denkketten feinabgestimmt werden, die besser mit ihrer intrinsischen Lernkapazität übereinstimmen. Um dies zu adressieren, schlagen wir Mix Distillation vor, eine einfache, aber effektive Strategie, die die Komplexität des Denkens ausgleicht, indem sie lange und kurze CoT-Beispiele oder Denkprozesse sowohl von größeren als auch kleineren Modellen kombiniert. Unsere Experimente zeigen, dass Mix Distillation die Denkleistung kleiner Modelle im Vergleich zum Training mit nur einem Datentyp signifikant verbessert. Diese Erkenntnisse verdeutlichen die Grenzen der direkten Destillation starker Modelle und betonen die Bedeutung der Anpassung der Denkkomplexität für einen effektiven Transfer von Denkfähigkeiten.
Lineare Sequenzmodellierungsmethoden wie lineare Aufmerksamkeit, Zustandsraummodellierung und lineare RNNs bieten erhebliche Effizienzsteigerungen, indem sie die Komplexität von Training und Inferenz reduzieren. Diese Methoden komprimieren jedoch typischerweise die gesamte Eingabesequenz in einen einzigen festen Speicherzustand, was zu suboptimaler Leistung bei erinnerungsintensiven Downstream-Aufgaben führt. Inspiriert von der Neurowissenschaft, insbesondere der Fähigkeit des Gehirns, ein robustes Langzeitgedächtnis zu erhalten und gleichzeitig „Gedächtnisinterferenz“ zu minimieren, führen wir eine neuartige Architektur namens Mixture-of-Memories (MoM) ein. MoM nutzt mehrere unabhängige Speicherzustände, wobei ein Router-Netzwerk Eingabetoken zu bestimmten Speicherzuständen leitet. Dieser Ansatz erhöht die gesamte Speicherkapazität erheblich und minimiert gleichzeitig Gedächtnisinterferenzen. Dadurch schneidet MoM bei erinnerungsintensiven Aufgaben außergewöhnlich gut ab und übertrifft bestehende lineare Sequenzmodellierungstechniken. Obwohl mehrere Speicherzustände integriert sind, bleibt die Berechnung jedes Speicherzustands linear in der Komplexität, sodass MoM den Vorteil der linearen Komplexität während des Trainings beibehält, während die Inferenz konstant komplex bleibt. Unsere experimentellen Ergebnisse zeigen, dass MoM aktuelle lineare Sequenzmodelle bei Downstream-Sprachaufgaben, insbesondere erinnerungsintensiven Aufgaben, deutlich übertrifft und sogar eine Leistung erzielt, die mit Transformer-Modellen vergleichbar ist. Der Code ist unter https://github.com/OpenSparseLLMs/MoM und auch als Teil von https://github.com/OpenSparseLLMs/Linear-MoE veröffentlicht.
Text-Embeddings werden typischerweise anhand einer begrenzten Anzahl von Aufgaben bewertet, die durch Sprache, Domäne und Aufgabenvielfalt eingeschränkt sind. Um diese Einschränkungen zu überwinden und eine umfassendere Bewertung zu ermöglichen, führen wir den Massive Multilingual Text Embedding Benchmark (MMTEB) ein – eine groß angelegte, community-gesteuerte Erweiterung des MTEB, die über 500 qualitätskontrollierte Bewertungsaufgaben in mehr als 250 Sprachen abdeckt. MMTEB umfasst eine vielfältige Sammlung anspruchsvoller, neuartiger Aufgaben wie Befolgen von Anweisungen, Retrieval von langen Dokumenten und Code-Retrieval und stellt damit die bisher größte mehrsprachige Sammlung von Bewertungsaufgaben für Embedding-Modelle dar. Mithilfe dieser Sammlung entwickeln wir mehrere hochgradig mehrsprachige Benchmarks, die wir zur Bewertung einer repräsentativen Auswahl von Modellen verwenden. Wir stellen fest, dass große Sprachmodelle (LLMs) mit Milliarden von Parametern zwar Spitzenleistungen in bestimmten Sprachuntergruppen und Aufgabenkategorien erzielen können, das beste öffentlich verfügbare Modell jedoch multilingual-e5-large-instruct mit nur 560 Millionen Parametern ist. Um die Zugänglichkeit zu verbessern und die Rechenkosten zu reduzieren, führen wir eine neuartige Downsampling-Methode basierend auf der Inter-Task-Korrelation ein, die eine vielfältige Auswahl gewährleistet, während die relativen Modellrankings erhalten bleiben. Darüber hinaus optimieren wir Aufgaben wie Retrieval durch das Sampling von schwierigen Negativbeispielen, wodurch kleinere, aber effektive Datensplits entstehen. Diese Optimierungen ermöglichen es uns, Benchmarks einzuführen, die den Rechenaufwand drastisch reduzieren. Beispielsweise behält unser neu eingeführter Zero-Shot-Englisch-Benchmark eine ähnliche Rangfolge wie die Vollversion bei, jedoch bei einem Bruchteil der Rechenkosten.
Große Sprachmodelle (LLMs) haben durch Vortraining und Alignment bemerkenswerte Fähigkeiten demonstriert. Allerdings können überlegene LLMs mit kurzem Kontext in Szenarien mit langem Kontext aufgrund unzureichenden Alignments für lange Kontexte unterdurchschnittlich abschneiden. Dieser Alignment-Prozess bleibt aufgrund der Unpraktikabilität menschlicher Annotation für erweiterte Kontexte und der Schwierigkeit, die Leistung bei kurzen und langen Kontexten auszubalancieren, eine Herausforderung. Um diese Herausforderungen zu bewältigen, führen wir LongPO ein, das es LLMs mit kurzem Kontext ermöglicht, sich selbst weiterzuentwickeln, um bei Aufgaben mit langem Kontext zu glänzen, indem sie intern Fähigkeiten aus kurzen Kontexten übertragen. LongPO nutzt LLMs, um aus selbstgenerierten Präferenzdaten von kurz zu lang zu lernen, die gepaarte Antworten für identische Anweisungen mit langen Kontexteingaben und ihren komprimierten kurzen Kontext-Gegenstücken enthalten. Diese Präferenz offenbart Fähigkeiten und Potenziale von LLMs, die während des Alignments für kurze Kontexte entwickelt wurden, die jedoch in unteralignierten Szenarien mit langem Kontext geschmälert werden können. Zusätzlich integriert LongPO eine KL-Beschränkung von kurz zu lang, um den Leistungsabfall bei kurzem Kontext während des Alignments für lange Kontexte zu mildern. Bei der Anwendung auf Mistral-7B-Instruct-v0.2 von 128K bis 512K Kontextlängen behält LongPO die Leistung bei kurzem Kontext vollständig bei und übertrifft naives SFT und DPO sowohl bei Aufgaben mit langem als auch mit kurzem Kontext deutlich. Insbesondere können mit \ourMethod trainierte Modelle Ergebnisse auf Benchmarks für lange Kontexte erzielen, die vergleichbar sind mit oder sogar jene von überlegenen LLMs (z.B. GPT-4-128K) übertreffen, die umfangreiche Annotationen für lange Kontexte und größere Parameterskalen beinhalten.
Web-Crawling ist eine Hauptquelle für die Vortrainingsdaten von großen Sprachmodellen (LLMs), aber die Mehrheit der gecrawlten Webseiten wird aufgrund geringer Datenqualität beim Vortraining verworfen. Dieses Papier stellt Crawl4LLM vor, eine effiziente Web-Crawling-Methode, die das Webgraphen basierend auf den Präferenzen des LLM-Vortrainings erkundet. Insbesondere nutzt sie den Einfluss einer Webseite im LLM-Vortraining als Prioritätswert für den Scheduler des Web-Crawlers und ersetzt damit die standardmäßige Priorität, die auf der Graphenkonnektivität basiert. Unsere Experimente auf einem Webgraphen mit 900 Millionen Webseiten aus dem Index einer kommerziellen Suchmaschine demonstrieren die Effizienz von Crawl4LLM bei der Beschaffung hochwertiger Vortrainingsdaten. Mit nur 21 % der gecrawlten URLs erreichen LLMs, die auf Crawl4LLM-Daten vortrainiert wurden, die gleiche Downstream-Leistung wie bei früheren Crawls, wodurch der Crawling-Abfall erheblich reduziert und die Belastung für Websites verringert wird. Unser Code ist öffentlich verfügbar unter https://github.com/cxcscmu/Crawl4LLM.
Große Sprachmodelle (LLMs) entwickeln sich über einfache Chatbots hinaus zu dynamischen, universellen agentenbasierten Programmen, die LLM-Aufrufe und Ausgabetokens skalieren, um KI-Agenten beim Denken, Erkunden und Lösen komplexer Aufgaben zu unterstützen. Allerdings ignorieren bestehende LLM-Bereitstellungssysteme die Abhängigkeiten zwischen Programmen und Aufrufen, wodurch erhebliche Optimierungsmöglichkeiten ungenutzt bleiben. Unsere Analyse zeigt, dass Programme, die an LLM-Bereitstellungs-Engines übermittelt werden, lange kumulative Wartezeiten erfahren, hauptsächlich aufgrund von Head-of-Line-Blocking sowohl auf der Ebene einzelner LLM-Anfragen als auch des gesamten Programms. Um dies zu beheben, stellen wir Autellix vor, ein LLM-Bereitstellungssystem, das Programme als erstklassige Entitäten behandelt, um ihre end-to-end Latenzen zu minimieren. Autellix fängt LLM-Aufrufe ab, die von Programmen übermittelt werden, und bereichert Scheduler mit programmbezogenem Kontext. Wir schlagen zwei Scheduling-Algorithmen vor – für Single-Thread- und verteilte Programme –, die LLM-Aufrufe basierend auf den zuvor abgeschlossenen Aufrufen ihrer Programme unterbrechen und priorisieren. Unsere Auswertung zeigt, dass Autellix bei verschiedenen LLMs und agentenbasierten Workloads den Durchsatz von Programmen bei gleicher Latenz im Vergleich zu state-of-the-art Systemen wie vLLM um das 4- bis 15-fache verbessert.
Supervised Fine-Tuning (SFT) hat sich als eine bewährte und effektive Methode erwiesen, um die langkettige Denkfähigkeit (Chain-of-Thought, CoT) in relativ kleinen Large Language Models (LLMs) zu verbessern, indem sie mit langen CoT-Antworten von größeren LLMs feinabgestimmt werden. Um die Denkfähigkeiten kontinuierlich zu steigern, können wir entweder neue hochwertige lange CoT-SFT-Daten sammeln oder wiederholt mit bestehenden SFT-Datensätzen trainieren. Allerdings ist die Beschaffung neuer langer CoT-SFT-Daten kostspielig und begrenzt, während wiederholtes Training oft zu einem Leistungsplateau oder -rückgang führt. Um die Leistung mit den SFT-Daten weiter zu steigern, schlagen wir Thinking Preference Optimization (ThinkPO) vor, eine einfache, aber effektive Methode nach dem SFT, die die lange CoT-Denkfähigkeit verbessert, ohne neue lange CoT-Antworten zu benötigen. Stattdessen nutzt ThinkPO leicht verfügbare oder einfach zu beschaffende kurze CoT-Antworten als abgelehnte Antworten und lange CoT-Antworten als ausgewählte Antworten für dieselbe Frage. Anschließend wird Direct Preference Optimization angewendet, um das Modell dazu zu ermutigen, längere Denkausgaben zu bevorzugen. Experimente zeigen, dass ThinkPO die Denkleistung von SFT-modellierten Modellen weiter verbessert, z.B. steigert es die mathematische Denkgenauigkeit von SFT-modellierten Modellen um 8,6 % und die Ausgabelänge um 25,9 %. Bemerkenswert ist, dass ThinkPO in der Lage ist, die Leistung des öffentlich destillierten SFT-Modells kontinuierlich zu steigern, z.B. erhöht es die offizielle Leistung von DeepSeek-R1-Distill-Qwen-7B auf MATH500 von 87,4 % auf 91,2 %.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in allgemeinen Bereichen gezeigt, stoßen jedoch oft bei Aufgaben an ihre Grenzen, die spezialisiertes Wissen erfordern. Herkömmliche Retrieval-Augmented Generation (RAG)-Techniken greifen typischerweise auf externe Informationen aus statischen Wissensdatenbanken zurück, die veraltet oder unvollständig sein können und fein abgestufte klinische Details vermissen, die für eine genaue Beantwortung medizinischer Fragen entscheidend sind. In dieser Arbeit schlagen wir SearchRAG vor, ein neuartiges Framework, das diese Einschränkungen durch die Nutzung von Echtzeit-Suchmaschinen überwindet. Unser Ansatz verwendet synthetische Abfragegenerierung, um komplexe medizinische Fragen in suchmaschinenfreundliche Abfragen umzuwandeln, und nutzt unsicherheitsbasierte Wissensselektion, um das relevanteste und informativste medizinische Wissen zu filtern und in die Eingabe des LLM zu integrieren. Experimentelle Ergebnisse zeigen, dass unsere Methode die Antwortgenauigkeit bei medizinischen Frage-Antwort-Aufgaben erheblich verbessert, insbesondere bei komplexen Fragen, die detailliertes und aktuelles Wissen erfordern.
Große Sprachmodelle (LLMs) haben die natürliche Sprachverarbeitung durch außergewöhnliche Fähigkeiten zur Aufgabenverallgemeinerung erheblich vorangetrieben. Low-Rank Adaption (LoRA) bietet eine kosteneffiziente Lösung für das Feinabstimmen, indem die ursprünglichen Modellparameter eingefroren und nur leichte, niedrigrangige Adaptermatrizen trainiert werden. Allerdings wird der Speicherbedarf von LoRA weitgehend von den ursprünglichen Modellparametern dominiert. Um dies zu mildern, schlagen wir LoRAM vor, ein speichereffizientes LoRA-Trainingsschema, das auf der Intuition basiert, dass viele Neuronen in überparametrisierten LLMs einen geringen Trainingsnutzen haben, aber für die Inferenz unerlässlich sind. LoRAM bietet eine einzigartige Wendung: Es trainiert auf einem beschnittenen (kleinen) Modell, um beschnittene niedrigrangige Matrizen zu erhalten, die dann wiederhergestellt und mit dem ursprünglichen (großen) Modell für die Inferenz genutzt werden. Zusätzlich wird eine minimal kostspielige kontinuierliche Vorabschulung, die von den Modellherausgebern im Voraus durchgeführt wird, verwendet, um die Wissensdiskrepanz zwischen beschnittenen und ursprünglichen Modellen auszugleichen. Unsere umfangreichen Experimente demonstrieren die Wirksamkeit von LoRAM über verschiedene Beschnittstrategien und nachgelagerte Aufgaben hinweg. Für ein Modell mit 70 Milliarden Parametern ermöglicht LoRAM das Training auf einer GPU mit nur 20G HBM, wodurch eine A100-80G GPU für das LoRA-Training und 15 GPUs für das vollständige Feinabstimmen ersetzt werden. Insbesondere reduziert QLoRAM, das durch strukturiertes Beschneiden in Kombination mit 4-Bit-Quantisierung implementiert wird, für LLaMA-3.1-70B (LLaMA-2-70B) die Speicherkosten für die Parameter, die den Speicherverbrauch beim Training niedrigrangiger Matrizen dominieren, um das 15,81-fache (16,95-fache), während es dominante Leistungssteigerungen gegenüber dem ursprünglichen LLaMA-3.1-70B (LLaMA-2-70B) und dem LoRA-trainierten LLaMA-3.1-8B (LLaMA-2-13B) erzielt.
Namen sind eng mit der menschlichen Identität verbunden. Sie können als Marker für Individualität, kulturelles Erbe und persönliche Geschichte dienen. Die Verwendung von Namen als zentraler Indikator für Identität kann jedoch zu einer Übervereinfachung komplexer Identitäten führen. Bei der Interaktion mit großen Sprachmodellen (LLMs) sind Benutzernamen ein wichtiger Informationspunkt für die Personalisierung. Namen können in Chatbot-Gespräche durch direkte Benutzereingaben (die von Chatbots angefordert werden), als Teil von Aufgabenkontexten wie Lebenslaufprüfungen oder als integrierte Speicherfunktionen, die Benutzerinformationen für die Personalisierung speichern, einfließen. Wir untersuchen Vorurteile im Zusammenhang mit Namen, indem wir kulturelle Annahmen in den Antworten messen, die von LLMs generiert werden, wenn sie mit gängigen, ratsuchenden Anfragen konfrontiert werden, die möglicherweise Annahmen über den Benutzer beinhalten. Unsere Analysen zeigen starke Annahmen über die kulturelle Identität, die mit Namen in den Generationen von LLMs über verschiedene Kulturen hinweg verbunden sind. Unsere Arbeit hat Auswirkungen auf die Gestaltung differenzierterer Personalisierungssysteme, die Stereotype nicht verstärken, während sie gleichzeitig eine sinnvolle Anpassung beibehalten.
Die Sicherheitsausrichtung großer Sprachmodelle (LLMs) bleibt anfällig, da ihr anfängliches Verhalten selbst durch relativ einfache Angriffe leicht umgangen werden kann. Da das Einfügen einer festen Vorlage zwischen der Eingabeanweisung und der anfänglichen Modellausgabe eine gängige Praxis bei bestehenden LLMs ist, stellen wir die Hypothese auf, dass diese Vorlage ein Schlüsselfaktor für ihre Anfälligkeiten ist: Die sicherheitsbezogene Entscheidungsfindung von LLMs stützt sich übermäßig auf die aggregierten Informationen aus dem Vorlagenbereich, was das Sicherheitsverhalten dieser Modelle maßgeblich beeinflusst. Wir bezeichnen dieses Problem als vorlagenverankerte Sicherheitsausrichtung. In diesem Artikel führen wir umfangreiche Experimente durch und bestätigen, dass vorlagenverankerte Sicherheitsausrichtung bei verschiedenen ausgerichteten LLMs weit verbreitet ist. Unsere mechanistischen Analysen zeigen, wie dies die Anfälligkeit der Modelle bei Inferenzzeit-Angriffen zur Umgehung der Sicherheitsmechanismen verursacht. Darüber hinaus zeigen wir, dass die Trennung der Sicherheitsmechanismen vom Vorlagenbereich vielversprechend ist, um die Anfälligkeit für solche Angriffe zu verringern. Wir ermutigen zukünftige Forschungen, robustere Sicherheitsausrichtungstechniken zu entwickeln, die die Abhängigkeit vom Vorlagenbereich reduzieren.
Aktuelle Ansätze für das Training von Process Reward Models (PRMs) beinhalten häufig das Aufteilen von Antworten in mehrere Denkschritte mithilfe regelbasierter Techniken, wie die Verwendung vordefinierter Platzhalter-Tokens oder das Festlegen der Länge der Denkschritte auf eine feste Größe. Diese Ansätze übersehen die Tatsache, dass spezifische Wörter typischerweise keine echten Entscheidungspunkte in einem Text markieren. Um dies zu adressieren, schlagen wir AdaptiveStep vor, eine Methode, die Denkschritte basierend auf dem Vertrauen des Modells in die Vorhersage des nächsten Wortes aufteilt. Diese Aufteilungsmethode liefert mehr Entscheidungsinformationen in jedem Schritt und verbessert nachgelagerte Aufgaben, wie das Lernen von Belohnungsmodellen. Darüber hinaus erfordert unsere Methode keine manuelle Annotation. Wir demonstrieren ihre Wirksamkeit durch Experimente mit AdaptiveStep-trainierten PRMs in mathematischen Denkaufgaben und Code-Generierungsaufgaben. Die experimentellen Ergebnisse zeigen, dass das resultierende PRM eine state-of-the-art Best-of-N-Leistung erzielt und die Greedy-Search-Strategie mit token-level-wertgesteuerter Dekodierung übertrifft, während gleichzeitig die Konstruktionskosten um über 30 % im Vergleich zu bestehenden Open-Source-PRMs reduziert werden. Zusätzlich bieten wir eine umfassende Analyse und Fallstudie zur Leistung, Übertragbarkeit und Generalisierungsfähigkeit des PRMs.
Die Generierung von 3D-Molekülen ist entscheidend für die Arzneimittelentdeckung und das Materialdesign. Während sich frühere Bemühungen auf 3D-Diffusionsmodelle konzentrierten, um die Vorteile bei der Modellierung kontinuierlicher 3D-Konformere zu nutzen, wurden die Vorteile von 1D-SELFIES-basierten Sprachmodellen (LMs) übersehen, die 100 % gültige Moleküle generieren und auf milliardenschwere 1D-Moleküldatensätze zurückgreifen können. Um diese Vorteile für die 3D-Molekülgenerierung zu kombinieren, schlagen wir ein Grundlagenmodell vor – NExT-Mol: 3D-Diffusion trifft auf 1D-Sprachmodellierung für die 3D-Molekülgenerierung. NExT-Mol verwendet ein umfangreich vortrainiertes Molekül-LM für die 1D-Molekülgenerierung und sagt anschließend die 3D-Konformere des generierten Moleküls mit einem 3D-Diffusionsmodell vorher. Wir verbessern die Leistung von NExT-Mol, indem wir die Modellgröße des LMs skalieren, die neuronale Architektur der Diffusion verfeinern und 1D-zu-3D-Transferlernen anwenden. Bemerkenswerterweise übertrifft unser 1D-Molekül-LM die Baselines deutlich in der Verteilungsähnlichkeit, während es gleichzeitig die Gültigkeit sicherstellt, und unser 3D-Diffusionsmodell erzielt führende Leistungen bei der Konformer-Vorhersage. Angesichts dieser Verbesserungen in der 1D- und 3D-Modellierung erreicht NExT-Mol eine relative Verbesserung von 26 % im 3D-FCD für die de novo 3D-Generierung auf GEOM-DRUGS und einen durchschnittlichen relativen Gewinn von 13 % für die bedingte 3D-Generierung auf QM9-2014. Unsere Codes und vortrainierten Checkpoints sind unter https://github.com/acharkq/NExT-Mol verfügbar.
Große Sprachmodelle (LLMs) und multimodale große Sprachmodelle (MLLMs) haben bedeutende Fortschritte in ihren Fähigkeiten zum logischen Schlussfolgern erzielt. Dennoch stehen sie weiterhin vor Herausforderungen wie hohem Rechenaufwand und Datenschutzbedenken. Dieses Papier konzentriert sich auf die Entwicklung effizienter kleiner Sprachmodelle (SLMs) und multimodaler kleiner Sprachmodelle (MSLMs), die wettbewerbsfähige Fähigkeiten zum logischen Schlussfolgern beibehalten. Wir stellen eine neuartige Trainingspipeline vor, die die Fähigkeiten zum logischen Schlussfolgern verbessert und die Bereitstellung auf Edge-Geräten erleichtert, wodurch state-of-the-art Leistung bei minimalen Entwicklungskosten erreicht wird. \InfR~ zielt darauf ab, KI-Systeme voranzubringen, indem die Fähigkeiten zum logischen Schlussfolgern verbessert, die Einführungshürden verringert und Datenschutzbedenken durch kleinere Modellgrößen adressiert werden. Ressourcen sind verfügbar unter https://github.com/Reallm-Labs/InfiR.
Maschinelles Lernen, die Grundlage der modernen künstlichen Intelligenz, hat Innovationen vorangetrieben, die die Welt grundlegend verändert haben. Doch hinter diesen Fortschritten verbirgt sich ein komplexer und oft mühsamer Prozess, der arbeits- und rechenintensive Iterationen und Experimente erfordert. Ingenieure und Wissenschaftler, die maschinelle Lernmodelle entwickeln, verbringen einen Großteil ihrer Zeit mit Trial-and-Error-Aufgaben, anstatt innovative Lösungen oder Forschungshypothesen zu konzipieren. Um diese Herausforderung zu bewältigen, stellen wir AI-Driven Exploration (AIDE) vor, einen maschinellen Lern-Engineering-Agenten, der von großen Sprachmodellen (LLMs) angetrieben wird. AIDE betrachtet maschinelles Lern-Engineering als ein Code-Optimierungsproblem und formuliert Trial-and-Error als eine Baumsuche im Raum der möglichen Lösungen. Durch strategisches Wiederverwenden und Verfeinern vielversprechender Lösungen tauscht AIDE effektiv Rechenressourcen gegen verbesserte Leistung ein und erzielt state-of-the-art Ergebnisse in mehreren maschinellen Lern-Engineering-Benchmarks, einschließlich unserer Kaggle-Bewertungen, OpenAI MLE-Bench und METRs RE-Bench.
Wir stellen TESS 2 vor, ein allgemeines, befehlsfolgendes Diffusions-Sprachmodell, das zeitgenössische, befehlsoptimierte Diffusionsmodelle übertrifft und mit starken autoregressiven (AR) Modellen gleichzieht oder diese manchmal sogar übertrifft. Wir trainieren TESS 2, indem wir zunächst ein leistungsstarkes AR-Modell durch fortgesetztes Vortraining mit der üblichen Kreuzentropie als Diffusionsverlust anpassen und anschließend eine weitere Befehloptimierung durchführen. Wir stellen fest, dass sowohl das Anpassungstraining als auch die Wahl des Basismodells entscheidend für das Training guter, befehlsfolgender Diffusionsmodelle sind. Darüber hinaus schlagen wir Reward Guidance vor, ein neuartiges und modulares Inferenzzeit-Leitverfahren, um Modellausgaben auszurichten, ohne das zugrunde liegende Modell trainieren zu müssen. Schließlich zeigen wir, dass TESS 2 mit erhöhter Inferenzzeit-Rechenleistung weiter verbessert wird, was den Nutzen von Diffusions-Sprachmodellen bei der fein abgestuften Steuerung der zur Inferenzzeit verwendeten Rechenleistung unterstreicht. Code und Modelle sind unter https://github.com/hamishivi/tess-2 verfügbar.
Langfristige, domänenübergreifende Dialogfähigkeiten sind entscheidend für Chatbots, die vergangene Interaktionen abrufen und emotionale Intelligenz (EI) demonstrieren sollen. Dennoch stützt sich die meisten bestehenden Forschung auf synthetische, von LLM generierte Daten, was Fragen zu realen Gesprächsmustern offenlässt. Um diese Lücke zu schließen, stellen wir REALTALK vor, ein 21-tägiges Korpus authentischer Messaging-App-Dialoge, das einen direkten Benchmark für echte menschliche Interaktionen bietet. Zunächst führen wir eine Datenanalyse durch, die sich auf EI-Attribute und Personenkonsistenz konzentriert, um die einzigartigen Herausforderungen realer Dialoge zu verstehen. Durch den Vergleich mit LLM-generierten Gesprächen heben wir wesentliche Unterschiede hervor, darunter vielfältige emotionale Ausdrucksformen und Schwankungen in der Personenstabilität, die synthetische Dialoge oft nicht erfassen. Aufbauend auf diesen Erkenntnissen führen wir zwei Benchmark-Aufgaben ein: (1) Personensimulation, bei der ein Modell ein Gespräch im Namen eines bestimmten Nutzers basierend auf vorherigem Dialogkontext fortsetzt; und (2) Gedächtnisabfrage, bei der ein Modell gezielte Fragen beantwortet, die ein Langzeitgedächtnis vergangener Interaktionen erfordern. Unsere Ergebnisse zeigen, dass Modelle Schwierigkeiten haben, einen Nutzer allein aus dem Dialogverlauf zu simulieren, während das Fine-Tuning auf spezifische Nutzerchats die Personennachahmung verbessert. Darüber hinaus stehen bestehende Modelle vor erheblichen Herausforderungen, wenn es darum geht, langfristigen Kontext in realen Gesprächen abzurufen und zu nutzen.
Die Verwendung von Large Language Models (LLMs) für Relevanzbewertungen bietet vielversprechende Möglichkeiten, die Informationsbeschaffung (Information Retrieval, IR), die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) und verwandte Bereiche zu verbessern. Tatsächlich besteht die Aussicht, dass LLMs es IR-Experimentatoren ermöglichen, Evaluierungssammlungen mit einem Bruchteil der derzeit erforderlichen manuellen menschlichen Arbeit zu erstellen. Dies könnte bei neuen Themen, zu denen noch begrenztes Wissen vorliegt, hilfreich sein und die Herausforderungen bei der Bewertung von Ranking-Systemen in ressourcenarmen Szenarien mildern, in denen es schwierig ist, menschliche Annotatoren zu finden. Angesichts der rasanten Entwicklungen in diesem Bereich sind viele Fragen bezüglich LLMs als Bewerter noch unbeantwortet. Zu den Aspekten, die weiterer Untersuchung bedürfen, gehören die Auswirkungen verschiedener Komponenten in einer Pipeline zur Generierung von Relevanzurteilen, wie z. B. der verwendete Prompt oder das gewählte LLM. Dieses Paper präsentiert und bewertet die Ergebnisse einer groß angelegten automatischen Relevanzurteilsbewertung, der LLMJudge-Challenge bei SIGIR 2024, bei der verschiedene Ansätze zur Relevanzbewertung vorgeschlagen wurden. Im Detail veröffentlichen und bewerten wir 42 LLM-generierte Labels der Relevanzurteile des TREC 2023 Deep Learning Tracks, die von acht internationalen Teams erstellt wurden, die an der Challenge teilgenommen haben. Aufgrund ihrer vielfältigen Natur können diese automatisch generierten Relevanzurteile der Gemeinschaft nicht nur dabei helfen, systematische Verzerrungen durch LLMs zu untersuchen, sondern auch die Effektivität von Ensemble-Modellen zu erforschen, die Kompromisse zwischen verschiedenen Modellen und menschlichen Bewertern zu analysieren und Methoden zur Verbesserung automatisierter Evaluierungstechniken voranzutreiben. Die veröffentlichte Ressource ist unter folgendem Link verfügbar: https://llm4eval.github.io/LLMJudge-benchmark/
Große Sprachmodelle (LLMs) werden zunehmend in Arbeitsumgebungen für eine Vielzahl von Aufgaben eingesetzt und zeichnen sich durch die Lösung individueller Probleme in Isolation aus. Doch sind sie auch in der Lage, effektiv über langfristige Interaktionen hinweg zusammenzuarbeiten? Um dies zu untersuchen, stellen wir MemoryCode vor, einen synthetischen Multi-Session-Datensatz, der entwickelt wurde, um die Fähigkeit von LLMs zu testen, einfache Programmieranweisungen inmitten irrelevanter Informationen zu verfolgen und auszuführen, wodurch eine realistische Umgebung simuliert wird. Während alle von uns getesteten Modelle isolierte Anweisungen gut bewältigen, verschlechtert sich die Leistung selbst bei state-of-the-art-Modellen wie GPT-4o, wenn Anweisungen über mehrere Sitzungen verteilt sind. Unsere Analyse deutet darauf hin, dass dies auf ihr Versagen zurückzuführen ist, Informationen über lange Anweisungsketten hinweg abzurufen und zu integrieren. Unsere Ergebnisse verdeutlichen eine grundlegende Einschränkung aktueller LLMs, die ihre Fähigkeit zur effektiven Zusammenarbeit in langen Interaktionen begrenzt.
Generative Recommendation (GR) ist ein aufstrebendes Paradigma, bei dem Benutzeraktionen in diskrete Token-Muster tokenisiert und autoregressiv als Vorhersagen generiert werden. Bisherige GR-Modelle tokenisieren jedoch jede Aktion unabhängig und weisen identischen Aktionen in allen Sequenzen dieselben festen Token zu, ohne kontextuelle Beziehungen zu berücksichtigen. Dieser Mangel an Kontextbewusstsein kann zu suboptimalen Ergebnissen führen, da dieselbe Aktion je nach umgebendem Kontext unterschiedliche Bedeutungen haben kann. Um dieses Problem zu lösen, schlagen wir ActionPiece vor, das den Kontext explizit bei der Tokenisierung von Aktionssequenzen einbezieht. In ActionPiece wird jede Aktion als eine Menge von Item-Features dargestellt, die als initiale Token dienen. Basierend auf den Aktionssequenz-Korpora erstellen wir das Vokabular, indem wir Feature-Muster basierend auf ihrer gemeinsamen Auftrittshäufigkeit sowohl innerhalb einzelner Mengen als auch über benachbarte Mengen hinweg als neue Token zusammenführen. Aufgrund der ungeordneten Natur von Feature-Mengen führen wir zusätzlich eine Set-Permutationsregularisierung ein, die mehrere Segmentierungen von Aktionssequenzen mit derselben Semantik erzeugt. Experimente auf öffentlichen Datensätzen zeigen, dass ActionPiece bestehende Methoden zur Aktions-Tokenisierung durchweg übertrifft und NDCG@10 um 6,00 % bis 12,82 % verbessert.
Halluzinationen in den Ausgaben großer Sprachmodelle (LLMs) schränken deren Zuverlässigkeit bei wissensintensiven Aufgaben wie der Beantwortung von Fragen erheblich ein. Um diese Herausforderung zu bewältigen, stellen wir REFIND (Retrieval-augmented Factuality HallucINation Detection) vor, ein neuartiges Framework, das halluzinierte Textabschnitte in LLM-Ausgaben durch die direkte Nutzung von abgerufenen Dokumenten erkennt. Als Teil von REFIND schlagen wir das Context Sensitivity Ratio (CSR) vor, eine neue Metrik, die die Empfindlichkeit von LLM-Ausgaben gegenüber abgerufenen Belegen quantifiziert. Dieser innovative Ansatz ermöglicht es REFIND, Halluzinationen effizient und präzise zu erkennen, wodurch es sich von bestehenden Methoden abhebt. In der Evaluierung zeigte REFIND Robustheit über neun Sprachen hinweg, einschließlich ressourcenarmer Umgebungen, und übertraf Baseline-Modelle deutlich, indem es überlegene IoU-Werte bei der Identifizierung von halluzinierten Textabschnitten erzielte. Diese Arbeit unterstreicht die Effektivität der Quantifizierung von Kontextempfindlichkeit für die Halluzinationserkennung und ebnet so den Weg für zuverlässigere und vertrauenswürdigere LLM-Anwendungen in verschiedenen Sprachen.
Multiple-Choice-Fragebeantwortung (MCQA) ist aufgrund ihrer Einfachheit und der menschenähnlichen Testgestaltung beliebt für die Bewertung von großen Sprachmodellen (LLMs), doch wir plädieren für eine Reform. Zunächst decken wir Schwächen im MCQA-Format auf, da es Schwierigkeiten hat: 1) Generierung/Subjektivität zu testen; 2) Anwendungsfälle von LLMs abzubilden; und 3) Wissen umfassend zu prüfen. Stattdessen befürworten wir generative Formate, die auf menschlichen Testmethoden basieren – bei denen LLMs Antworten konstruieren und erklären – und so die Bedürfnisse der Nutzer sowie das Wissen besser erfassen, während sie dennoch einfach auswertbar bleiben. Anschließend zeigen wir, dass selbst wenn MCQA ein nützliches Format ist, ihre Datensätze unter folgenden Problemen leiden: Datenlecks; Unbeantwortbarkeit; Abkürzungen; und Sättigung. Für jedes Problem bieten wir Lösungen aus dem Bildungsbereich an, wie Bewertungsraster zur Anleitung der MCQ-Erstellung; Bewertungsmethoden, um Raten einzudämmen; und Item-Response-Theorie, um schwierigere MCQs zu erstellen. Schließlich diskutieren wir LLM-Fehler in MCQA – Robustheit, Verzerrungen und unzuverlässige Erklärungen – und zeigen, wie unsere zuvor genannten Lösungen diese Probleme besser messen oder angehen. Obwohl wir MCQA nicht vollständig aufgeben müssen, ermutigen wir zu mehr Bemühungen, die Aufgabe basierend auf Bildungstests zu verfeinern und so die Bewertungen voranzutreiben.
Große Vision-Sprach-Modelle (LVLMs) haben in letzter Zeit aufgrund ihrer bemerkenswerten Leistung und breiten Anwendbarkeit Aufmerksamkeit erregt. Obwohl bereits gezeigt wurde, dass ihre Wirksamkeit in Anwendungsszenarien mit nicht-westlichen Kontexten begrenzt ist, sind bestehende Studien in ihrem Umfang eingeschränkt, da sie nur eine begrenzte Anzahl von Kulturen abdecken, sich ausschließlich auf eine kleine Auswahl kultureller Aspekte konzentrieren oder nur eine begrenzte Auswahl von Modellen in einer einzigen Aufgabe bewerten. Im Hinblick auf eine global inklusive LVLM-Forschung stellen wir GIMMICK vor, einen umfangreichen multimodalen Benchmark, der entwickelt wurde, um ein breites Spektrum an kulturellem Wissen über 144 Länder, die sechs globale Makroregionen repräsentieren, zu bewerten. GIMMICK umfasst sechs Aufgaben, die auf drei neuen Datensätzen basieren, die 728 einzigartige kulturelle Ereignisse oder Facetten abdecken, auf denen wir 20 LVLMs und 11 LLMs, darunter fünf proprietäre und 26 Open-Weight-Modelle aller Größen, evaluiert haben. Wir untersuchen systematisch (1) regionale kulturelle Verzerrungen, (2) den Einfluss der Modellgröße, (3) Eingabemodalitäten und (4) externe Hinweise. Unsere Analysen zeigen starke Verzerrungen zugunsten westlicher Kulturen über Modelle und Aufgaben hinweg und heben starke Korrelationen zwischen Modellgröße und Leistung sowie die Wirksamkeit multimodaler Eingaben und externer geografischer Hinweise hervor. Weiterhin stellen wir fest, dass Modelle mehr Wissen über greifbare als über nicht greifbare Aspekte haben (z. B. Essen vs. Rituale) und dass sie bei der Erkennung breiter kultureller Ursprünge gut abschneiden, aber mit einem differenzierteren Verständnis Schwierigkeiten haben.
Bestehende multilinguale Vision-Language (VL)-Benchmarks decken oft nur eine Handvoll Sprachen ab. Folglich zielen Evaluierungen von großen Vision-Language-Modellen (LVLMs) überwiegend auf Hochressourcensprachen ab, was den Bedarf an Evaluierungsdaten für Niedrigressourcensprachen unterstreicht. Um diese Einschränkung zu beheben, stellen wir MVL-SIB vor, einen massiv multilingualen Vision-Language-Benchmark, der sowohl cross-modales als auch rein textbasiertes Themen-Matching über 205 Sprachen hinweg evaluiert – mehr als 100 Sprachen mehr als die bisher umfassendsten multilingualen VL-Benchmarks. Anschließend benchmarken wir eine Reihe von Open-Weight-LVLMs zusammen mit GPT-4o(-mini) auf MVL-SIB. Unsere Ergebnisse zeigen, dass LVLMs bei cross-modalem Themen-Matching in Niedrigressourcensprachen Schwierigkeiten haben und bei Sprachen wie N'Koo nicht besser als zufällig abschneiden. Unsere Analyse zeigt weiterhin, dass die VL-Unterstützung in LVLMs im Vergleich zur textuellen Unterstützung für Niedrigressourcensprachen unverhältnismäßig stark abnimmt, was durch den Vergleich der Leistung bei cross-modalem und rein textbasiertem Themen-Matching belegt wird. Wir beobachten außerdem, dass Open-Weight-LVLMs nicht davon profitieren, ein Thema mit mehr als einem Bild darzustellen, was darauf hindeutet, dass diese Modelle noch nicht vollständig effektiv im Umgang mit Multi-Image-Aufgaben sind. Indem wir die Leistung auf MVL-SIB mit anderen multilingualen VL-Benchmarks korrelieren, heben wir hervor, dass MVL-SIB als umfassende Sonde für das multilinguale VL-Verständnis in LVLMs dient.
Trotz jüngster Fortschritte in der Synthese neuer Ansichten (Novel View Synthesis, NVS) bleibt die Erzeugung hochwertiger Ansichten aus einzelnen oder spärlichen Beobachtungen eine erhebliche Herausforderung. Bestehende, auf Splatting basierende Ansätze erzeugen oft verzerrte Geometrien aufgrund von Splatting-Fehlern. Während diffusionsbasierte Methoden reichhaltige 3D-Priors nutzen, um eine verbesserte Geometrie zu erreichen, leiden sie häufig unter Texturhalluzinationen. In diesem Artikel stellen wir SplatDiff vor, ein pixel-splatting-gesteuertes Video-Diffusionsmodell, das darauf ausgelegt ist, hochwertige neue Ansichten aus einem einzelnen Bild zu synthetisieren. Insbesondere schlagen wir eine ausgerichtete Synthesestrategie vor, um eine präzise Steuerung der Zielansichten und eine geometriekonsistente Ansichtssynthese zu ermöglichen. Um Texturhalluzinationen zu minimieren, entwerfen wir ein Texturbrückenmodul, das eine hochwertige Texturgenerierung durch adaptive Feature-Fusion ermöglicht. Auf diese Weise nutzt SplatDiff die Stärken von Splatting und Diffusion, um neue Ansichten mit konsistenter Geometrie und hochwertigen Details zu erzeugen. Umfangreiche Experimente bestätigen die state-of-the-art Leistung von SplatDiff in der Einzelansicht-NVS. Darüber hinaus zeigt SplatDiff ohne zusätzliches Training bemerkenswerte Zero-Shot-Leistungen in verschiedenen Aufgaben, darunter spärliche Ansicht-NVS und Stereo-Videokonvertierung.
Semi-supervised Heterogeneous Domain Adaptation (SHDA) befasst sich mit dem Lernen über Domänen hinweg, die unterschiedliche Merkmalsdarstellungen und Verteilungen aufweisen, wobei die Quellstichproben beschriftet sind, während die meisten Zielstichproben unbeschriftet sind, mit nur einem kleinen Anteil an beschrifteten Stichproben. Darüber hinaus besteht keine Eins-zu-eins-Entsprechung zwischen Quell- und Zielstichproben. Obwohl verschiedene SHDA-Methoden entwickelt wurden, um dieses Problem zu lösen, bleibt die Natur des über heterogene Domänen übertragenen Wissens unklar. Diese Arbeit geht dieser Frage aus einer empirischen Perspektive nach. Wir führen umfangreiche Experimente zu etwa 330 SHDA-Aufgaben durch, wobei wir zwei überwachte Lernmethoden und sieben repräsentative SHDA-Methoden verwenden. Überraschenderweise zeigen unsere Beobachtungen, dass weder die Kategorie- noch die Merkmalsinformation der Quellstichproben die Leistung der Zieldomäne signifikant beeinflussen. Zudem kann Rauschen, das aus einfachen Verteilungen gezogen wird, wenn es als Quellstichproben verwendet wird, übertragbares Wissen enthalten. Basierend auf dieser Erkenntnis führen wir eine Reihe von Experimenten durch, um die zugrunde liegenden Prinzipien des übertragbaren Wissens in SHDA aufzudecken. Insbesondere entwerfen wir ein einheitliches Knowledge Transfer Framework (KTF) für SHDA. Auf der Grundlage des KTF stellen wir fest, dass das übertragbare Wissen in SHDA hauptsächlich aus der Übertragbarkeit und Unterscheidbarkeit der Quelldomäne stammt. Folglich kann die Sicherstellung dieser Eigenschaften in Quellstichproben, unabhängig von ihrer Herkunft (z. B. Bild, Text, Rauschen), die Effektivität der Wissensübertragung in SHDA-Aufgaben verbessern. Die Codes und Datensätze sind unter https://github.com/yyyaoyuan/SHDA verfügbar.
Die Fähigkeit, SPARQL-Abfragen aus natürlichen Sprachfragen zu generieren, ist entscheidend für die effiziente und genaue Abfrage strukturierter Daten aus Wissensgraphen (KG). Obwohl große Sprachmodelle (LLMs) weit verbreitet für die Generierung von SPARQL-Abfragen eingesetzt werden, sind sie oft anfällig für Halluzinationen und Fehler außerhalb der Verteilung, wenn sie KG-Elemente wie Uniform Resource Identifiers (URIs) basierend auf internem parametrischem Wissen erzeugen. Dies führt häufig zu Inhalten, die plausibel erscheinen, aber faktisch falsch sind, was erhebliche Herausforderungen für ihren Einsatz in realen Anwendungen zur Informationsbeschaffung (IR) darstellt. Dies hat zu verstärkter Forschung geführt, die darauf abzielt, solche Fehler zu erkennen und zu mindern. In diesem Artikel stellen wir PGMR (Post-Generation Memory Retrieval) vor, ein modulares Framework, das ein nicht-parametrisches Speichermodul integriert, um KG-Elemente abzurufen und die LLM-basierte SPARQL-Abfragegenerierung zu verbessern. Unsere experimentellen Ergebnisse zeigen, dass PGMR durchweg starke Leistungen über verschiedene Datensätze, Datenverteilungen und LLMs hinweg liefert. Besonders hervorzuheben ist, dass PGMR URI-Halluzinationen signifikant reduziert und das Problem in mehreren Szenarien nahezu vollständig beseitigt.