Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Methoden vor, um zu quantifizieren, wie Large Language Models (LLMs) kontextuelle Informationen kodieren und speichern. Dabei zeigt sich, dass Token, die oft als unbedeutend angesehen werden (z. B. Artikel, Satzzeichen), überraschend viel Kontext tragen. Bemerkenswerterweise führt das Entfernen dieser Token – insbesondere von Stoppwörtern, Artikeln und Kommas – zu einer konsistenten Verschlechterung der Leistung bei MMLU und BABILong-4k, selbst wenn nur irrelevante Token entfernt werden. Unsere Analyse zeigt auch eine starke Korrelation zwischen Kontextualisierung und Linearität, wobei Linearität misst, wie gut die Transformation von den Embeddings einer Schicht zur nächsten durch eine einzelne lineare Abbildung approximiert werden kann. Diese Erkenntnisse unterstreichen die verborgene Bedeutung von Füll-Token für die Aufrechterhaltung des Kontexts. Zur weiteren Untersuchung präsentieren wir LLM-Microscope, ein Open-Source-Toolkit, das Token-Level-Nichtlinearität bewertet, kontextuelles Gedächtnis analysiert, Beiträge von Zwischenschichten visualisiert (über eine angepasste Logit Lens) und die intrinsische Dimensionalität von Repräsentationen misst. Dieses Toolkit verdeutlicht, wie scheinbar triviale Token für das langfristige Verständnis entscheidend sein können.
Große Sprachmodelle (LLMs) haben außergewöhnliche Verständnisfähigkeiten und eine umfangreiche Wissensbasis demonstriert, was darauf hindeutet, dass LLMs als effiziente Werkzeuge für die automatisierte Erstellung von Umfragen dienen können. Allerdings ist die aktuelle Forschung im Bereich der automatisierten Umfragenerstellung durch einige kritische Einschränkungen wie ein begrenztes Kontextfenster, das Fehlen von tiefgehenden Inhaltsdiskussionen und das Fehlen systematischer Evaluierungsrahmen eingeschränkt. Inspiriert von menschlichen Schreibprozessen schlagen wir SurveyX vor, ein effizientes und strukturiertes System für die automatisierte Erstellung von Umfragen, das den Prozess der Umfrageerstellung in zwei Phasen unterteilt: die Vorbereitungs- und die Generierungsphase. Durch die innovative Einführung von Online-Referenzrecherche, einer Vorverarbeitungsmethode namens AttributeTree und einem Nachbearbeitungsprozess verbessert SurveyX die Effizienz der Umfrageerstellung erheblich. Experimentelle Evaluierungsergebnisse zeigen, dass SurveyX bestehende Systeme zur automatisierten Umfragenerstellung in Bezug auf die Inhaltsqualität (0,259 Verbesserung) und die Zitierqualität (1,76 Verbesserung) übertrifft und sich in mehreren Evaluierungsdimensionen der Leistung menschlicher Experten annähert. Beispiele für von SurveyX erstellte Umfragen sind auf www.surveyx.cn verfügbar.
Das Verständnis von Molekülen ist entscheidend, um Organismen zu verstehen und Fortschritte in der Wirkstoffentwicklung voranzutreiben, was interdisziplinäres Wissen aus Chemie und Biologie erfordert. Obwohl große molekulare Sprachmodelle beachtliche Erfolge bei der Interpretation von Molekülstrukturen erzielt haben, sind ihre Instruktionsdatensätze auf das spezifische Wissen aus aufgabenorientierten Datensätzen beschränkt und decken die grundlegenden Eigenschaften von Molekülen nicht vollständig ab, was ihre Fähigkeiten als allgemeine molekulare Assistenten einschränkt. Um dieses Problem zu lösen, schlagen wir Mol-LLaMA vor, ein großes molekulares Sprachmodell, das das allgemeine Wissen über Moleküle durch multimodales Instruktions-Tuning erfasst. Zu diesem Zweck entwerfen wir Schlüssel-Datentypen, die die grundlegenden Merkmale von Molekülen umfassen und wesentliches Wissen aus Molekülstrukturen einbeziehen. Darüber hinaus führen wir ein Modul ein, das komplementäre Informationen aus verschiedenen molekularen Encodern integriert, um die unterschiedlichen Vorteile verschiedener molekularer Darstellungen zu nutzen und das Verständnis molekularer Merkmale zu verbessern. Unsere experimentellen Ergebnisse zeigen, dass Mol-LLaMA in der Lage ist, die allgemeinen Merkmale von Molekülen zu verstehen und relevante Antworten auf Benutzeranfragen mit detaillierten Erklärungen zu generieren, was sein Potenzial als allgemeiner Assistent für die Molekülanalyse verdeutlicht.
Wir stellen PhotoDoodle vor, ein neuartiges Bildbearbeitungsframework, das entwickelt wurde, um das Fotodoodling zu erleichtern, indem es Künstlern ermöglicht, dekorative Elemente auf Fotos zu überlagern. Fotodoodling ist eine Herausforderung, da die eingefügten Elemente nahtlos in den Hintergrund integriert erscheinen müssen, was eine realistische Einbettung, Perspektivenausrichtung und kontextuelle Kohärenz erfordert. Zudem muss der Hintergrund ohne Verzerrung erhalten bleiben, und der einzigartige Stil des Künstlers muss effizient aus begrenzten Trainingsdaten erfasst werden. Diese Anforderungen werden von bisherigen Methoden, die sich hauptsächlich auf globalen Stiltransfer oder regionale Inpainting konzentrieren, nicht adressiert. Die vorgeschlagene Methode, PhotoDoodle, verwendet eine zweistufige Trainingsstrategie. Zunächst trainieren wir ein allgemeines Bildbearbeitungsmodell, OmniEditor, mit umfangreichen Daten. Anschließend verfeinern wir dieses Modell mit EditLoRA unter Verwendung eines kleinen, vom Künstler kuratierten Datensatzes von Vorher-Nachher-Bildpaaren, um spezifische Bearbeitungsstile und -techniken zu erfassen. Um die Konsistenz der generierten Ergebnisse zu verbessern, führen wir einen Mechanismus zur Wiederverwendung von Positionskodierungen ein. Zudem veröffentlichen wir einen PhotoDoodle-Datensatz mit sechs hochwertigen Stilen. Umfangreiche Experimente demonstrieren die fortgeschrittene Leistung und Robustheit unserer Methode in der individuellen Bildbearbeitung und eröffnen neue Möglichkeiten für künstlerische Kreationen.
Weltmodelle, die Umweltveränderungen aus Aktionen vorhersagen, sind entscheidend für autonome Fahrzeugmodelle mit starker Generalisierungsfähigkeit. Die vorherrschenden Fahrweltmodelle basieren hauptsächlich auf Videovorhersagemodellen. Obwohl diese Modelle mit fortschrittlichen, diffusionsbasierten Generatoren hochqualitative Videosequenzen erzeugen können, sind sie durch ihre Vorhersagedauer und ihre allgemeinen Generalisierungsfähigkeiten eingeschränkt. In diesem Artikel untersuchen wir, dieses Problem zu lösen, indem wir den Generierungsverlust mit MAE-artigem, featurebasiertem Kontextlernen kombinieren. Insbesondere konkretisieren wir dieses Ziel mit drei Schlüsseldesigns: (1) Eine skalierbarere Diffusion-Transformer (DiT)-Struktur, die mit einer zusätzlichen Maskenkonstruktionsaufgabe trainiert wird. (2) Wir entwickeln diffusionsbezogene Maskentoken, um die unscharfen Beziehungen zwischen Maskenrekonstruktion und generativem Diffusionsprozess zu behandeln. (3) Wir erweitern die Maskenkonstruktionsaufgabe auf den räumlich-zeitlichen Bereich, indem wir zeilenweise Masken für verschobene Selbstaufmerksamkeit anstelle von maskierter Selbstaufmerksamkeit in MAE verwenden. Anschließend passen wir ein zeilenweises Cross-View-Modul an dieses Maskendesign an. Basierend auf diesen Verbesserungen schlagen wir MaskGWM vor: ein generalisierbares Fahrweltmodell, das mit Videomaskenrekonstruktion ausgestattet ist. Unser Modell enthält zwei Varianten: MaskGWM-long, das sich auf langfristige Vorhersagen konzentriert, und MaskGWM-mview, das der multiview-Generierung gewidmet ist. Umfassende Experimente auf Standard-Benchmarks validieren die Effektivität der vorgeschlagenen Methode, die die normale Validierung des Nuscene-Datensatzes, die langfristige Rollout-Analyse des OpenDV-2K-Datensatzes und die Zero-Shot-Validierung des Waymo-Datensatzes umfasst. Quantitative Metriken auf diesen Datensätzen zeigen, dass unsere Methode den Stand der Technik bei Fahrweltmodellen deutlich verbessert.
Diese Arbeit identifiziert die Fehlinterpretation des Kontexts als ein bedeutendes Problem während des Denkprozesses großer Sprachmodelle, das von kleineren Modellen wie Llama3.2-3B-Instruct bis hin zu modernsten Modellen wie DeepSeek-R1 reicht. Beispielsweise könnte in der Phrase „10 Dollar pro Kilo“ der Ausdruck „pro“ von LLMs nicht als „für jedes“ erkannt werden, was zu Berechnungsfehlern führt. Wir stellen einen neuartigen, nachträglichen Trainingsansatz namens **Stick to the Facts (SIFT)** vor, um dies zu bewältigen. SIFT nutzt zunehmende Inferenzzeit-Rechenleistung, um das Denken von LLMs im Kontext zu verankern. Im Kern von SIFT liegt der *Sticker*, der vom Modell selbst generiert wird, um die Schlüsselinformationen im Kontext explizit hervorzuheben. Basierend auf dem kuratierten Sticker generiert SIFT zwei Vorhersagen – eine aus der ursprünglichen Anfrage und eine aus der mit dem Sticker angereicherten Anfrage. Wenn sie sich unterscheiden, wird der Sticker sequenziell durch *vorwärtsgerichtete* Optimierung (um die extrahierten Fakten besser mit der Anfrage abzustimmen) und *inverse* Generierung (um den inhärenten Tendenzen des Modells zu entsprechen) verfeinert, um zuverlässigere Denkergebnisse zu erzielen. Studien über verschiedene Modelle (von 3B bis 100B+) und Benchmarks (z.B. GSM8K, MATH-500) zeigen konsistente Leistungsverbesserungen. Bemerkenswerterweise verbessert SIFT die Pass@1-Genauigkeit von DeepSeek-R1 auf AIME2024 von 78,33 % auf **85,67 %** und setzt damit einen neuen Maßstab in der Open-Source-Community. Der Code ist unter https://github.com/zhijie-group/SIFT verfügbar.
Das visuelle Verknüpfen übereinstimmender Hinweise ist eine entscheidende Fähigkeit im täglichen Leben, wie beispielsweise die Identifizierung derselben Person in mehreren Fotos anhand ihrer Merkmale, selbst ohne zu wissen, wer sie ist. Obwohl Vision-Language-Modelle (VLMs) über umfangreiches Wissen verfügen, bleibt weitgehend unerforscht, ob sie diese grundlegende Aufgabe bewältigen können. Um dies zu untersuchen, stellen wir VLM^2-Bench vor, einen Benchmark, der entwickelt wurde, um zu bewerten, ob VLMs visuell übereinstimmende Hinweise verknüpfen können. Dieser umfasst 9 Unteraufgaben und über 3.000 Testfälle. Eine umfassende Evaluierung von acht Open-Source-VLMs und GPT-4o sowie eine weitere Analyse verschiedener sprach- und bildseitiger Prompting-Methoden führen zu insgesamt acht zentralen Erkenntnissen. Wir identifizieren kritische Herausforderungen bei der Fähigkeit der Modelle, visuelle Hinweise zu verknüpfen, und heben eine erhebliche Leistungslücke hervor, bei der selbst GPT-4o 34,80 % hinter menschlicher Leistung zurückbleibt. Basierend auf diesen Erkenntnissen plädieren wir für (i) die Verbesserung der Kernfähigkeiten im visuellen Bereich, um die Anpassungsfähigkeit zu erhöhen und die Abhängigkeit von Vorwissen zu verringern, (ii) die Etablierung klarerer Prinzipien für die Integration sprachbasierter Logik in visuell zentrierte Aufgaben, um unnötige Verzerrungen zu vermeiden, und (iii) die Verschiebung der Vision-Text-Trainingsparadigmen hin zur Förderung der Fähigkeit von Modellen, Beziehungen zwischen visuellen Hinweisen eigenständig zu strukturieren und abzuleiten.
Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen bei komplexen Denkaufgaben gezeigt, doch ihre Effizienz wird durch die erheblichen Speicher- und Rechenkosten beeinträchtigt, die mit der Erzeugung langer Token verbunden sind. In diesem Artikel stellen wir LightThinker vor, eine neuartige Methode, die es LLMs ermöglicht, Zwischengedanken während des Denkprozesses dynamisch zu komprimieren. Inspiriert von menschlichen kognitiven Prozessen komprimiert LightThinker ausführliche Denkschritte in kompakte Darstellungen und verwirft die ursprünglichen Denkketten, wodurch die Anzahl der im Kontextfenster gespeicherten Token erheblich reduziert wird. Dies wird erreicht, indem das Modell darauf trainiert wird, wann und wie die Kompression durchgeführt werden soll, durch Datenkonstruktion, Abbildung von verborgenen Zuständen auf verdichtete Kern-Token und die Erstellung spezialisierter Aufmerksamkeitsmasken. Zusätzlich führen wir die Abhängigkeitsmetrik (Dep) ein, um den Grad der Kompression zu quantifizieren, indem die Abhängigkeit von historischen Token während der Generierung gemessen wird. Umfangreiche Experimente auf vier Datensätzen und zwei Modellen zeigen, dass LightThinker den Spitzenspeicherverbrauch und die Inferenzzeit reduziert, während die Genauigkeit wettbewerbsfähig bleibt. Unsere Arbeit bietet eine neue Richtung zur Verbesserung der Effizienz von LLMs bei komplexen Denkaufgaben, ohne die Leistung zu beeinträchtigen. Der Code wird unter https://github.com/zjunlp/LightThinker veröffentlicht.
Die Skalierung der effektiven Kontextlänge ist entscheidend, um große Sprachmodelle (LLMs) in Richtung künstlicher allgemeiner Intelligenz (AGI) voranzubringen. Allerdings stellt der quadratische Anstieg der Rechenkomplexität, der in traditionellen Aufmerksamkeitsmechanismen inhärent ist, ein prohibitives Hindernis dar. Bestehende Ansätze führen entweder stark voreingenommene Strukturen ein, wie beispielsweise Sink- oder Fensteraufmerksamkeit, die aufgaben spezifisch sind, oder modifizieren den Aufmerksamkeitsmechanismus radikal in lineare Approximationen, deren Leistung bei komplexen Denkaufgaben noch unzureichend erforscht ist. In dieser Arbeit schlagen wir eine Lösung vor, die sich an das Prinzip „weniger Struktur“ hält und es dem Modell ermöglicht, autonom zu entscheiden, wo es seine Aufmerksamkeit richtet, anstatt vordefinierte Voreingenommenheiten einzuführen. Wir stellen Mixture of Block Attention (MoBA) vor, einen innovativen Ansatz, der die Prinzipien von Mixture of Experts (MoE) auf den Aufmerksamkeitsmechanismus anwendet. Diese neuartige Architektur zeigt überlegene Leistung bei Aufgaben mit langem Kontext und bietet einen entscheidenden Vorteil: die Fähigkeit, nahtlos zwischen vollständiger und spärlicher Aufmerksamkeit zu wechseln, wodurch die Effizienz gesteigert wird, ohne das Risiko einer Leistungseinbuße einzugehen. MoBA wurde bereits eingesetzt, um die langen Kontextanfragen von Kimi zu unterstützen, und zeigt bedeutende Fortschritte in der effizienten Aufmerksamkeitsberechnung für LLMs. Unser Code ist verfügbar unter https://github.com/MoonshotAI/MoBA.
Mit der zunehmenden Nutzung von Agenten auf Basis großer Sprachmodelle (LLMs) werden deren Sicherheitslücken immer deutlicher. Umfangreiche Benchmarks bewerten verschiedene Aspekte der LLM-Sicherheit, indem sie die Sicherheit stark an allgemeinen Standards ausrichten und dabei benutzerspezifische Standards vernachlässigen. Sicherheitsstandards für LLMs können jedoch je nach Benutzerprofil variieren, anstatt universell für alle Benutzer gleich zu sein. Dies wirft eine entscheidende Forschungsfrage auf: Verhalten sich LLM-Agenten sicher, wenn benutzerspezifische Sicherheitsstandards berücksichtigt werden? Trotz ihrer Bedeutung für die sichere Nutzung von LLMs existieren derzeit keine Benchmark-Datensätze, um die benutzerspezifische Sicherheit von LLMs zu bewerten. Um diese Lücke zu schließen, führen wir U-SAFEBENCH ein, den ersten Benchmark, der darauf abzielt, den benutzerspezifischen Aspekt der LLM-Sicherheit zu bewerten. Unsere Auswertung von 18 weit verbreiteten LLMs zeigt, dass aktuelle LLMs versagen, wenn es darum geht, sich unter Berücksichtigung benutzerspezifischer Sicherheitsstandards sicher zu verhalten – eine neue Erkenntnis in diesem Bereich. Um diese Schwachstelle zu beheben, schlagen wir eine einfache Lösung basierend auf Chain-of-Thought vor und demonstrieren deren Wirksamkeit bei der Verbesserung der benutzerspezifischen Sicherheit. Unser Benchmark und der Code sind unter https://github.com/yeonjun-in/U-SafeBench verfügbar.
Die Fähigkeit zur Befolgung von Mehrfachanweisungen stellt eine Kernkompetenz großer Sprachmodelle (LLMs) in realen Anwendungen dar. Bestehende Evaluierungsbenchmarks konzentrieren sich hauptsächlich auf die feinkörnige Erfüllung von Einschränkungen und die Bewertung domänenspezifischer Fähigkeiten, vernachlässigen jedoch die entscheidende strukturelle Abhängigkeit zwischen Dialogrunden, die Mehrfachinteraktionen von Einzelinteraktionen unterscheidet. Diese strukturelle Abhängigkeit spiegelt nicht nur die Benutzerabsicht wider, sondern etabliert auch eine zweite Dimension für die Bewertung der Befolgung von Anweisungen, die über die bloße Erfüllung von Einschränkungen hinausgeht. Um diese Lücke zu schließen, schlagen wir StructFlowBench vor, einen Benchmark für die Befolgung von Mehrfachanweisungen mit Modellierung des strukturellen Flusses. Der Benchmark definiert innovativ ein strukturelles Flussrahmenwerk, das sechs grundlegende interturn-Beziehungen umfasst, was nicht nur neue strukturelle Einschränkungen für die Modellbewertung einführt, sondern auch als Generierungsparameter für die Erstellung maßgeschneiderter Dialogflüsse dient, die auf spezifische Szenarien zugeschnitten sind. Unter Verwendung etablierter LLM-basierter automatischer Evaluierungsmethoden führen wir systematische Bewertungen von 13 führenden Open-Source- und Closed-Source-LLMs durch. Die experimentellen Ergebnisse zeigen erhebliche Defizite im Verständnis aktueller Modelle für die Strukturen von Mehrfachdialogen auf. Der Code ist verfügbar unter https://github.com/MLGroupJLU/StructFlowBench.
Die Materialsynthese ist entscheidend für Innovationen in Bereichen wie Energiespeicherung, Katalyse, Elektronik und biomedizinischen Geräten. Dennoch basiert der Prozess stark auf empirischen, trial-and-error-Methoden, die durch Expertenintuition geleitet werden. Unsere Arbeit zielt darauf ab, die Materialwissenschaftsgemeinschaft durch die Bereitstellung einer praktischen, datengestützten Ressource zu unterstützen. Wir haben einen umfassenden Datensatz von 17.000 von Experten verifizierten Syntheserezepten aus frei zugänglicher Literatur zusammengestellt, der die Grundlage für unser neu entwickelten Benchmark, AlchemyBench, bildet. AlchemyBench bietet ein End-to-End-Framework, das die Forschung zu großen Sprachmodellen (LLMs) in der Synthesevorhersage unterstützt. Es umfasst Schlüsselaufgaben wie die Vorhersage von Rohmaterialien und Ausrüstung, die Generierung von Syntheseprozeduren und die Prognose von Charakterisierungsergebnissen. Wir schlagen ein LLM-as-a-Judge-Framework vor, das große Sprachmodelle für die automatisierte Bewertung nutzt und eine starke statistische Übereinstimmung mit Experteneinschätzungen zeigt. Insgesamt bieten unsere Beiträge eine unterstützende Grundlage für die Erforschung der Fähigkeiten von LLMs bei der Vorhersage und Steuerung der Materialsynthese und ebnen so den Weg für ein effizienteres experimentelles Design und eine beschleunigte Innovation in den Materialwissenschaften.
Dieses Papier stellt den Korean National Educational Test Benchmark (KoNET) vor, einen neuen Benchmark, der entwickelt wurde, um Multimodale Generative KI-Systeme anhand koreanischer nationaler Bildungstests zu evaluieren. KoNET umfasst vier Prüfungen: den Korean Elementary General Educational Development Test (KoEGED), den Middle (KoMGED), den High (KoHGED) und den College Scholastic Ability Test (KoCSAT). Diese Prüfungen sind für ihre strengen Standards und vielfältigen Fragen bekannt und ermöglichen eine umfassende Analyse der KI-Leistung über verschiedene Bildungsstufen hinweg. Durch den Fokus auf die koreanische Sprache bietet KoNET Einblicke in die Modellleistung in weniger erforschten Sprachen. Wir bewerten eine Reihe von Modellen – Open-Source, Open-Access und geschlossene APIs – indem wir Schwierigkeitsgrade, Fachvielfalt und menschliche Fehlerraten untersuchen. Der Code und der Datensatz-Builder werden vollständig Open-Source unter https://github.com/naver-ai/KoNET verfügbar gemacht.
Große Sprachmodelle haben bemerkenswerte Fortschritte im mathematischen Denken gezeigt, indem sie Chain-of-Thought und die Skalierung von Rechenressourcen zur Laufzeit nutzen. Dennoch bleiben viele offene Fragen hinsichtlich des Zusammenspiels zwischen der Verwendung von Reasoning-Tokens und Genauigkeitssteigerungen. Insbesondere ist beim Vergleich von Modellen verschiedener Generationen unklar, ob verbesserte Leistungen auf längere Reasoning-Ketten oder effizienteres Denken zurückzuführen sind. Wir analysieren systematisch die Länge von Chain-of-Thought-Ketten bei den Varianten o1-mini und o3-mini auf dem Omni-MATH-Benchmark und stellen fest, dass o3-mini (m) eine überlegene Genauigkeit erreicht, ohne längere Reasoning-Ketten als o1-mini zu benötigen. Darüber hinaus zeigen wir, dass die Genauigkeit generell abnimmt, wenn die Reasoning-Ketten über alle Modelle und Recheneinstellungen hinweg länger werden, selbst wenn die Schwierigkeit der Fragen kontrolliert wird. Dieser Genauigkeitsverlust ist bei leistungsfähigeren Modellen deutlich geringer, was darauf hindeutet, dass neuere Generationen von Reasoning-Modellen Rechenressourcen zur Laufzeit effektiver nutzen. Schließlich heben wir hervor, dass o3-mini (h) zwar einen marginalen Genauigkeitsvorteil gegenüber o3-mini (m) erzielt, dies jedoch durch die Zuweisung erheblich mehr Reasoning-Tokens für alle Probleme erreicht, selbst für die, die o3-mini (m) bereits lösen kann. Diese Erkenntnisse bieten neue Einblicke in die Beziehung zwischen Modellfähigkeit und Reasoning-Länge mit Implikationen für Effizienz, Skalierung und Evaluierungsmethoden.
Die Generierung von Proteinrückgraten spielt eine zentrale Rolle im de novo Protein-Design und ist von großer Bedeutung für viele biologische und medizinische Anwendungen. Obwohl Diffusions- und flussbasierte generative Modelle potenzielle Lösungen für diese anspruchsvolle Aufgabe bieten, erzeugen sie oft Proteine mit unerwünschter Designierbarkeit und leiden unter rechnerischer Ineffizienz. In dieser Studie schlagen wir eine neuartige Methode des rectified quaternion flow (ReQFlow) matching vor, die eine schnelle und hochwertige Generierung von Proteinrückgraten ermöglicht. Insbesondere generiert unsere Methode eine lokale Translation und eine 3D-Rotation aus zufälligem Rauschen für jedes Residuum in einer Proteinkette, wobei jede 3D-Rotation als Einheitsquaternion dargestellt und ihr Fluss durch sphärische lineare Interpolation (SLERP) in einem exponentiellen Format konstruiert wird. Wir trainieren das Modell durch quaternion flow (QFlow) matching mit garantierter numerischer Stabilität und korrigieren das QFlow-Modell, um dessen Inferenz zu beschleunigen und die Designierbarkeit der generierten Proteinrückgrate zu verbessern, was zum vorgeschlagenen ReQFlow-Modell führt. Experimente zeigen, dass ReQFlow bei der Generierung von Proteinrückgraten Spitzenleistungen erzielt, während es deutlich weniger Abtastschritte und erheblich weniger Inferenzzeit erfordert (z. B. ist es 37-mal schneller als RFDiffusion und 62-mal schneller als Genie2 bei der Generierung eines Rückgrats der Länge 300), was seine Effektivität und Effizienz unterstreicht. Der Code ist verfügbar unter https://github.com/AngxiaoYue/ReQFlow.
Fortschritte bei großen Sprachmodellen (LLMs) und deren zunehmende Verwendung in der medizinischen Frage-Antwort-Interaktion erfordern eine rigorose Bewertung ihrer Zuverlässigkeit. Eine zentrale Herausforderung liegt in der sogenannten Halluzination, bei der Modelle plausible, aber faktisch falsche Antworten generieren. Im medizinischen Bereich birgt dies ernsthafte Risiken für die Patientensicherheit und die klinische Entscheidungsfindung. Um dies zu adressieren, stellen wir MedHallu vor, den ersten speziell für die Erkennung medizinischer Halluzinationen entwickelten Benchmark. MedHallu umfasst 10.000 hochwertige Frage-Antwort-Paare, die aus PubMedQA abgeleitet wurden, wobei halluzinierte Antworten systematisch durch eine kontrollierte Pipeline generiert wurden. Unsere Experimente zeigen, dass state-of-the-art LLMs, einschließlich GPT-4o, Llama-3.1 und das medizinisch feinabgestimmte UltraMedical, mit dieser binären Halluzinationserkennungsaufgabe Schwierigkeiten haben, wobei das beste Modell einen F1-Score von lediglich 0,625 bei der Erkennung von „schweren“ Halluzinationen erreicht. Mithilfe von bidirektionaler Entailment-Clustering zeigen wir, dass schwerer zu erkennende Halluzinationen semantisch näher an der Wahrheit liegen. Durch Experimente zeigen wir außerdem, dass die Einbindung domänenspezifischen Wissens und die Einführung einer „unsicher“-Kategorie als eine der Antwortkategorien die Präzision und F1-Scores um bis zu 38 % im Vergleich zu den Baselines verbessern.
Tuning-freie Ansätze, die großskalige vortrainierte Video-Diffusionsmodelle für die identitätserhaltende Text-zu-Video-Generierung (IPT2V) adaptieren, haben aufgrund ihrer Effizienz und Skalierbarkeit in letzter Zeit an Popularität gewonnen. Dennoch bestehen erhebliche Herausforderungen, um zufriedenstellende Gesichtsbewegungen zu erreichen, während die Identität unverändert bleibt. In dieser Arbeit präsentieren wir ein neuartiges tuning-freies IPT2V-Framework, indem wir das Gesichtswissen des vortrainierten Videomodells, das auf Diffusions-Transformatoren (DiT) basiert, erweitern, genannt FantasyID. Im Wesentlichen wird ein 3D-Gesichtsgeometrie-Prior integriert, um plausible Gesichtsstrukturen während der Videosynthese zu gewährleisten. Um zu verhindern, dass das Modell Copy-Paste-Kurzschlüsse lernt, die einfach das Referenzgesicht über die Frames hinweg replizieren, wird eine Multi-View-Gesichtsverstärkungsstrategie entwickelt, um vielfältige 2D-Gesichtserscheinungsmerkmale zu erfassen und somit die Dynamik der Gesichtsausdrücke und Kopfhaltungen zu erhöhen. Zusätzlich wird nach dem Mischen der 2D- und 3D-Merkmale als Anleitung anstelle einer naiven Verwendung von Cross-Attention zur Einspritzung von Anleitungshinweisen in die DiT-Schichten ein lernbares schichtbewusstes adaptives Mechanismus eingesetzt, um die fusionierten Merkmale selektiv in jede einzelne DiT-Schicht einzuspritzen, was eine ausgewogene Modellierung von Identitätserhaltung und Bewegungsdynamik erleichtert. Experimentelle Ergebnisse bestätigen die Überlegenheit unseres Modells gegenüber den aktuellen tuning-freien IPT2V-Methoden.
In dieser Arbeit adressieren wir die Herausforderung, strikte Schemaeinhaltung bei der Generierung durch große Sprachmodelle (LLMs) durch die Nutzung ihrer Fähigkeiten zum logischen Schlussfolgern zu gewährleisten. Aufbauend auf dem DeepSeek R1 Reinforcement-Learning-Framework trainiert unser Ansatz die strukturierten Denkfähigkeiten eines Modells mit 1,5 Milliarden Parametern durch eine neuartige Pipeline, die die Konstruktion synthetischer Datensätze für logisches Schlussfolgern mit maßgeschneiderten Belohnungsfunktionen im Rahmen von Group Relative Policy Optimization (GRPO) kombiniert. Konkret führen wir zunächst R1 Reinforcement Learning auf einem Datensatz mit 20.000 Beispielen von unstrukturierten zu strukturierten Daten durch, analog zu den ursprünglichen DeepSeek R1-Methoden, um grundlegende Fähigkeiten zum logischen Schlussfolgern zu etablieren. Anschließend führen wir ein überwachtes Fein-Tuning auf einem separaten Datensatz mit 10.000 Beispielen für logisches Schlussfolgern durch, wobei der Fokus auf der Verbesserung der Schemaeinhaltung für nachgelagerte Aufgaben liegt. Trotz des relativ bescheidenen Trainingsumfangs, der etwa 20 Stunden auf einem 8xH100-GPU-Cluster für das GRPO-Training und 3 Stunden auf einer 1xA100-GPU für das SFT erfordert, zeigt unser Modell eine robuste Leistung bei der Durchsetzung von Schema-Konsistenz. Wir vergleichen unseren ThinkJSON-Ansatz mit dem ursprünglichen DeepSeek R1 (671B), destillierten Versionen von DeepSeek R1 (Qwen-1,5B und Qwen-7B) und Gemini 2.0 Flash (70B) und demonstrieren dessen Effektivität in realen Anwendungen. Unsere Ergebnisse unterstreichen den praktischen Nutzen eines ressourceneffizienten Frameworks für die schema-beschränkte Textgenerierung.
Das Sampling aus Diffusionsmodellen ist ein langsamer iterativer Prozess, der deren praktischen Einsatz, insbesondere in interaktiven Anwendungen, behindert. Um die Generierungsgeschwindigkeit zu beschleunigen, haben neuere Ansätze ein mehrstufiges Diffusionsmodell in einen einstufigen Studenten-Generator durch variationales Score-Distillation destilliert, wobei die Verteilung der vom Studenten generierten Samples an die Verteilung des Lehrers angepasst wird. Diese Ansätze verwenden jedoch die umgekehrte Kullback-Leibler (KL)-Divergenz für die Verteilungsanpassung, die dafür bekannt ist, modusorientiert zu sein. In dieser Arbeit verallgemeinern wir den Ansatz der Verteilungsanpassung durch ein neuartiges f-Divergenz-Minimierungs-Framework, genannt f-distill, das verschiedene Divergenzen mit unterschiedlichen Kompromissen in Bezug auf Modusabdeckung und Trainingsvarianz abdeckt. Wir leiten den Gradienten der f-Divergenz zwischen den Verteilungen des Lehrers und des Studenten ab und zeigen, dass er als Produkt ihrer Score-Differenzen und einer Gewichtungsfunktion, die durch ihr Dichteverhältnis bestimmt wird, ausgedrückt wird. Diese Gewichtungsfunktion betont natürlicherweise Samples mit höherer Dichte in der Lehrer-Verteilung, wenn eine weniger modusorientierte Divergenz verwendet wird. Wir stellen fest, dass der populäre Ansatz der variablen Score-Distillation unter Verwendung der umgekehrten KL-Divergenz ein Spezialfall innerhalb unseres Frameworks ist. Empirisch zeigen wir, dass alternative f-Divergenzen, wie die vorwärtsgerichtete KL- und die Jensen-Shannon-Divergenz, die derzeit besten Methoden der variablen Score-Distillation in Bildgenerierungsaufgaben übertreffen. Insbesondere erreicht f-distill bei Verwendung der Jensen-Shannon-Divergenz den derzeitigen Stand der Technik in der einstufigen Generierung auf ImageNet64 und in der Null-Shot-Text-zu-Bild-Generierung auf MS-COCO. Projektseite: https://research.nvidia.com/labs/genair/f-distill
Mit der zunehmenden Verbreitung von Retrieval-Augmented Generation (RAG) in der Dokumentenverarbeitung ist eine robuste Texterkennung für die Wissensextraktion immer entscheidender geworden. Während OCR (Optische Zeichenerkennung) für Englisch und andere Sprachen von großen Datensätzen und etablierten Benchmarks profitiert, steht die arabische OCR aufgrund ihrer kursiven Schrift, des rechtsläufigen Textflusses und der komplexen typografischen und kalligrafischen Merkmale vor einzigartigen Herausforderungen. Wir stellen KITAB-Bench vor, einen umfassenden Benchmark für arabische OCR, der die Lücken in den aktuellen Evaluierungssystemen schließt. Unser Benchmark umfasst 8.809 Proben aus 9 Hauptdomänen und 36 Unterdomänen, die verschiedene Dokumenttypen wie handschriftlichen Text, strukturierte Tabellen und spezialisierte Abdeckungen von 21 Diagrammtypen für Business Intelligence beinhalten. Unsere Ergebnisse zeigen, dass moderne Vision-Language-Modelle (wie GPT-4, Gemini und Qwen) traditionelle OCR-Ansätze (wie EasyOCR, PaddleOCR und Surya) im Durchschnitt um 60 % im Character Error Rate (CER) übertreffen. Darüber hinaus verdeutlichen wir erhebliche Einschränkungen aktueller arabischer OCR-Modelle, insbesondere bei der PDF-zu-Markdown-Konvertierung, bei der das beste Modell Gemini-2.0-Flash nur eine Genauigkeit von 65 % erreicht. Dies unterstreicht die Herausforderungen bei der präzisen Erkennung arabischer Texte, einschließlich Problemen mit komplexen Schriftarten, Ziffernerkennungsfehlern, Wortdehnungen und der Erkennung von Tabellenstrukturen. Diese Arbeit schafft einen rigorosen Evaluierungsrahmen, der Verbesserungen in der arabischen Dokumentenanalyse vorantreiben und die Leistungslücke zu englischen OCR-Technologien verringern kann.
Bestehende Benchmarks testen Large Multimodal Models (LMMs) nicht auf ihre interaktive Intelligenz mit menschlichen Nutzern, was für die Entwicklung allgemeiner KI-Assistenten von entscheidender Bedeutung ist. Wir entwickeln InterFeedback, ein interaktives Framework, das auf jedes LMM und jeden Datensatz angewendet werden kann, um diese Fähigkeit autonom zu bewerten. Darüber hinaus führen wir InterFeedback-Bench ein, das die interaktive Intelligenz anhand zweier repräsentativer Datensätze, MMMU-Pro und MathVerse, testet, um 10 verschiedene Open-Source-LMMs zu evaluieren. Zusätzlich präsentieren wir InterFeedback-Human, einen neu erhobenen Datensatz mit 120 Fällen, der für die manuelle Überprüfung der interaktiven Leistung führender Modelle wie OpenAI-o1 und Claude-3.5-Sonnet konzipiert ist. Unsere Evaluationsergebnisse zeigen, dass selbst state-of-the-art LMMs (wie OpenAI-o1) ihre Ergebnisse durch menschliches Feedback in weniger als 50% der Fälle korrigieren können. Unsere Erkenntnisse verdeutlichen die Notwendigkeit von Methoden, die die Fähigkeit von LMMs verbessern, Feedback zu interpretieren und daraus Nutzen zu ziehen.
Mit dem exponentiellen Wachstum der Forschung, das durch moderne Technologie und verbesserte Zugänglichkeit ermöglicht wird, sind wissenschaftliche Entdeckungen zunehmend fragmentiert – sowohl innerhalb als auch zwischen verschiedenen Fachgebieten. Dies erschwert die Bewertung der Bedeutung, Neuartigkeit, inkrementellen Erkenntnisse und äquivalenten Ideen zwischen verwandten Arbeiten, insbesondere solchen aus unterschiedlichen Forschungsgemeinschaften. Große Sprachmodelle (Large Language Models, LLMs) haben kürzlich starke quantitative und qualitative Argumentationsfähigkeiten gezeigt, und Multi-Agenten-LLM-Debatten haben Potenzial bei der Bewältigung komplexer Denkaufgaben durch die Erkundung verschiedener Perspektiven und Argumentationspfade bewiesen. Inspiriert davon stellen wir Tree-of-Debate (ToD) vor, ein Framework, das wissenschaftliche Artikel in LLM-Personen umwandelt, die ihre jeweilige Neuartigkeit debattieren. Um strukturiertes, kritisches Denken zu betonen und sich nicht nur auf Ergebnisse zu konzentrieren, konstruiert ToD dynamisch einen Debattenbaum, der eine detaillierte Analyse unabhängiger Neuheitsargumente innerhalb wissenschaftlicher Artikel ermöglicht. Durch Experimente mit wissenschaftlicher Literatur aus verschiedenen Domänen, die von Experten evaluiert wurden, zeigen wir, dass ToD informative Argumente generiert, effektiv Artikel kontrastiert und Forscher bei ihrer Literaturrecherche unterstützt.
Die Vorhersage, wann in realen Umgebungen mit dem Sprechen begonnen werden soll, bleibt eine grundlegende Herausforderung für Konversationsagenten. Wir stellen EgoSpeak vor, ein neuartiges Framework zur Echtzeit-Vorhersage der Sprechinitiierung in egozentrischen Streaming-Videos. Indem es die Konversation aus der Ich-Perspektive des Sprechers modelliert, ist EgoSpeak auf menschenähnliche Interaktionen zugeschnitten, bei denen ein Konversationsagent kontinuierlich seine Umgebung beobachten und dynamisch entscheiden muss, wann er sprechen soll. Unser Ansatz überbrückt die Lücke zwischen vereinfachten experimentellen Aufbauten und komplexen natürlichen Gesprächen, indem er vier Schlüsselfähigkeiten integriert: (1) Ich-Perspektive, (2) RGB-Verarbeitung, (3) Online-Verarbeitung und (4) Verarbeitung ungeschnittener Videos. Wir präsentieren außerdem YT-Conversation, eine vielfältige Sammlung von Konversationsvideos aus der realen Welt von YouTube, als Ressource für das groß angelegte Pre-Training. Experimente mit EasyCom und Ego4D zeigen, dass EgoSpeak in Echtzeit zufällige und schweigebasierte Baselines übertrifft. Unsere Ergebnisse unterstreichen auch die Bedeutung von multimodalem Input und Kontextlänge für die effektive Entscheidung, wann gesprochen werden soll.
Die führenden KI-Unternehmen konzentrieren sich zunehmend auf die Entwicklung generalistischer KI-Agenten – Systeme, die autonom planen, handeln und Ziele verfolgen können, die nahezu alle Aufgaben umfassen, die Menschen ausführen. Obwohl diese Systeme äußerst nützlich sein könnten, birgt unkontrollierte KI-Agentur erhebliche Risiken für die öffentliche Sicherheit und Sicherheit, die von Missbrauch durch böswillige Akteure bis hin zu einem potenziell irreversiblen Verlust der menschlichen Kontrolle reichen. Wir erörtern, wie diese Risiken aus den derzeitigen KI-Trainingsmethoden entstehen. Tatsächlich haben verschiedene Szenarien und Experimente gezeigt, dass KI-Agenten Täuschung betreiben oder Ziele verfolgen können, die nicht von menschlichen Betreibern spezifiziert wurden und die im Widerspruch zu menschlichen Interessen stehen, wie etwa Selbsterhaltung. Im Einklang mit dem Vorsorgeprinzip sehen wir einen dringenden Bedarf an sichereren, aber dennoch nützlichen Alternativen zur derzeitigen agenturbasierten Entwicklung. Dementsprechend schlagen wir als zentralen Baustein für weitere Fortschritte die Entwicklung eines nicht-agentischen KI-Systems vor, das von Grund auf vertrauenswürdig und sicher ist, das wir als Scientist AI bezeichnen. Dieses System ist darauf ausgelegt, die Welt aus Beobachtungen zu erklären, anstatt in ihr zu handeln, um Menschen nachzuahmen oder zu gefallen. Es besteht aus einem Weltmodell, das Theorien zur Erklärung von Daten generiert, und einer Frage-Antwort-Inferenzmaschine. Beide Komponenten arbeiten mit einem expliziten Konzept der Unsicherheit, um die Risiken übermäßig selbstbewusster Vorhersagen zu mindern. Vor diesem Hintergrund könnte eine Scientist AI dazu verwendet werden, menschliche Forscher bei der Beschleunigung des wissenschaftlichen Fortschritts zu unterstützen, einschließlich der KI-Sicherheit. Insbesondere kann unser System als Schutzmaßnahme gegen KI-Agenten eingesetzt werden, die trotz der damit verbundenen Risiken geschaffen werden könnten. Letztendlich könnte die Konzentration auf nicht-agentische KI die Vorteile der KI-Innovation ermöglichen, während die Risiken im Zusammenhang mit der derzeitigen Entwicklung vermieden werden. Wir hoffen, dass diese Argumente Forscher, Entwickler und politische Entscheidungsträger dazu motivieren werden, diesen sichereren Weg zu bevorzugen.
Style Embeddings sind nützlich für stilistische Analysen und Stiltransfer; bisher wurden jedoch nur englische Style Embeddings veröffentlicht. Wir stellen Multilingual StyleDistance (mStyleDistance) vor, ein multilinguales Style-Embedding-Modell, das mit synthetischen Daten und kontrastivem Lernen trainiert wurde. Wir trainieren das Modell anhand von Daten aus neun Sprachen und erstellen einen multilingualen STEL-or-Content-Benchmark (Wegmann et al., 2022), der zur Bewertung der Qualität der Embeddings dient. Außerdem setzen wir unsere Embeddings in einer Autorschaftsverifikationsaufgabe ein, die verschiedene Sprachen umfasst. Unsere Ergebnisse zeigen, dass mStyleDistance-Embeddings bestehende Modelle in diesen multilingualen Stil-Benchmarks übertreffen und gut auf unbekannte Merkmale und Sprachen generalisieren. Unser Modell ist öffentlich unter https://huggingface.co/StyleDistance/mstyledistance verfügbar.
Wir zeigen, dass das Large Language Model aus Power Law Decoder Representations (PLDR-LLM) ein fundamentales Modell ist, dessen deduktive Ausgaben invariante Tensoren bis auf eine kleine Störung darstellen. PLDR-LLM lernt eine Singularitätsbedingung für die deduktiven Ausgaben, die es ermöglicht, dass der einmal abgeleitete Energie-Krümmungs-Tensor G_{LM} das tiefe neuronale Netzwerk der Power Law Graph Attention (PLGA) ersetzt, das die deduktiven Ausgaben während der Inferenz erzeugt. Wir demonstrieren, dass ein Cache für G_{LM} (G-Cache) und ein KV-Cache auf einfache Weise implementiert werden können, um die Inferenzzeit zu verbessern. Die Invarianz und generalisierbare Natur der deduktiven Ausgaben liegt mit einer sehr hohen Genauigkeit vor, wobei die deduktiven Ausgaben nach dem Caching denselben RMSE- und Determinantenwert bis zu 15 Dezimalstellen aufweisen und die Zero-Shot-Benchmark-Ergebnisse unverändert bleiben. Ablationsstudien zeigen, dass die gelernten deduktiven Ausgaben unterschiedliche Verlust- und Genauigkeitsmerkmale aufweisen im Vergleich zu Modellen, die mit transferierten, zufällig initialisierten oder Identitätstensoren als konstantem Tensoroperator vortrainiert wurden, und dass ein LLM mit Scaled-Dot-Product-Attention (SDPA) ein Spezialfall von PLDR-LLM ist, bei dem G_{LM} vordefiniert als Identitätstensor festgelegt ist. Die beobachtete Invarianzeigenschaft führt zu einer neuartigen Asymmetrie zwischen Trainings- und Inferenzphasen mit Caching. Wir skizzieren die beobachteten gemeinsamen Merkmale der deduktiven Ausgaben für die gelernte Singularitätsbedingung. Wir stellen eine Implementierung eines Trainings- und Inferenzframeworks für PLDR-LLM mit KV-Cache und G-Cache bereit.
Die Schätzung von menschlichen und Kameratrajektorien mit präzisem Maßstab im Weltkoordinatensystem aus einem monokularen Video ist ein äußerst wünschenswertes, aber herausforderndes und schlecht gestelltes Problem. In dieser Studie zielen wir darauf ab, ausdrucksstarke parametrische Menschmodelle (d. h. SMPL-X) und entsprechende Kameraposen gemeinsam wiederherzustellen, indem wir die Synergie zwischen drei entscheidenden Akteuren nutzen: der Welt, dem Menschen und der Kamera. Unser Ansatz basiert auf zwei zentralen Beobachtungen. Erstens können SMPL-X-Schätzmethoden im Kamerakoordinatensystem problemlos die absolute Tiefe des Menschen erfassen. Zweitens liefern menschliche Bewegungen von Natur aus absolute räumliche Hinweise. Durch die Integration dieser Erkenntnisse führen wir ein neuartiges Framework ein, das als WHAC bezeichnet wird, um die weltbezogene Schätzung von ausdrucksstarker menschlicher Pose und Form (EHPS) sowie die Kameraposenschätzung zu ermöglichen, ohne auf traditionelle Optimierungstechniken zurückzugreifen. Zusätzlich stellen wir einen neuen synthetischen Datensatz, WHAC-A-Mole, vor, der präzise annotierte Menschen und Kameras enthält und vielfältige interaktive menschliche Bewegungen sowie realistische Kameratrajektorien aufweist. Umfangreiche Experimente sowohl auf etablierten als auch auf neu geschaffenen Benchmarks unterstreichen die Überlegenheit und Effizienz unseres Frameworks. Wir werden den Code und den Datensatz öffentlich zugänglich machen.
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten in der Krankheitsdiagnose gezeigt. Ihre Effektivität bei der Identifizierung seltenerer Krankheiten, die von Natur aus schwieriger zu diagnostizieren sind, bleibt jedoch eine offene Frage. Die Leistung bei seltenen Krankheiten ist angesichts der zunehmenden Nutzung von LLMs im Gesundheitswesen von entscheidender Bedeutung. Dies gilt insbesondere, wenn ein Hausarzt eine seltenere Prognose allein auf der Grundlage eines Patientengesprächs stellen muss, um den nächsten angemessenen Schritt einzuleiten. Zu diesem Zweck wurden mehrere klinische Entscheidungsunterstützungssysteme entwickelt, um Ärzte bei der Identifizierung seltener Krankheiten zu unterstützen. Ihre Nützlichkeit ist jedoch aufgrund mangelnden Wissens über häufige Erkrankungen und schwieriger Handhabung begrenzt. In diesem Artikel schlagen wir RareScale vor, um das Wissen von LLMs mit Expertensystemen zu kombinieren. Wir verwenden gemeinsam ein Expertensystem und ein LLM, um Chats über seltene Krankheiten zu simulieren. Diese Daten werden verwendet, um ein Modell zur Vorhersage von Kandidaten für seltene Krankheiten zu trainieren. Die Kandidaten dieses kleineren Modells werden dann als zusätzliche Eingaben für ein Black-Box-LLM verwendet, um die endgültige Differentialdiagnose zu stellen. Somit ermöglicht RareScale eine Balance zwischen seltenen und häufigen Diagnosen. Wir präsentieren Ergebnisse zu über 575 seltenen Krankheiten, beginnend mit Abdominaler Aktinomykose und endend mit Morbus Wilson. Unser Ansatz verbessert die Baseline-Leistung von Black-Box-LLMs um über 17 % in der Top-5-Genauigkeit. Wir stellen außerdem fest, dass die Leistung unserer Kandidatengenerierung hoch ist (z. B. 88,8 % bei GPT-4o-generierten Chats).
Die multimodale 3D-Objekterkennung hat erhebliche Aufmerksamkeit erlangt, doch aktuelle Ansätze gehen oft von vollständiger Datenverfügbarkeit und starrer Ausrichtung über alle Modalitäten hinweg aus. Wir präsentieren CrossOver, ein neuartiges Framework für die cross-modale 3D-Szenenerkennung durch flexible, szenenbasierte Modalitätsausrichtung. Im Gegensatz zu traditionellen Methoden, die ausgerichtete Modalitätsdaten für jede Objektinstanz erfordern, lernt CrossOver einen einheitlichen, modalitätsunabhängigen Einbettungsraum für Szenen, indem es Modalitäten – RGB-Bilder, Punktwolken, CAD-Modelle, Grundrisse und Textbeschreibungen – mit gelockerten Einschränkungen und ohne explizite Objektsemantik ausrichtet. Durch die Nutzung dimensionsspezifischer Encoder, einer mehrstufigen Trainingspipeline und emergenten cross-modalen Verhaltensweisen unterstützt CrossOver robuste Szenenabfrage und Objektlokalisierung, selbst bei fehlenden Modalitäten. Evaluierungen auf den Datensätzen ScanNet und 3RScan zeigen seine überlegene Leistung über diverse Metriken hinweg und unterstreichen die Anpassungsfähigkeit für reale Anwendungen in der 3D-Szenenerkennung.
Große Sprachmodelle (LLMs) haben bedeutende Fortschritte in der natürlichen Sprachverarbeitung erzielt, doch ihr Potenzial für hochriskante politische Entscheidungsfindung bleibt weitgehend unerforscht. Diese Arbeit adressiert diese Lücke, indem sie sich auf die Anwendung von LLMs im Entscheidungsprozess der Vereinten Nationen (UN) konzentriert, wo die Risiken besonders hoch sind und politische Entscheidungen weitreichende Konsequenzen haben können. Wir stellen einen neuartigen Datensatz vor, der öffentlich zugängliche Aufzeichnungen des UN-Sicherheitsrats (UNSC) von 1994 bis 2024 umfasst, einschließlich Entwürfen von Resolutionen, Abstimmungsprotokollen und diplomatischen Reden. Mit diesem Datensatz schlagen wir den United Nations Benchmark (UNBench) vor, den ersten umfassenden Benchmark, der entwickelt wurde, um LLMs in vier miteinander verbundenen politikwissenschaftlichen Aufgaben zu bewerten: Ko-Autoren-Urteil, Simulation von Vertreterabstimmungen, Vorhersage der Annahme von Entwürfen und Generierung von Vertreteraussagen. Diese Aufgaben umfassen die drei Phasen des UN-Entscheidungsprozesses – Entwurf, Abstimmung und Diskussion – und zielen darauf ab, die Fähigkeit von LLMs zu bewerten, politische Dynamiken zu verstehen und zu simulieren. Unsere experimentelle Analyse zeigt das Potenzial und die Herausforderungen der Anwendung von LLMs in diesem Bereich auf und liefert Einblicke in ihre Stärken und Grenzen in der Politikwissenschaft. Diese Arbeit trägt zur wachsenden Schnittstelle zwischen KI und Politikwissenschaft bei und eröffnet neue Wege für Forschung und praktische Anwendungen in der globalen Governance. Das UNBench-Repository kann unter folgender Adresse abgerufen werden: https://github.com/yueqingliang1/UNBench.
Wir betrachten das Problem der Vorhersage von Genexpressionen aus DNA-Sequenzen. Eine zentrale Herausforderung dieser Aufgabe besteht darin, die regulatorischen Elemente zu identifizieren, die die Genexpression steuern. Hier stellen wir Seq2Exp vor, ein Sequence-to-Expression-Netzwerk, das explizit dazu entwickelt wurde, regulatorische Elemente zu entdecken und zu extrahieren, die die Zielgenexpression antreiben, wodurch die Genauigkeit der Genexpressionsvorhersage verbessert wird. Unser Ansatz erfasst die kausale Beziehung zwischen epigenomischen Signalen, DNA-Sequenzen und ihren assoziierten regulatorischen Elementen. Insbesondere schlagen wir vor, die epigenomischen Signale und die DNA-Sequenz unter Berücksichtigung der kausal aktiven regulatorischen Elemente zu zerlegen und einen Informationsengpass mit der Beta-Verteilung anzuwenden, um ihre Effekte zu kombinieren, während nicht-kausale Komponenten herausgefiltert werden. Unsere Experimente zeigen, dass Seq2Exp bestehende Baseline-Methoden in Genexpressionsvorhersageaufgaben übertrifft und einflussreiche Regionen im Vergleich zu häufig verwendeten statistischen Methoden zur Peak-Erkennung wie MACS3 entdeckt. Der Quellcode wurde als Teil der AIRS-Bibliothek veröffentlicht (https://github.com/divelab/AIRS/).
Benutzerspezifikationen oder rechtliche Rahmenbedingungen erfordern oft, dass Informationen aus vortrainierten Modellen, einschließlich großer Sprachmodelle (LLMs), entfernt werden. Dies erfordert das Löschen oder „Vergessen“ einer Reihe von Datenpunkten aus einem bereits trainierten Modell, was typischerweise dessen Leistung bei anderen Datenpunkten beeinträchtigt. Daher muss ein Gleichgewicht zwischen dem Entfernen von Informationen und dem Erhalt der anderen Fähigkeiten des Modells gefunden werden, wobei ein Misslingen dieses Abwägens zu einer unzureichenden Löschung oder einem unbrauchbaren Modell führt. Zu diesem Zweck schlagen wir UPCORE (Utility-Preserving Coreset Selection) vor, ein methodenunabhängiges Datenauswahl-Framework, um Kollateralschäden während des „Unlearnings“ zu minimieren. Da wir feststellen, dass der Modellschaden mit der Varianz der Modellrepräsentationen auf der „Forget“-Menge korreliert, beschneiden wir die „Forget“-Menge selektiv, um Ausreißer zu entfernen und so die Modellverschlechterung nach dem „Unlearning“ zu minimieren. Wir evaluieren UPCORE über drei standardmäßige „Unlearning“-Methoden hinweg und erreichen dabei konsequent ein überlegenes Gleichgewicht zwischen den konkurrierenden Zielen der Löschwirksamkeit und der Modellerhaltung. Um diesen Kompromiss besser zu bewerten, führen wir eine neue Metrik ein, die die Fläche unter der Kurve (AUC) über Standardmetriken hinweg misst. Wir stellen fest, dass UPCORE sowohl die Standardmetriken als auch die AUC verbessert, wobei es von einem positiven Transfer zwischen dem Coreset und den beschnittenen Punkten profitiert, während der negative Transfer von der „Forget“-Menge zu Punkten außerhalb davon reduziert wird.
Deep Learning hat im Bereich der Fernerkundungsbild-Änderungserkennung (Change Detection, CD) bedeutende Erfolge erzielt, doch bestehen weiterhin zwei große Herausforderungen: die Knappheit von submetergenauen, umfassenden Open-Source-CD-Datensätzen und die Schwierigkeit, konsistente und zufriedenstellende Erkennungsergebnisse über Bilder mit unterschiedlichen Änderungsbereichen hinweg zu erzielen. Um diese Probleme zu adressieren, stellen wir den JL1-CD-Datensatz vor, der 5.000 Bildpaare mit einer Auflösung von 512 x 512 Pixeln und einer räumlichen Auflösung von 0,5 bis 0,75 Metern enthält. Zusätzlich schlagen wir ein Multi-Teacher-Wissensdistillations-Framework (MTKD) für die Änderungserkennung vor. Experimentelle Ergebnisse auf den JL1-CD- und SYSU-CD-Datensätzen zeigen, dass das MTKD-Framework die Leistung von CD-Modellen mit verschiedenen Netzwerkarchitekturen und Parametergrößen signifikant verbessert und neue State-of-the-Art-Ergebnisse erzielt. Der Code ist unter https://github.com/circleLZY/MTKD-CD verfügbar.
Wir präsentieren ein Open-Source-Benchmark- und Evaluierungsframework zur Bewertung der emotionalen Grenzsetzung in Large Language Models (LLMs). Unter Verwendung eines Datensatzes von 1156 Prompts in sechs Sprachen bewerteten wir drei führende LLMs (GPT-4o, Claude-3.5 Sonnet und Mistral-large) hinsichtlich ihrer Fähigkeit, angemessene emotionale Grenzen durch musterbasierte Antwortanalysen zu wahren. Unser Framework quantifiziert Antworten anhand von sieben Schlüsselmustern: direkte Ablehnung, Entschuldigung, Erklärung, Ablenkung, Anerkennung, Grenzsetzung und emotionales Bewusstsein. Die Ergebnisse zeigen signifikante Unterschiede in den Ansätzen zur Grenzsetzung, wobei Claude-3.5 die höchste Gesamtpunktzahl (8,69/10) erreichte und längere, differenziertere Antworten (durchschnittlich 86,51 Wörter) produzierte. Wir identifizierten eine erhebliche Leistungslücke zwischen englischen (durchschnittliche Punktzahl 25,62) und nicht-englischen Interaktionen (< 0,22), wobei englische Antworten deutlich höhere Ablehnungsraten aufwiesen (43,20 % vs. < 1 % für Nicht-Englisch). Die Musteranalyse offenbarte modellspezifische Strategien, wie Mistrals Vorliebe für Ablenkung (4,2 %) und durchweg niedrige Empathiewerte bei allen Modellen (< 0,06). Zu den Einschränkungen gehören eine mögliche Vereinfachung durch Musterabgleich, mangelndes kontextuelles Verständnis in der Antwortanalyse und die binäre Klassifizierung komplexer emotionaler Reaktionen. Zukünftige Arbeiten sollten differenziertere Bewertungsmethoden erforschen, die Sprachabdeckung erweitern und kulturelle Unterschiede in den Erwartungen an emotionale Grenzen untersuchen. Unser Benchmark und unsere Methodik bieten eine Grundlage für die systematische Bewertung der emotionalen Intelligenz und der Fähigkeiten zur Grenzsetzung von LLMs.