Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat kürzlich bemerkenswerte Erfolge bei der Verbesserung der Fähigkeiten von LLMs (Large Language Models) im Bereich des logischen Denkens gezeigt, insbesondere bei mathematischen und Programmieraufgaben. Es wird allgemein angenommen, dass RLVR es LLMs ermöglicht, sich kontinuierlich selbst zu verbessern und dadurch neue Denkfähigkeiten zu erlangen, die die Kapazität der entsprechenden Basismodelle übertreffen. In dieser Studie wird diese Annahme jedoch kritisch überprüft, indem die pass@k-Metrik mit großen Werten von k gemessen wird, um die Grenzen der Denkfähigkeit der Modelle über eine breite Palette von Modellfamilien und Benchmarks hinweg zu untersuchen. Überraschenderweise führt RL tatsächlich nicht zu grundlegend neuen Denkmustern. Während RL-trainierte Modelle ihre Basismodelle bei kleineren Werten von k (z.B. k=1) übertreffen, können Basismodelle bei großen k-Werten vergleichbare oder sogar höhere pass@k-Werte im Vergleich zu ihren RL-Pendants erreichen. Die von RL-trainierten Modellen generierten Denkpfade sind bereits in der Stichprobenverteilung der Basismodelle enthalten, was darauf hindeutet, dass die meisten Denkfähigkeiten, die in RL-trainierten Modellen zum Ausdruck kommen, bereits von den Basismodellen erworben wurden. Eine weitere Analyse zeigt, dass das RL-Training die Leistung verbessert, indem es die Ausgabeverteilung des Modells in Richtung von Pfaden verzerrt, die mit höherer Wahrscheinlichkeit Belohnungen liefern und somit korrekte Antworten effizienter abtasten. Dies führt jedoch auch zu einer engeren Grenze der Denkfähigkeit im Vergleich zu Basismodellen. Ähnliche Ergebnisse werden bei visuellen Denkaufgaben beobachtet, die mit RLVR trainiert wurden. Darüber hinaus stellen wir fest, dass Distillation tatsächlich neues Wissen in das Modell einführen kann, im Gegensatz zu RLVR. Diese Erkenntnisse verdeutlichen eine kritische Einschränkung von RLVR bei der Weiterentwicklung der Denkfähigkeiten von LLMs, was uns dazu zwingt, die Auswirkungen von RL-Training auf LLMs im Bereich des logischen Denkens grundlegend zu überdenken und die Notwendigkeit eines besseren Paradigmas zu betonen. Projektseite: https://limit-of-RLVR.github.io
Retrieval-augmented Generation (RAG) ermöglicht es großen Sprachmodellen, auf externe und private Korpora zuzugreifen, wodurch faktenkonsistente Antworten in spezifischen Domänen ermöglicht werden. Durch die Nutzung der inhärenten Struktur des Korpus bereichern graphenbasierte RAG-Methoden diesen Prozess weiter, indem sie einen Wissensgraphen-Index erstellen und die strukturelle Natur von Graphen nutzen. Allerdings priorisieren aktuelle graphenbasierte RAG-Ansätze selten das Design von Graphenstrukturen. Unzureichend gestaltete Graphen behindern nicht nur die nahtlose Integration verschiedener Graphalgorithmen, sondern führen auch zu Inkonsistenzen im Workflow und einer verschlechterten Leistung. Um das Potenzial von Graphen für RAG weiter auszuschöpfen, schlagen wir NodeRAG vor, ein graphenzentriertes Framework, das heterogene Graphenstrukturen einführt, die eine nahtlose und ganzheitliche Integration graphenbasierter Methoden in den RAG-Workflow ermöglichen. Durch die enge Ausrichtung an den Fähigkeiten von LLMs gewährleistet dieses Framework einen vollständig kohäsiven und effizienten End-to-End-Prozess. Durch umfangreiche Experimente zeigen wir, dass NodeRAG Leistungsvorteile gegenüber früheren Methoden wie GraphRAG und LightRAG aufweist, nicht nur in Bezug auf Indexierungszeit, Abfragezeit und Speichereffizienz, sondern auch bei der Bereitstellung überlegener Frage-Antwort-Leistung auf Multi-Hop-Benchmarks und offenen Head-to-Head-Evaluierungen mit minimalen Retrieval-Tokens. Unser GitHub-Repository ist unter https://github.com/Terry-Xu-666/NodeRAG zu finden.
Datenqualität und Diversität sind entscheidend für die Erstellung effektiver Instruction-Tuning-Datensätze. Mit der zunehmenden Verfügbarkeit von Open-Source-Instruction-Tuning-Datensätzen ist es vorteilhaft, automatisch hochwertige und diverse Teilmengen aus einer großen Datenmenge auszuwählen. Bestehende Methoden priorisieren typischerweise die Instanzqualität und verwenden heuristische Regeln, um die Diversität zu erhalten. Das Fehlen einer umfassenden Betrachtung der gesamten Sammlung führt jedoch oft zu suboptimalen Ergebnissen. Darüber hinaus konzentrieren sich heuristische Regeln in der Regel auf Abstände oder Clustering im Embedding-Raum, was die Absicht komplexer Anweisungen im semantischen Raum nicht präzise erfassen kann. Um diese Lücke zu schließen, schlagen wir eine einheitliche Methode zur Quantifizierung des Informationsgehalts von Datensätzen vor. Diese Methode modelliert den semantischen Raum durch die Konstruktion eines Label-Graphen und quantifiziert die Diversität basierend auf der Verteilung von Informationen innerhalb des Graphen. Basierend auf einer solchen Messung führen wir weiterhin eine effiziente Sampling-Methode ein, die Datenproben iterativ auswählt, um den Informationsgewinn (Maximize the Information Gain, MIG) im semantischen Raum zu maximieren. Experimente auf verschiedenen Datensätzen und Basismodellen zeigen, dass MIG durchweg state-of-the-art Methoden übertrifft. Bemerkenswerterweise erreicht das Modell, das mit 5 % der durch MIG ausgewählten Tulu3-Daten feinabgestimmt wurde, eine vergleichbare Leistung wie das offizielle SFT-Modell, das auf dem vollständigen Datensatz trainiert wurde, mit Verbesserungen von +5,73 % auf AlpacaEval und +6,89 % auf Wildbench.
Frühere Arbeiten deuten darauf hin, dass große Sprachmodelle eine signifikante „Englisch-Verzerrung“ aufweisen, d. h. sie schneiden oft besser ab, wenn Aufgaben auf Englisch präsentiert werden. Interessanterweise haben wir beobachtet, dass die Verwendung bestimmter anderer Sprachen bei Denkaufgaben zu einer besseren Leistung führen kann als Englisch. Dieses Phänomen bleibt jedoch weitgehend unerforscht. In diesem Artikel untersuchen wir die Obergrenze der Nutzung von Mehrsprachigkeit bei Denkaufgaben und zeigen, dass mehrsprachiges Denken eine signifikant (um fast 10 Acc@k-Punkte) und robust (Toleranz gegenüber Schwankungen in der Übersetzungsqualität und Sprachwahl) höhere Obergrenze verspricht als ein rein englischsprachiges Denken. Neben der Analyse der Gründe für diese Obergrenze und der Herausforderungen, sie zu erreichen, stellen wir auch fest, dass gängige Methoden zur Antwortauswahl diese Obergrenze aufgrund ihrer Einschränkungen und Verzerrungen nicht erreichen können. Diese Erkenntnisse könnten den Weg für zukünftige Forschungen ebnen, die darauf abzielen, das Potenzial des mehrsprachigen Denkens in großen Sprachmodellen vollständig zu nutzen.
Wir untersuchen die Aufgabe der geometrischen Rekonstruktion von Bildern, die aus einer Mischung von Boden- und Luftaufnahmen erfasst wurden. Derzeitige, auf maschinellem Lernen basierende Ansätze der Spitzenklasse scheitern daran, die extremen Blickwinkelvariationen zwischen Luft-Boden-Bildpaaren zu bewältigen. Unsere Hypothese ist, dass das Fehlen von hochwertigen, ko-registrierten Luft-Boden-Datensätzen für das Training ein Hauptgrund für dieses Versagen ist. Solche Daten sind schwer zusammenzustellen, da sie in skalierbarer Weise schwer zu rekonstruieren sind. Um diese Herausforderung zu bewältigen, schlagen wir ein skalierbares Framework vor, das pseudo-synthetische Renderings aus 3D-Stadtmodellen (z. B. Google Earth) mit realen, bodennahen Crowdsourcing-Bildern (z. B. MegaDepth) kombiniert. Die pseudo-synthetischen Daten simulieren eine breite Palette von Luftaufnahmeperspektiven, während die realen, Crowdsourcing-Bilder die visuelle Qualität für bodennahe Bilder verbessern, bei denen mesh-basierte Renderings an Detailtreue mangeln, und so effektiv die Domänenlücke zwischen realen Bildern und pseudo-synthetischen Renderings überbrücken. Mit diesem hybriden Datensatz feintunen wir mehrere state-of-the-art Algorithmen und erzielen signifikante Verbesserungen bei realen, Zero-Shot-Luft-Boden-Aufgaben. Beispielsweise beobachten wir, dass der Baseline-Ansatz DUSt3R weniger als 5 % der Luft-Boden-Paare innerhalb von 5 Grad Kamerarotationsfehler lokalisiert, während das Feintuning mit unseren Daten die Genauigkeit auf fast 56 % erhöht und damit einen wesentlichen Schwachpunkt bei der Handhabung großer Blickwinkeländerungen adressiert. Neben der Kameraschätzung und Szenenrekonstruktion verbessert unser Datensatz auch die Leistung bei nachgelagerten Aufgaben wie der Synthese neuer Ansichten in anspruchsvollen Luft-Boden-Szenarien, was den praktischen Nutzen unseres Ansatzes in realen Anwendungen demonstriert.
Die Entwicklung effizienter und effektiver architektonischer Grundstrukturen stand im Mittelpunkt der Forschungsbemühungen, um die Fähigkeiten von Foundation-Modellen zu verbessern. Inspiriert vom menschlichen kognitiven Phänomen der Aufmerksamkeitsverzerrung – der natürlichen Tendenz, bestimmte Ereignisse oder Reize zu priorisieren – konzipieren wir neuronale Architekturen, einschließlich Transformers, Titans und moderner linearer rekurrenter neuronaler Netze, als assoziative Speichermodule neu, die eine Abbildung von Schlüsseln und Werten mithilfe eines internen Ziels, der sogenannten Aufmerksamkeitsverzerrung, erlernen. Überraschenderweise beobachteten wir, dass die meisten bestehenden Sequenzmodelle entweder (1) die Ähnlichkeit des Skalarprodukts oder (2) L2-Regressionsziele als ihre Aufmerksamkeitsverzerrung nutzen. Über diese Ziele hinaus stellen wir eine Reihe alternativer Konfigurationen der Aufmerksamkeitsverzerrung zusammen mit ihren effektiven Approximationen vor, um deren Trainingsverfahren zu stabilisieren. Anschließend interpretieren wir Vergessensmechanismen in modernen Deep-Learning-Architekturen als eine Form der Behaltensregularisierung und bieten eine neue Reihe von Vergessensgattern für Sequenzmodelle. Aufbauend auf diesen Erkenntnissen präsentieren wir Miras, ein allgemeines Framework zur Gestaltung von Deep-Learning-Architekturen basierend auf vier Wahlmöglichkeiten: (i) assoziative Speicherarchitektur, (ii) Aufmerksamkeitsverzerrungsziel, (iii) Behaltensgatter und (iv) Speicherlernalgorithmus. Wir stellen drei neuartige Sequenzmodelle vor – Moneta, Yaad und Memora –, die die Leistungsfähigkeit bestehender linearer RNNs übertreffen und gleichzeitig einen schnellen, parallelisierbaren Trainingsprozess beibehalten. Unsere Experimente zeigen, dass verschiedene Designentscheidungen in Miras Modelle mit unterschiedlichen Stärken hervorbringen. Beispielsweise erzielen bestimmte Instanzen von Miras außergewöhnliche Leistungen in speziellen Aufgaben wie Sprachmodellierung, Commonsense-Reasoning und erinnerungsintensiven Aufgaben und übertreffen dabei sogar Transformers und andere moderne lineare rekurrente Modelle.
Während das Verständnis der Wissensgrenzen von LLMs entscheidend ist, um Halluzinationen zu verhindern, hat sich die Forschung zu den Wissensgrenzen von LLMs bisher hauptsächlich auf die englische Sprache konzentriert. In dieser Arbeit präsentieren wir die erste Studie, die analysiert, wie LLMs Wissensgrenzen über verschiedene Sprachen hinweg erkennen, indem wir ihre internen Repräsentationen untersuchen, wenn sie bekannte und unbekannte Fragen in mehreren Sprachen verarbeiten. Unsere empirischen Studien offenbaren drei zentrale Erkenntnisse: 1) Die Wahrnehmung von Wissensgrenzen durch LLMs ist in den mittleren bis mittel-oberen Schichten über verschiedene Sprachen hinweg kodiert. 2) Sprachliche Unterschiede in der Wahrnehmung von Wissensgrenzen folgen einer linearen Struktur, was uns dazu motiviert, eine trainingsfreie Ausrichtungsmethode vorzuschlagen, die die Fähigkeit zur Wahrnehmung von Wissensgrenzen effektiv über Sprachen hinweg überträgt und somit dazu beiträgt, das Risiko von Halluzinationen in ressourcenarmen Sprachen zu verringern; 3) Feinabstimmung auf der Grundlage von zweisprachigen Fragepaar-Übersetzungen verbessert die Erkennung von Wissensgrenzen durch LLMs über Sprachen hinweg weiter. Angesichts des Fehlens standardisierter Testumgebungen für die Analyse von Wissensgrenzen über Sprachen hinweg, haben wir eine mehrsprachige Evaluationssuite konstruiert, die drei repräsentative Arten von Wissensgrenzendaten umfasst. Unser Code und unsere Datensätze sind öffentlich verfügbar unter https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries.
Die erste Generation von Large Language Models – was man als „Akt I“ der generativen KI (2020-2023) bezeichnen könnte – erzielte bemerkenswerte Erfolge durch massive Skalierung von Parametern und Daten, zeigte jedoch grundlegende Einschränkungen in Bezug auf Wissenslatenz, oberflächliches Denken und eingeschränkte kognitive Prozesse. In dieser Ära etablierte sich das Prompt Engineering als unsere primäre Schnittstelle zur KI, die eine dialogbasierte Kommunikation durch natürliche Sprache ermöglichte. Wir erleben nun den Beginn von „Akt II“ (2024-heute), in dem Modelle den Übergang von Wissensabrufsystemen (im latenten Raum) zu Denkkonstruktionsmaschinen durch Test-Time-Scaling-Techniken vollziehen. Dieses neue Paradigma schafft eine geistebasierte Verbindung zur KI durch sprachbasierte Gedanken. In diesem Artikel klären wir die konzeptionellen Grundlagen des Cognition Engineering und erklären, warum dieser Moment entscheidend für seine Entwicklung ist. Wir zerlegen diese fortgeschrittenen Ansätze systematisch durch umfassende Tutorials und optimierte Implementierungen, um den Zugang zum Cognition Engineering zu demokratisieren und jedem Praktiker die Teilnahme am zweiten Akt der KI zu ermöglichen. Wir bieten eine regelmäßig aktualisierte Sammlung von Artikeln zum Test-Time-Scaling im GitHub-Repository: https://github.com/GAIR-NLP/cognition-engineering
Die Navigation durch hochriskante Dilemmata, die widersprüchliche Werte beinhalten, ist selbst für Menschen eine Herausforderung, geschweige denn für KI. Bisherige Arbeiten zur Bewertung der Argumentationsfähigkeiten großer Sprachmodelle (LLMs) in solchen Situationen beschränkten sich jedoch auf alltägliche Szenarien. Um diese Lücke zu schließen, stellt diese Arbeit zunächst CLASH (Character perspective-based LLM Assessments in Situations with High-stakes) vor, einen sorgfältig kuratierten Datensatz, der 345 hochbedeutsame Dilemmata sowie 3.795 individuelle Perspektiven verschiedener Werte umfasst. Insbesondere wurde CLASH so gestaltet, dass es die Untersuchung kritischer Aspekte wertbasierter Entscheidungsprozesse unterstützt, die in früheren Arbeiten fehlten, darunter das Verständnis von Entscheidungsambivalenz und psychologischem Unbehagen sowie die Erfassung zeitlicher Verschiebungen von Werten in den Perspektiven der Charaktere. Durch die Bewertung von 10 offenen und geschlossenen Frontier-Modellen decken wir mehrere zentrale Erkenntnisse auf. (1) Selbst die stärksten Modelle wie GPT-4o und Claude-Sonnet erreichen eine Genauigkeit von weniger als 50 % bei der Identifizierung von Situationen, in denen die Entscheidung ambivalent sein sollte, während sie in eindeutigen Szenarien deutlich besser abschneiden. (2) Obwohl LLMs psychologisches Unbehagen, wie es von Menschen markiert wird, vernünftig vorhersagen, verstehen sie Perspektiven, die Wertverschiebungen beinhalten, unzureichend, was auf die Notwendigkeit hinweist, dass LLMs komplexe Werte berücksichtigen müssen. (3) Unsere Experimente zeigen auch eine signifikante Korrelation zwischen den Wertpräferenzen der LLMs und ihrer Steuerbarkeit in Richtung eines bestimmten Wertes. (4) Schließlich zeigen LLMs eine größere Steuerbarkeit, wenn sie in der Wertargumentation aus einer Drittperspektive engagiert sind, verglichen mit einem First-Person-Setup, obwohl bestimmte Wertpaare einzigartig von der First-Person-Rahmung profitieren.
Die Erzeugung von Szenen auf 3D-Ebene stellt eine entscheidende Grenze in der Multimedia- und Computergrafik dar, doch bestehende Ansätze leiden entweder unter begrenzten Objektkategorien oder fehlender Bearbeitungsflexibilität für interaktive Anwendungen. In diesem Artikel präsentieren wir HiScene, ein neuartiges hierarchisches Framework, das die Lücke zwischen 2D-Bildgenerierung und 3D-Objekterzeugung schließt und hochwertige Szenen mit kompositionellen Identitäten und ästhetischem Szeneninhalt liefert. Unser zentraler Ansatz besteht darin, Szenen als hierarchische „Objekte“ unter isometrischen Ansichten zu betrachten, wobei ein Raum als komplexes Objekt fungiert, das weiter in manipulierbare Elemente zerlegt werden kann. Dieser hierarchische Ansatz ermöglicht es uns, 3D-Inhalte zu generieren, die mit 2D-Darstellungen übereinstimmen, während die kompositionelle Struktur erhalten bleibt. Um die Vollständigkeit und räumliche Ausrichtung jeder zerlegten Instanz sicherzustellen, entwickeln wir eine videodiffusionsbasierte amodale Vervollständigungstechnik, die effektiv mit Verdeckungen und Schatten zwischen Objekten umgeht, und führen eine Form-Prior-Injektion ein, um die räumliche Kohärenz innerhalb der Szene zu gewährleisten. Experimentelle Ergebnisse zeigen, dass unsere Methode natürlichere Objektanordnungen und vollständige Objektinstanzen erzeugt, die für interaktive Anwendungen geeignet sind, während die physikalische Plausibilität und Ausrichtung mit Benutzereingaben erhalten bleibt.
Globale Kontextinformationen und lokale Detailmerkmale sind entscheidend für Aufgaben der Nebelentfernung. Deep-Learning-Modelle zeigen gute Leistungen bei kleinen, niedrigauflösenden Bildern, stoßen jedoch bei großen, hochauflösenden Bildern aufgrund von GPU-Speicherbeschränkungen auf Schwierigkeiten. Als Kompromiss greifen sie oft auf Bildsegmentierung oder Herunterskalierung zurück. Erstere reduziert globale Informationen, während letztere hochfrequente Details verwirft. Um diese Herausforderungen zu bewältigen, schlagen wir DehazeXL vor, eine Methode zur Nebelentfernung, die effektiv globalen Kontext und lokale Merkmalsextraktion ausbalanciert und eine end-to-end-Modellierung großer Bilder auf gängiger GPU-Hardware ermöglicht. Zusätzlich haben wir, um die Effizienz der globalen Kontextnutzung für die Nebelentfernung zu bewerten, eine visuelle Attributionsmethode entwickelt, die auf die Eigenschaften von Nebelentfernungsaufgaben zugeschnitten ist. Schließlich haben wir, angesichts des Mangels an Benchmark-Datensätzen für die Nebelentfernung in großen Bildern, einen ultrahochauflösenden Nebelentfernungsdatensatz (8KDehaze) erstellt, um das Training und Testen von Modellen zu unterstützen. Dieser umfasst 10.000 Paare von klaren und nebligen Fernerkundungsbildern, jeweils in der Größe von 8192 mal 8192 Pixeln. Umfangreiche Experimente zeigen, dass DehazeXL Bilder bis zu 10240 mal 10240 Pixeln mit nur 21 GB Speicher inferieren kann und dabei state-of-the-art-Ergebnisse unter allen bewerteten Methoden erzielt. Der Quellcode und der experimentelle Datensatz sind unter https://github.com/CastleChen339/DehazeXL verfügbar.
Jüngste Fortschritte bei großen Reasoning-Modellen (LRMs) haben die Wirksamkeit der Skalierung von Testzeit-Berechnungen zur Verbesserung der Reasoning-Fähigkeiten bei verschiedenen Aufgaben gezeigt. Allerdings leiden LRMs typischerweise unter „Overthinking“-Problemen, bei denen Modelle deutlich redundante Reasoning-Schritte erzeugen, während sie nur begrenzte Leistungssteigerungen bringen. Bisherige Arbeiten setzen auf Feinabstimmung, um Overthinking zu mildern, was zusätzliche Daten, unkonventionelle Trainingsaufbauten, riskante Sicherheitsfehlausrichtungen und eine schlechte Generalisierung erfordert. Durch empirische Analysen decken wir eine wichtige Eigenschaft des LRM-Verhaltens auf: Das Platzieren externer CoTs, die von kleineren Modellen generiert werden, zwischen den Denk-Tokens (<think> und </think>) kann das Modell effektiv dazu bringen, weniger Gedanken zu erzeugen. Aufbauend auf diesen Erkenntnissen schlagen wir eine einfache, aber effiziente Pipeline, ThoughtMani, vor, um LRMs zu ermöglichen, unnötige Zwischenschritte zu umgehen und die Rechenkosten erheblich zu reduzieren. Wir führen umfangreiche Experimente durch, um die Nützlichkeit und Effizienz von ThoughtMani zu validieren. Beispielsweise reduziert ThoughtMani, wenn es auf QwQ-32B im LiveBench/Code-Datensatz angewendet wird, die Anzahl der Ausgabe-Tokens um etwa 30 %, bei gleichbleibender ursprünglicher Leistung und geringem Overhead durch den CoT-Generator. Darüber hinaus stellen wir fest, dass ThoughtMani die Sicherheitsausrichtung im Durchschnitt um 10 % verbessert. Da Modellanbieter typischerweise Modelle unterschiedlicher Größe gleichzeitig bereitstellen, bietet ThoughtMani eine effektive Möglichkeit, effizientere und zugänglichere LRMs für reale Anwendungen zu konstruieren.
Die breite Einführung von KI-Systemen in der Wirtschaft hängt von ihrer Fähigkeit ab, wirtschaftlichen Wert zu generieren, der ihre Inferenzkosten übersteigt. Die Bewertung dieses Trade-offs erfordert Metriken, die sowohl die Leistung als auch die Kosten berücksichtigen. Wir schlagen ein auf der Produktionstheorie basierendes Framework zur Bewertung von Sprachmodellen vor, das Genauigkeit und Inferenzkosten kombiniert. Wir führen den Begriff „Cost-of-Pass“ ein, die erwarteten monetären Kosten für die Generierung einer korrekten Lösung. Anschließend definieren wir den „Frontier Cost-of-Pass“ als die minimal erreichbaren Cost-of-Pass über verfügbare Modelle oder den „Human-Expert“, unter Verwendung der ungefähren Kosten für die Beauftragung eines Experten. Unsere Analyse liefert deutliche wirtschaftliche Erkenntnisse. Erstens sind leichte Modelle für grundlegende quantitative Aufgaben am kosteneffizientesten, große Modelle für wissensintensive Aufgaben und Reasoning-Modelle für komplexe quantitative Probleme, trotz höherer Kosten pro Token. Zweitens zeigt die Verfolgung dieses Frontier Cost-of-Pass im vergangenen Jahr erhebliche Fortschritte, insbesondere bei komplexen quantitativen Aufgaben, bei denen sich die Kosten alle paar Monate ungefähr halbiert haben. Drittens untersuchen wir, um die Schlüsselinnovationen zu identifizieren, die diesen Fortschritt vorantreiben, kontrafaktuelle Grenzen: Schätzungen der Kosteneffizienz ohne bestimmte Modellklassen. Wir stellen fest, dass Innovationen in leichten, großen und Reasoning-Modellen entscheidend waren, um die Grenze bei grundlegenden quantitativen, wissensintensiven und komplexen quantitativen Aufgaben voranzutreiben. Schließlich bewerten wir die Kostensenkungen, die durch gängige Inferenzzeit-Techniken wie Mehrheitsabstimmung und Selbstverfeinerung ermöglicht werden, und stellen fest, dass ihre marginalen Genauigkeitsgewinne ihre Kosten selten rechtfertigen. Unsere Ergebnisse unterstreichen, dass komplementäre Innovationen auf Modellebene die primären Treiber der Kosteneffizienz sind, und unser wirtschaftliches Framework bietet ein prinzipielles Werkzeug, um diesen Fortschritt zu messen und die Bereitstellung zu steuern.
Trotz jüngster Fortschritte bei Large Video Language Models (LVLMs) haben diese immer noch Schwierigkeiten mit feinkörnigem zeitlichem Verständnis, neigen zu Halluzinationen und machen oft einfache Fehler bei selbst simplen Video-Frage-Antwort-Aufgaben. Diese Probleme stellen erhebliche Herausforderungen für den sicheren und zuverlässigen Einsatz in realen Anwendungen dar. Um diese Einschränkungen zu überwinden, schlagen wir ein Selbstanpassungs-Framework vor, das LVLMs ermöglicht, aus ihren eigenen Fehlern zu lernen. Unser vorgeschlagenes Framework erstellt zunächst einen Trainingsdatensatz aus bevorzugten und nicht bevorzugten Antwortpaaren, wobei die nicht bevorzugten Antworten durch die Einbindung häufiger Fehlermuster generiert werden, die oft aufgrund unzureichenden räumlich-zeitlichen Verständnisses, falscher Korrelationen zwischen gleichzeitig auftretenden Konzepten und einer übermäßigen Abhängigkeit von linguistischen Hinweisen bei Vernachlässigung der visuellen Modalität entstehen. Um die Selbstanpassung der LVLMs an die konstruierten bevorzugten und nicht bevorzugten Antwortpaare zu erleichtern, führen wir Refined Regularized Preference Optimization (RRPO) ein, eine neuartige Präferenzoptimierungsmethode, die verfeinerte Belohnungen auf Untersequenzebene und tokenweise KL-Regularisierung nutzt, um die Grenzen von Direct Preference Optimization (DPO) zu überwinden. Wir zeigen, dass RRPO im Vergleich zu DPO eine präzisere Anpassung und stabileres Training erreicht. Unsere Experimente und Analysen bestätigen die Wirksamkeit unseres Ansatzes über verschiedene Videoaufgaben hinweg, einschließlich Video-Halluzinationen, Kurz- und Langzeit-Video-Verständnis sowie feinkörniger zeitlicher Argumentation.
Die Quantifizierung von Unsicherheit (Uncertainty Quantification, UQ) in Sprachmodellen (Language Models, LMs) ist entscheidend, um deren Sicherheit und Zuverlässigkeit zu verbessern. Bewertungen verwenden häufig Leistungsmetriken wie AUROC, um zu beurteilen, wie gut UQ-Methoden (z. B. negative Sequenzwahrscheinlichkeiten) mit Korrektheitsfunktionen (z. B. ROUGE-L) korrelieren. In diesem Artikel zeigen wir, dass häufig verwendete Korrektheitsfunktionen UQ-Bewertungen verzerren, indem sie die Leistung bestimmter UQ-Methoden überbewerten. Wir evaluieren 7 Korrektheitsfunktionen – von lexikalischen und embedding-basierten Metriken bis hin zu LLM-as-a-Judge-Ansätzen – über 4 Datensätze × 4 Modelle × 6 UQ-Methoden. Unsere Analyse zeigt, dass Längenverzerrungen in den Fehlern dieser Korrektheitsfunktionen die UQ-Bewertungen verzerren, indem sie mit Längenverzerrungen in UQ-Methoden interagieren. Wir identifizieren LLM-as-a-Judge-Ansätze als eine der am wenigsten längenverzerrten Optionen und damit als potenzielle Lösung, um diese Verzerrungen zu mildern.
Effektive Rauschunterdrückung ist entscheidend bei der Niedrigdosis-CT, um subtile Strukturen und Kontrastarme Läsionen zu verbessern und gleichzeitig diagnostische Fehler zu vermeiden. Überwachte Methoden kämpfen mit begrenzten gepaarten Datensätzen, und selbstüberwachte Ansätze benötigen oft mehrere verrauschte Bilder und stützen sich auf tiefe Netzwerke wie U-Net, bieten jedoch wenig Einblick in den Rauschunterdrückungsmechanismus. Um diese Herausforderungen zu bewältigen, schlagen wir ein interpretierbares, selbstüberwachtes Einzelbild-Rauschunterdrückungsframework vor – Filter2Noise (F2N). Unser Ansatz führt einen aufmerksamkeitsgesteuerten bilateralen Filter ein, der sich durch ein leichtgewichtiges Modul an jedes verrauschte Eingabebild anpasst, das räumlich variierende Filterparameter vorhersagt. Diese Parameter können nach dem Training visualisiert und angepasst werden, um eine benutzerkontrollierte Rauschunterdrückung in spezifischen Regionen von Interesse zu ermöglichen. Um das Training mit einem einzelnen Bild zu ermöglichen, führen wir eine neuartige Downsampling-Shuffle-Strategie mit einer neuen selbstüberwachten Verlustfunktion ein, die das Konzept von Noise2Noise auf ein einzelnes Bild erweitert und räumlich korreliertes Rauschen berücksichtigt. Auf dem Mayo Clinic 2016 Niedrigdosis-CT-Datensatz übertrifft F2N die führende selbstüberwachte Einzelbildmethode (ZS-N2N) um 4,59 dB PSNR und verbessert gleichzeitig die Transparenz, Benutzerkontrolle und parametrische Effizienz. Diese Merkmale bieten entscheidende Vorteile für medizinische Anwendungen, die eine präzise und interpretierbare Rauschreduktion erfordern. Unser Code ist unter https://github.com/sypsyp97/Filter2Noise.git verfügbar.