papers.description
Wir präsentieren eine einfache, aber theoretisch fundierte Verbesserung des Supervised Fine-Tuning (SFT) für Large Language Models (LLMs), die dessen begrenzte Generalisierungsfähigkeit im Vergleich zum Reinforcement Learning (RL) adressiert. Durch mathematische Analysen zeigen wir, dass die Standard-SFT-Gradienten implizit eine problematische Belohnungsstruktur kodieren, die die Generalisierungsfähigkeit des Modells erheblich einschränken kann. Um dies zu beheben, schlagen wir Dynamic Fine-Tuning (DFT) vor, das Gradientenupdates für jedes Token stabilisiert, indem die Zielfunktion dynamisch mit der Wahrscheinlichkeit dieses Tokens neu skaliert wird. Bemerkenswerterweise übertrifft diese einzeilige Codeänderung das Standard-SFT deutlich in mehreren anspruchsvollen Benchmarks und Basismodellen und zeigt eine deutlich verbesserte Generalisierung. Darüber hinaus erzielt unser Ansatz wettbewerbsfähige Ergebnisse in Offline-RL-Szenarien und bietet eine effektive, aber einfachere Alternative. Diese Arbeit verbindet theoretische Einsichten mit praktischen Lösungen und verbessert die SFT-Leistung erheblich. Der Code wird unter https://github.com/yongliang-wu/DFT verfügbar sein.
Selbstentwickelnde Large Language Models (LLMs) bieten einen skalierbaren Weg hin zu Superintelligenz, indem sie autonom ihre eigenen Erfahrungen generieren, verfeinern und daraus lernen. Allerdings basieren bestehende Methoden zur Ausbildung solcher Modelle noch stark auf einer Vielzahl von menschlich kuratierten Aufgaben und Labels, typischerweise durch Feinabstimmung oder bestärkendes Lernen, was einen grundlegenden Engpass für die Weiterentwicklung von KI-Systemen hin zu Fähigkeiten jenseits der menschlichen Intelligenz darstellt. Um diese Einschränkung zu überwinden, führen wir R-Zero ein, ein vollständig autonomes Framework, das seine eigenen Trainingsdaten von Grund auf generiert. Ausgehend von einem einzigen Basis-LLM initialisiert R-Zero zwei unabhängige Modelle mit unterschiedlichen Rollen, einen Herausforderer und einen Löser. Diese Modelle werden separat optimiert und entwickeln sich durch Interaktion gemeinsam weiter: Der Herausforderer wird dafür belohnt, Aufgaben nahe der Grenze der Fähigkeiten des Lösers vorzuschlagen, und der Löser wird dafür belohnt, zunehmend schwierige Aufgaben zu lösen, die vom Herausforderer gestellt werden. Dieser Prozess erzeugt einen gezielten, sich selbst verbessernden Lehrplan ohne vordefinierte Aufgaben und Labels. Empirisch verbessert R-Zero die Fähigkeit zum logischen Denken erheblich über verschiedene Basis-LLMs hinweg, z. B. steigert es die Leistung von Qwen3-4B-Base um +6,49 bei mathematischen Denkaufgaben und um +7,54 bei allgemeinen Denkaufgaben.
Wir stellen Genie Envisioner (GE) vor, eine einheitliche Plattform für die Grundlagen der robotischen Manipulation, die Politik-Lernen, Bewertung und Simulation innerhalb eines einzigen video-generativen Frameworks integriert. Im Kern von GE-Base befindet sich ein groß angelegtes, anweisungsbedingtes Video-Diffusionsmodell, das die räumlichen, zeitlichen und semantischen Dynamiken realer robotischer Interaktionen in einem strukturierten latenten Raum erfasst. Auf dieser Grundlage aufbauend, bildet GE-Act latente Repräsentationen durch einen leichten, flussabgleichenden Decoder auf ausführbare Aktionsbahnen ab, wodurch präzise und generalisierbare Politik-Inferenz über diverse Verkörperungen hinweg mit minimaler Überwachung ermöglicht wird. Um skalierbare Bewertung und Training zu unterstützen, dient GE-Sim als ein aktionsbedingter neuronaler Simulator, der hochwertige Rollouts für die Entwicklung geschlossener Regelkreise erzeugt. Die Plattform ist weiterhin mit EWMBench ausgestattet, einer standardisierten Benchmark-Suite, die visuelle Treue, physikalische Konsistenz und Anweisungs-Aktions-Ausrichtung misst. Zusammen etablieren diese Komponenten Genie Envisioner als eine skalierbare und praktische Grundlage für anweisungsgesteuerte, allgemeinzweckfähige verkörperte Intelligenz. Der gesamte Code, die Modelle und Benchmarks werden öffentlich freigegeben.
Obwohl Vision-Language-Modelle (VLMs) starke Wahrnehmungsfähigkeiten und beeindruckende visuelle Schlussfolgerungen aufweisen, haben sie Schwierigkeiten mit der Detailgenauigkeit und präzisen Handlungsplanung in komplexen, dynamischen Umgebungen, was zu einer unterdurchschnittlichen Leistung führt. Reale Aufgaben erfordern typischerweise komplexe Interaktionen, fortgeschrittenes räumliches Denken, langfristige Planung und kontinuierliche Strategieverfeinerung, was meist ein Verständnis der physikalischen Regeln des Zielscenarios voraussetzt. Die Bewertung dieser Fähigkeiten in realen Szenarien ist jedoch oft unverhältnismäßig teuer. Um diese Lücke zu schließen, stellen wir DeepPHY vor, ein neuartiges Benchmark-Framework, das entwickelt wurde, um das Verständnis und die Schlussfolgerungsfähigkeit von VLMs bezüglich grundlegender physikalischer Prinzipien systematisch durch eine Reihe anspruchsvoller simulierte Umgebungen zu bewerten. DeepPHY integriert mehrere physikalische Denkumgebungen mit unterschiedlichen Schwierigkeitsgraden und beinhaltet fein abgestufte Bewertungsmetriken. Unsere Auswertung zeigt, dass selbst state-of-the-art VLMs Schwierigkeiten haben, beschreibendes physikalisches Wissen in präzise, vorhersagende Steuerung umzusetzen.
Trotz rasanter Fortschritte in der 3D-Inhaltsgenerierung bleibt die Qualitätsbewertung der erzeugten 3D-Assets eine Herausforderung. Bestehende Methoden stützen sich hauptsächlich auf bildbasierte Metriken und operieren ausschließlich auf Objektebene, was ihre Fähigkeit einschränkt, räumliche Kohärenz, Materialauthentizität und hochauflösende lokale Details zu erfassen. 1) Um diese Herausforderungen zu bewältigen, führen wir Hi3DEval ein, ein hierarchisches Bewertungsframework, das speziell für generative 3D-Inhalte entwickelt wurde. Es kombiniert sowohl objekt- als auch teilebasierte Bewertungen und ermöglicht so ganzheitliche Bewertungen über mehrere Dimensionen hinweg sowie eine feingranulare Qualitätsanalyse. Darüber hinaus erweitern wir die Texturbewertung über das ästhetische Erscheinungsbild hinaus, indem wir explizit die Materialrealität bewerten, wobei wir uns auf Attribute wie Albedo, Sättigung und Metallizität konzentrieren. 2) Zur Unterstützung dieses Frameworks erstellen wir Hi3DBench, einen umfangreichen Datensatz, der diverse 3D-Assets und hochwertige Annotationen umfasst, begleitet von einer zuverlässigen Multi-Agenten-Annotationspipeline. Wir schlagen außerdem ein 3D-basiertes automatisiertes Bewertungssystem vor, das auf hybriden 3D-Repräsentationen basiert. Insbesondere nutzen wir videobasierte Repräsentationen für objekt- und materialbezogene Bewertungen, um die Modellierung der raumzeitlichen Konsistenz zu verbessern, und verwenden vortrainierte 3D-Features für die teilebasierte Wahrnehmung. Umfangreiche Experimente zeigen, dass unser Ansatz bestehende bildbasierte Metriken in der Modellierung von 3D-Charakteristiken übertrifft und eine überlegene Übereinstimmung mit menschlichen Präferenzen erreicht, wodurch eine skalierbare Alternative zu manuellen Bewertungen geboten wird. Die Projektseite ist unter https://zyh482.github.io/Hi3DEval/ verfügbar.
Retrieval-Augmented Generation (RAG)-Systeme, die Multimodale Große Sprachmodelle (MLLMs) verwenden, zeigen großes Potenzial für das Verständnis komplexer Dokumente, doch ihre Entwicklung wird kritisch durch unzureichende Evaluierung behindert. Aktuelle Benchmarks konzentrieren sich oft auf spezifische Teile von Dokument-RAG-Systemen und verwenden synthetische Daten mit unvollständigen Ground-Truth- und Evidenzlabels, wodurch sie die realen Engpässe und Herausforderungen nicht widerspiegeln. Um diese Einschränkungen zu überwinden, stellen wir Double-Bench vor: ein neues groß angelegtes, mehrsprachiges und multimodales Evaluierungssystem, das in der Lage ist, eine detaillierte Bewertung jeder Komponente innerhalb von Dokument-RAG-Systemen zu liefern. Es umfasst 3.276 Dokumente (72.880 Seiten) und 5.168 Einzel- und Mehrschritt-Abfragen in 6 Sprachen und 4 Dokumenttypen mit optimierter dynamischer Aktualisierungsunterstützung für potenzielle Datenkontaminationsprobleme. Die Abfragen basieren auf umfassend gescannten Evidenzseiten und wurden von menschlichen Experten verifiziert, um maximale Qualität und Vollständigkeit zu gewährleisten. Unsere umfangreichen Experimente mit 9 state-of-the-art Embedding-Modellen, 4 MLLMs und 4 end-to-end Dokument-RAG-Frameworks zeigen, dass die Lücke zwischen Text- und visuellen Embedding-Modellen schrumpft, was die Notwendigkeit stärkerer Dokument-Retrieval-Modelle unterstreicht. Unsere Ergebnisse offenbaren auch das Übervertrauens-Dilemma in aktuellen Dokument-RAG-Frameworks, die dazu neigen, Antworten zu liefern, selbst ohne Evidenzunterstützung. Wir hoffen, dass unser vollständig quelloffenes Double-Bench eine solide Grundlage für zukünftige Forschungen in fortgeschrittenen Dokument-RAG-Systemen bietet. Wir planen, zeitnahe Korpora zu erfassen und jährlich neue Benchmarks zu veröffentlichen.
Wohlbefinden umfasst mentale, physische und soziale Dimensionen, die für persönliches Wachstum und fundierte Lebensentscheidungen essenziell sind. Da Individuen zunehmend Large Language Models (LLMs) konsultieren, um Wohlbefinden zu verstehen, ergibt sich eine zentrale Herausforderung: Können LLMs Erklärungen generieren, die nicht nur präzise, sondern auch auf diverse Zielgruppen zugeschnitten sind? Hochwertige Erklärungen erfordern sowohl faktische Korrektheit als auch die Fähigkeit, die Erwartungen von Nutzern mit unterschiedlichem Fachwissen zu erfüllen. In dieser Arbeit erstellen wir einen umfangreichen Datensatz, der 43.880 Erklärungen zu 2.194 Wohlbefindenskonzepten umfasst, die von zehn verschiedenen LLMs generiert wurden. Wir führen ein prinzipiengeleitetes LLM-as-a-Judge-Bewertungsframework ein, das duale Bewerter einsetzt, um die Qualität der Erklärungen zu beurteilen. Darüber hinaus zeigen wir, dass das Feinabstimmen eines Open-Source-LLMs mittels Supervised Fine-Tuning (SFT) und Direct Preference Optimization (DPO) die Qualität der generierten Erklärungen signifikant verbessern kann. Unsere Ergebnisse zeigen: (1) Die vorgeschlagenen LLM-Bewerter stimmen gut mit menschlichen Bewertungen überein; (2) die Erklärungsqualität variiert erheblich zwischen Modellen, Zielgruppen und Kategorien; und (3) mit DPO und SFT feinabgestimmte Modelle übertreffen ihre größeren Gegenstücke, was die Effektivität des präferenzbasierten Lernens für spezialisierte Erklärungsaufgaben demonstriert.
In jüngster Zeit sind Large Reasoning Models (LRMs) aufgrund ihrer herausragenden Leistung bei der Bewältigung komplexer Aufgaben zunehmend zu einem Forschungsschwerpunkt geworden. Unter ihnen hat DeepSeek R1 aufgrund seiner außergewöhnlichen Leistung und seines Open-Source-Charakters besondere Aufmerksamkeit erregt und die Fortschritte in der Forschung zu R1-artigen LRMs vorangetrieben. Im Gegensatz zu traditionellen Large Language Models (LLMs) verbessern diese Modelle die Fähigkeiten zur logischen Deduktion und Entscheidungsfindung während des Schlussfolgerns durch die Integration von Mechanismen wie langen Gedankenketten und Selbstreflexion durch Reinforcement Learning. Mit der zunehmenden Verbreitung dieser Modelle hat sich jedoch allmählich das Problem des Überdenkens herausgestellt. Insbesondere bei der Generierung von Antworten konstruieren diese Modelle oft übermäßig lange Schlussfolgerungsketten mit redundanten oder sich wiederholenden Schritten, was zu einer verringerten Effizienz des Schlussfolgerns führt und die Genauigkeit der endgültigen Antwort beeinträchtigen kann. Zu diesem Zweck wurden verschiedene effiziente Schlussfolgerungsmethoden vorgeschlagen, die darauf abzielen, die Länge der Schlussfolgerungspfade zu reduzieren, ohne die Modellleistung und die Schlussfolgerungsfähigkeit zu beeinträchtigen. Durch eine systematische Überprüfung der aktuellen Forschungsergebnisse im Bereich der effizienten Schlussfolgerungsmethoden kategorisieren wir bestehende Arbeiten in zwei Hauptrichtungen, basierend auf der Perspektive der Einzelmodelloptimierung versus Modellkollaboration: (1) Effizientes Schlussfolgern mit Einzelmodell, das sich auf die Verbesserung der Schlussfolgerungseffizienz einzelner Modelle konzentriert; und (2) Effizientes Schlussfolgern mit Modellkollaboration, das die Optimierung von Schlussfolgerungspfaden durch die Zusammenarbeit mehrerer Modelle untersucht. Darüber hinaus pflegen wir ein öffentliches GitHub-Repository, das die neuesten Fortschritte in effizienten Schlussfolgerungsmethoden verfolgt.
Dieses Papier stellt ein multifunktionales Sprachsynthesesystem vor, das Sprachklonung und emotionsgesteuerte Sprachsynthese in einem einheitlichen Framework integriert. Das Ziel dieser Arbeit ist es, langjährige Herausforderungen bei der Erzeugung von hochgradig ausdrucksstarker, kontrollierbarer und natürlicher Sprache zu bewältigen, die die Sprecheridentität über verschiedene linguistische und emotionale Kontexte hinweg treu bewahrt. Unser Ansatz führt einen effektiven Mechanismus zur Trennung von Sprecher und Emotion mit In-Batch-Kontrastlernen ein, der eine unabhängige Manipulation der Sprecheridentität und des emotionalen Stils sowie eine Methode zur Integration von rotierenden emotionalen Einbettungen für eine sanfte Emotionskontrolle ermöglicht. Um umfassendes Training und Evaluation zu unterstützen, haben wir CSEMOTIONS konstruiert, einen hochwertigen emotionalen Sprachdatensatz, der 10 Stunden Mandarin-Sprache von sechs professionellen Sprechern über sieben emotionale Kategorien hinweg enthält. Umfangreiche Experimente zeigen, dass unser System, Marco-Voice, erhebliche Verbesserungen sowohl in objektiven als auch subjektiven Metriken erzielt. Umfassende Evaluierungen und Analysen wurden durchgeführt, und die Ergebnisse zeigen, dass MarcoVoice wettbewerbsfähige Leistungen in Bezug auf Sprachklarheit und emotionale Reichhaltigkeit liefert und damit einen wesentlichen Fortschritt im Bereich der ausdrucksstarken neuronalen Sprachsynthese darstellt.
Autonome Agenten, die Computer über grafische Benutzeroberflächen (GUIs) steuern, haben oft mit Effizienz und Zuverlässigkeit bei komplexen, langfristigen Aufgaben zu kämpfen. Während die Erweiterung dieser Agenten um Planer die Aufgabenzerlegung verbessern kann, bleiben sie durch die inhärenten Einschränkungen des Ausführens aller Aktionen über GUI-Manipulation eingeschränkt, was zu Brüchigkeit und Ineffizienz führt. In dieser Arbeit stellen wir ein robusteres und flexibleres Paradigma vor: die Befähigung von Agenten, Programmierung als erweiterte Aktion zu nutzen. Wir präsentieren CoAct-1, ein neuartiges Multi-Agenten-System, das GUI-basierte Steuerung mit direkter programmatischer Ausführung synergetisch kombiniert. CoAct-1 verfügt über einen Orchestrator, der dynamisch Teilaufgaben entweder einem konventionellen GUI-Operator oder einem spezialisierten Programmierer-Agenten zuweist, der Python- oder Bash-Skripte schreiben und ausführen kann. Dieser hybride Ansatz ermöglicht es dem Agenten, ineffiziente GUI-Aktionssequenzen für Aufgaben wie Dateiverwaltung und Datenverarbeitung zu umgehen, während er bei Bedarf weiterhin visuelle Interaktion nutzt. Wir evaluieren unser System auf dem anspruchsvollen OSWorld-Benchmark, wo CoAct-1 eine neue Bestmarke von 60,76 % Erfolgsrate erreicht und damit bisherige Methoden deutlich übertrifft. Darüber hinaus verbessert unser Ansatz die Effizienz erheblich und reduziert die durchschnittliche Anzahl der Schritte zur Aufgabenerledigung auf nur 10,15, verglichen mit 15 bei führenden GUI-Agenten. Unsere Ergebnisse zeigen, dass die Integration von Programmierung als Kernaktion einen leistungsfähigeren, effizienteren und skalierbareren Weg zur allgemeinen Computerautomatisierung bietet.
Große Multimodale Modelle (LMMs) haben ein bemerkenswertes Wachstum erfahren und zeigen beeindruckende Fähigkeiten bei der Bewältigung komplexer multimodaler Aufgaben mit außergewöhnlicher Leistung. Jüngste Forschungen haben die Tendenz großer Sprachmodelle hervorgehoben, fehlerhafte Eingaben passiv zu akzeptieren, was oft zu nutzlosen Schlussfolgerungen bei ungültigen Eingabeaufforderungen führt. Die entscheidende Frage, ob LMMs aktiv fehlerhafte Eingaben erkennen und überprüfen können, bleibt jedoch weiterhin unerforscht. Um diese Lücke zu schließen, führen wir das Input Scrutiny Ability Evaluation Framework (ISEval) ein, das sieben Kategorien fehlerhafter Prämissen und drei Bewertungsmetriken umfasst. Unsere umfangreiche Bewertung von zehn fortgeschrittenen LMMs hat wichtige Erkenntnisse erbracht. Die meisten Modelle haben Schwierigkeiten, fehlerhafte textuelle Prämissen ohne Anleitung aktiv zu erkennen, was eine starke Abhängigkeit von expliziten Eingabeaufforderungen zur Identifizierung von Prämissenfehlern widerspiegelt. Der Fehlertyp beeinflusst die Leistung: Modelle sind gut darin, logische Fehlschlüsse zu identifizieren, haben jedoch Schwierigkeiten mit oberflächlichen linguistischen Fehlern und bestimmten konditionalen Fehlern. Die Vertrauenswürdigkeit der Modalität variiert – Gemini 2.5 Pro und Claude Sonnet 4 balancieren visuelle und textuelle Informationen aus, während aya-vision-8b bei Konflikten übermäßig auf Text vertraut. Diese Erkenntnisse unterstreichen die dringende Notwendigkeit, die proaktive Überprüfung der Eingabegültigkeit durch LMMs zu verbessern, und bieten neue Einblicke in die Lösung dieses Problems. Der Code ist verfügbar unter https://github.com/MLGroupJLU/LMM_ISEval.
Effektiver Kundensupport erfordert nicht nur präzise Problemlösung, sondern auch strukturierte und einfühlsame Kommunikation, die professionellen Standards entspricht. Allerdings mangelt es in bestehenden Dialogdatensätzen oft an strategischer Anleitung, und reale Servicedaten sind schwer zugänglich und zu annotieren. Um dies zu adressieren, führen wir die Aufgabe der Kundensupport-Konversation (Customer Support Conversation, CSC) ein, die darauf abzielt, Kundenservice-Mitarbeiter darin zu schulen, mithilfe klar definierter Supportstrategien zu antworten. Wir schlagen ein strukturiertes CSC-Rahmenwerk vor, das auf COPC-Richtlinien basiert und fünf Konversationsphasen sowie zwölf Strategien definiert, um hochwertige Interaktionen zu leiten. Auf dieser Grundlage erstellen wir CSConv, einen Evaluationsdatensatz von 1.855 realen Kunden-Agenten-Konversationen, die mithilfe von LLMs umgeschrieben wurden, um gezielte Strategieanwendung widerzuspiegeln und entsprechend annotiert sind. Zusätzlich entwickeln wir einen Rollenspielansatz, der strategiereiche Konversationen simuliert, indem LLM-gestützte Rollen verwendet werden, die mit dem CSC-Rahmenwerk abgestimmt sind, was den Trainingsdatensatz RoleCS ergibt. Experimente zeigen, dass das Feinabstimmen starker LLMs auf RoleCS ihre Fähigkeit signifikant verbessert, hochwertige, strategieorientierte Antworten auf CSConv zu generieren. Menschliche Bewertungen bestätigen weiterhin Verbesserungen in der Problemlösung. Der gesamte Code und die Daten werden öffentlich unter https://github.com/aliyun/qwen-dianjin verfügbar gemacht.
Die Video-Objektssegmentierung (VOS) zielt darauf ab, spezifizierte Zielobjekte in einem Video zu segmentieren. Obwohl state-of-the-art-Methoden beeindruckende Leistungen (z. B. 90+ % J&F) auf bestehenden Benchmarks wie DAVIS und YouTube-VOS erzielt haben, enthalten diese Datensätze hauptsächlich auffällige, dominante und isolierte Objekte, was ihre Generalisierbarkeit auf reale Szenarien einschränkt. Um die VOS in Richtung realistischerer Umgebungen voranzutreiben, wurde coMplex video Object SEgmentation (MOSEv1) eingeführt, um die VOS-Forschung in komplexen Szenen zu fördern. Aufbauend auf den Stärken und Schwächen von MOSEv1 präsentieren wir MOSEv2, einen deutlich anspruchsvolleren Datensatz, der entwickelt wurde, um VOS-Methoden unter realen Bedingungen weiter voranzubringen. MOSEv2 besteht aus 5.024 Videos und über 701.976 hochwertigen Masken für 10.074 Objekte aus 200 Kategorien. Im Vergleich zu seinem Vorgänger führt MOSEv2 eine deutlich größere Szenenkomplexität ein, einschließlich häufigerem Verschwinden und Wiederauftauchen von Objekten, schweren Verdeckungen und Überfüllung, kleineren Objekten sowie einer Reihe neuer Herausforderungen wie widrige Wetterbedingungen (z. B. Regen, Schnee, Nebel), Szenen mit geringer Beleuchtung (z. B. Nacht, Unterwasser), Mehrfachsequenzen, getarnte Objekte, nicht-physische Ziele (z. B. Schatten, Reflexionen), Szenarien, die externes Wissen erfordern, usw. Wir benchmarken 20 repräsentative VOS-Methoden unter 5 verschiedenen Einstellungen und beobachten konsistente Leistungseinbußen. Beispielsweise fällt SAM2 von 76,4 % auf MOSEv1 auf nur 50,9 % auf MOSEv2. Wir evaluieren weiterhin 9 Video-Objekttracking-Methoden und stellen ähnliche Rückgänge fest, was zeigt, dass MOSEv2 Herausforderungen über verschiedene Aufgaben hinweg bietet. Diese Ergebnisse verdeutlichen, dass aktuelle VOS-Methoden trotz hoher Genauigkeit auf bestehenden Datensätzen immer noch Schwierigkeiten mit den Komplexitäten der realen Welt haben. MOSEv2 ist öffentlich verfügbar unter https://MOSE.video.
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten im Bereich des logischen Denkens bei einer Vielzahl komplexer Aufgaben gezeigt. Die Verbesserung dieser Fähigkeiten durch Nachschulung bleibt jedoch ressourcenintensiv, insbesondere in Bezug auf Daten- und Rechenkosten. Obwohl jüngste Bemühungen darauf abzielen, die Stichprobeneffizienz durch selektive Datenkuratierung zu steigern, basieren bestehende Methoden oft auf heuristischen oder aufgabenspezifischen Strategien, die die Skalierbarkeit behindern. In dieser Arbeit stellen wir InfiAlign vor, ein skalierbares und stichprobeneffizientes Nachschulungsframework, das überwachtes Feintuning (SFT) mit Direct Preference Optimization (DPO) kombiniert, um LLMs für verbessertes logisches Denken auszurichten. Kern von InfiAlign ist eine robuste Datenauswahlpipeline, die automatisch hochwertige Ausrichtungsdaten aus Open-Source-Datensätzen für logisches Denken mithilfe mehrdimensionaler Qualitätsmetriken kuratiert. Diese Pipeline ermöglicht signifikante Leistungssteigerungen bei drastisch reduziertem Datenbedarf und bleibt erweiterbar für neue Datenquellen. Bei Anwendung auf das Qwen2.5-Math-7B-Base-Modell erreicht unser SFT-Modell eine Leistung, die mit DeepSeek-R1-Distill-Qwen-7B vergleichbar ist, während nur etwa 12 % der Trainingsdaten verwendet werden, und zeigt eine starke Generalisierung über diverse logische Aufgaben hinweg. Weitere Verbesserungen werden durch die Anwendung von DPO erzielt, mit besonders bemerkenswerten Fortschritten bei mathematischen Denkaufgaben. Das Modell erreicht eine durchschnittliche Verbesserung von 3,89 % auf den AIME-24/25-Benchmarks. Unsere Ergebnisse unterstreichen die Effektivität der Kombination von prinzipieller Datenauswahl mit vollständiger Nachschulung und bieten eine praktische Lösung für die Ausrichtung großer Denkmodelle in einer skalierbaren und dateneffizienten Weise. Die Modell-Checkpoints sind verfügbar unter https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.
Die realistische Erzeugung von Haarsträhnen ist entscheidend für Anwendungen wie Computergrafik und virtuelle Realität. Während Diffusionsmodelle Frisuren aus Text oder Bildern generieren können, mangelt es diesen Eingaben an Präzision und Benutzerfreundlichkeit. Stattdessen schlagen wir das erste skizzenbasierte Strähnen-Generierungsmodell vor, das eine präzisere Steuerung bei gleichbleibender Benutzerfreundlichkeit bietet. Unser Framework adressiert zentrale Herausforderungen, wie die Modellierung komplexer Strähneninteraktionen und vielfältiger Skizzenmuster, durch zwei Hauptinnovationen: eine lernfähige Strähnen-Upsampling-Strategie, die 3D-Strähnen in mehrstufige latente Räume kodiert, und einen mehrstufigen adaptiven Konditionierungsmechanismus, der einen Transformer mit Diffusionsköpfen verwendet, um Konsistenz über verschiedene Granularitätsebenen hinweg sicherzustellen. Experimente auf mehreren Benchmark-Datensätzen zeigen, dass unsere Methode bestehende Ansätze in Bezug auf Realismus und Präzision übertrifft. Qualitative Ergebnisse bestätigen weiterhin ihre Wirksamkeit. Der Code wird auf [GitHub](https://github.com/fighting-Zhang/StrandDesigner) veröffentlicht.
Diffusionsbasierte Bildkompression hat beeindruckende wahrnehmungsbezogene Leistungen gezeigt. Sie leidet jedoch unter zwei kritischen Nachteilen: (1) übermäßige Dekodierungslatenz aufgrund von mehrstufigem Sampling und (2) schlechte Wiedergabetreue, die auf eine zu starke Abhängigkeit von generativen Priors zurückzuführen ist. Um diese Probleme zu lösen, schlagen wir SODEC vor, ein neuartiges einstufiges Diffusionsmodell zur Bildkompression. Wir argumentieren, dass bei der Bildkompression ein ausreichend informativer Latent-Zustand mehrstufige Verfeinerung überflüssig macht. Basierend auf dieser Erkenntnis nutzen wir ein vortrainiertes VAE-basiertes Modell, um Latents mit reichhaltigen Informationen zu erzeugen, und ersetzen den iterativen Denoising-Prozess durch eine einstufige Dekodierung. Gleichzeitig führen wir das Fidelity-Guidance-Modul ein, um die Wiedergabetreue zu verbessern und Ausgaben zu fördern, die dem Originalbild treu bleiben. Darüber hinaus entwickeln wir die Rate-Annealing-Trainingsstrategie, um ein effektives Training bei extrem niedrigen Bitraten zu ermöglichen. Umfangreiche Experimente zeigen, dass SODEC bestehende Methoden deutlich übertrifft und eine überlegene Rate-Distortion-Perception-Leistung erzielt. Im Vergleich zu früheren diffusionsbasierten Kompressionsmodellen verbessert SODEC die Dekodierungsgeschwindigkeit um mehr als das 20-fache. Der Code ist verfügbar unter: https://github.com/zhengchen1999/SODEC.
Reasoning Large Language Models (R-LLMs) haben komplexe Denkaufgaben erheblich vorangebracht, kämpfen jedoch oft mit der Faktentreue und erzeugen deutlich mehr Halluzinationen als ihre nicht-reasoning Pendants in langen Fakten-Benchmarks. Die Erweiterung von Online Reinforcement Learning (RL), einer Schlüsselkomponente in den jüngsten Fortschritten von R-LLMs, auf den Bereich der langen Fakten stellt jedoch mehrere einzigartige Herausforderungen dar, da zuverlässige Verifizierungsmethoden fehlen. Frühere Arbeiten haben automatische Faktentreue-Bewertungsrahmen wie FActScore genutzt, um Präferenzdaten im Offline-RL-Setting zu erstellen. Wir stellen jedoch fest, dass die direkte Nutzung solcher Methoden als Belohnung im Online-RL zu Belohnungshacking in mehrfacher Hinsicht führt, beispielsweise durch die Erzeugung weniger detaillierter oder relevanter Antworten. Wir schlagen eine neuartige Belohnungsfunktion vor, die gleichzeitig die faktische Präzision, das Detailniveau der Antwort und die Relevanz der Antwort berücksichtigt und Online-RL anwendet, um qualitativ hochwertiges faktisches Denken zu erlernen. Bewertet auf sechs langen Fakten-Benchmarks erreicht unser faktisches Denkmodell eine durchschnittliche Reduktion der Halluzinationsrate um 23,1 Prozentpunkte, eine Steigerung des Antwortdetailniveaus um 23 % und keine Verschlechterung der allgemeinen Hilfsbereitschaft der Antworten.
Die Referenzausdruckssegmentierung (Reference Expression Segmentation, RES) zielt darauf ab, Bildregionen zu segmentieren, die durch referenzielle Ausdrücke spezifiziert sind, und hat mit dem Aufstieg multimodaler großer Modelle (Multimodal Large Models, MLLMs) an Popularität gewonnen. Während MLLMs in der semantischen Verständnisleistung hervorragend sind, kämpft ihr Token-Generierungs-Paradigma mit dichten Vorhersagen auf Pixelebene. Bestehende RES-Methoden koppeln entweder MLLMs mit dem parameterintensiven Segment Anything Model (SAM), das 632M Netzwerkparameter aufweist, oder verwenden SAM-freie, leichte Pipelines, die die Genauigkeit opfern. Um den Kompromiss zwischen Leistung und Kosten zu adressieren, schlagen wir speziell MLLMSeg vor, ein neuartiges Framework, das die inhärenten visuellen Detailmerkmale, die im MLLM-Vision-Encoder kodiert sind, vollständig nutzt, ohne einen zusätzlichen visuellen Encoder einzuführen. Darüber hinaus schlagen wir ein detailverstärktes und semantisch konsistentes Feature-Fusion-Modul (Detail-Enhanced and Semantic-Consistent Feature Fusion Module, DSFF) vor, das das detailbezogene visuelle Feature vollständig mit dem semantikbezogenen Feature integriert, das vom großen Sprachmodell (Large Language Model, LLM) des MLLM ausgegeben wird. Schließlich etablieren wir einen leichten Mask-Decoder mit nur 34M Netzwerkparametern, der detaillierte räumliche Features aus dem visuellen Encoder und semantische Features aus dem LLM optimal nutzt, um präzise Maskenvorhersagen zu erreichen. Umfangreiche Experimente zeigen, dass unsere Methode sowohl SAM-basierte als auch SAM-freie Konkurrenten im Allgemeinen übertrifft und eine bessere Balance zwischen Leistung und Kosten schafft. Der Code ist verfügbar unter https://github.com/jcwang0602/MLLMSeg.
Bestehende Vision-Language-Modelle (VLMs), seien es Generalisten oder Spezialisten, bleiben durch ihren Parametermaßstab eingeschränkt, verfügen über keine robusten Selbstkorrekturfähigkeiten und schneiden bei Aufgaben mit langen visuellen Kontexten und komplexem Denken schlecht ab, was zu suboptimalen Leistungen bei dokumentenbasierten Aufgaben führt. Um dies zu beheben, schlagen wir MACT vor, ein Multi-Agenten-Kollaborationsframework mit Test-Time-Skalierung, das speziell für das visuelle Dokumentenverständnis und visuelle Frage-Antworten (VQA) entwickelt wurde. Es besteht aus vier verschiedenen kleinskaligen Agenten, nämlich Planungs-, Ausführungs-, Beurteilungs- und Antwortagenten, mit klar definierten Rollen und effektiver Zusammenarbeit. Insbesondere überprüft der Beurteilungsagent ausschließlich die Richtigkeit und leitet an vorherige Agenten zur Überarbeitung weiter, was herkömmliche Korrekturstrategien übertrifft. Um die Fähigkeitsgrenzen des Frameworks weiter zu erweitern, schlagen wir ein gemischtes Belohnungsmodell vor, das agentspezifische Fähigkeiten und globale Zusammenarbeit ausbalanciert, sowie eine agentenweise hybride Test-Time-Skalierung, die für jeden Agenten basierend auf seinen Funktionen unterschiedliche Skalierungsstrategien anpasst. Bewertet auf Benchmarks, die sowohl dokumentenbasierte als auch nicht-dokumentenbasierte Einstellungen umfassen, zeigt unser MACT eine überlegene Leistung mit einem kleineren Parametermaßstab, ohne die Fähigkeit für allgemeine und mathematische Aufgaben zu opfern. Besonders hervorzuheben ist, dass es in Benchmarks mit langen visuellen Kontexten und kompliziertem Denken heraussticht. Die drei Varianten von MACT belegen durchweg die ersten drei Plätze in den Durchschnittswerten und führen in 13 der 15 Benchmarks. Der Code wird verfügbar sein unter: https://github.com/YU-deep/MACT.git.
Die Leistung von Large Language Models (LLMs) ist stark abhängig von der kontextuellen Position der Informationen im Eingabedatenstrom. Um den Mechanismus hinter dieser Positionsverzerrung zu untersuchen, zeigen unsere umfangreichen Experimente ein konsistentes Phänomen, das wir als „Attention Basin“ bezeichnen: Wenn eine Sequenz strukturierter Elemente (z. B. abgerufene Dokumente oder Few-Shot-Beispiele) präsentiert wird, weisen die Modelle systematisch höhere Aufmerksamkeit den Elementen am Anfang und Ende der Sequenz zu, während sie diejenigen in der Mitte vernachlässigen. Entscheidend ist, dass unsere Analyse weiterhin zeigt, dass die Zuweisung höherer Aufmerksamkeit zu kritischen Informationen der Schlüssel zur Verbesserung der Modellleistung ist. Basierend auf diesen Erkenntnissen führen wir Attention-Driven Reranking (AttnRank) ein, ein zweistufiges Framework, das (i) die intrinsischen Positionsaufmerksamkeitspräferenzen eines Modells mithilfe eines kleinen Kalibrierungssatzes schätzt und (ii) abgerufene Dokumente oder Few-Shot-Beispiele neu anordnet, um die wichtigsten Inhalte mit diesen Hochaufmerksamkeitspositionen in Einklang zu bringen. AttnRank ist eine modellagnostische, trainingsfreie und Plug-and-Play-Methode mit minimalem Rechenaufwand. Experimente zu Multi-Hop-QA- und Few-Shot-In-Context-Learning-Aufgaben zeigen, dass AttnRank erhebliche Verbesserungen über 10 große Sprachmodelle unterschiedlicher Architekturen und Skalen hinweg erzielt, ohne Modellparameter oder Trainingsverfahren zu verändern.
Dieses Papier stellt einen umfassenden Benchmark zur Bewertung der Reaktionen von Large Language Models (LLMs) auf linguistische Shibboleths vor: subtile sprachliche Marker, die unbeabsichtigt demografische Attribute wie Geschlecht, soziale Klasse oder regionale Herkunft offenbaren können. Durch sorgfältig konstruierte Interview-Simulationen mit 100 validierten Frage-Antwort-Paaren zeigen wir, wie LLMs bestimmte sprachliche Muster, insbesondere abschwächende Sprache, systematisch benachteiligen, obwohl die inhaltliche Qualität gleichwertig ist. Unser Benchmark erzeugt kontrollierte linguistische Variationen, die spezifische Phänomene isolieren, während die semantische Äquivalenz erhalten bleibt, was eine präzise Messung demografischer Verzerrungen in automatisierten Bewertungssystemen ermöglicht. Wir validieren unseren Ansatz entlang mehrerer linguistischer Dimensionen und zeigen, dass abgeschwächte Antworten durchschnittlich 25,6 % niedriger bewertet werden. Zudem demonstrieren wir die Effektivität des Benchmarks bei der Identifizierung modellspezifischer Verzerrungen. Diese Arbeit etabliert einen grundlegenden Rahmen zur Erkennung und Messung linguistischer Diskriminierung in KI-Systemen, mit breiten Anwendungsmöglichkeiten für Fairness in automatisierten Entscheidungsprozessen.
Multimodale Entity Linking spielt eine entscheidende Rolle in einer Vielzahl von Anwendungen. Jüngste Fortschritte in Methoden, die auf großen Sprachmodellen basieren, haben sich zum dominierenden Paradigma für diese Aufgabe entwickelt, indem sie effektiv sowohl textuelle als auch visuelle Modalitäten nutzen, um die Leistung zu verbessern. Trotz ihres Erfolgs stehen diese Methoden weiterhin vor zwei Herausforderungen: die unnötige Einbeziehung von Bilddaten in bestimmten Szenarien und die ausschließliche Abhängigkeit von einer einmaligen Extraktion visueller Merkmale, was ihre Effektivität und Genauigkeit beeinträchtigen kann. Um diese Herausforderungen zu bewältigen, schlagen wir ein neuartiges, auf großen Sprachmodellen basierendes Framework für die multimodale Entity-Linking-Aufgabe vor, genannt Intra- und Inter-modale Kollaborative Reflexionen. Dieses Framework priorisiert die Nutzung von Textinformationen zur Bewältigung der Aufgabe. Wenn Text allein nicht ausreicht, um die richtige Entität durch intra- und inter-modale Bewertungen zu verknüpfen, setzt es eine mehrstufige iterative Strategie ein, die Schlüsselvisuelle Hinweise aus verschiedenen Aspekten des Bildes integriert, um die Argumentation zu unterstützen und die Übereinstimmungsgenauigkeit zu erhöhen. Umfangreiche Experimente auf drei weit verbreiteten öffentlichen Datensätzen zeigen, dass unser Framework durchweg die derzeit besten Methoden in dieser Aufgabe übertrifft und Verbesserungen von 3,2 %, 5,1 % bzw. 1,6 % erzielt. Unser Code ist verfügbar unter https://github.com/ziyan-xiaoyu/I2CR/.
Ausrichtung und Gleichmäßigkeit sind grundlegende Prinzipien im Bereich des kontrastiven Lernens. In Empfehlungssystemen hat frühere Arbeit gezeigt, dass die Optimierung des Bayesian Personalized Ranking (BPR)-Verlusts zu den Zielen der Ausrichtung und Gleichmäßigkeit beiträgt. Insbesondere zielt die Ausrichtung darauf ab, die Repräsentationen interagierender Benutzer und Artikel näher zusammenzuführen, während die Gleichmäßigkeit eine gleichmäßige Verteilung der Benutzer- und Artikel-Embeddings auf einer Einheitshypersphäre vorschreibt. Diese Studie untersucht die Eigenschaften der Ausrichtung und Gleichmäßigkeit im Kontext multimodaler Empfehlungssysteme neu und zeigt eine Tendenz bestehender Modelle, die Gleichmäßigkeit auf Kosten der Ausrichtung zu priorisieren. Unsere Hypothese stellt die konventionelle Annahme einer gleichberechtigten Behandlung von Artikeln durch einen Gleichmäßigkeitsverlust in Frage und schlägt einen differenzierteren Ansatz vor, bei dem Artikel mit ähnlichen multimodalen Attributen zu nahegelegenen Repräsentationen innerhalb des hypersphärischen Manifolds konvergieren. Insbesondere nutzen wir die inhärente Ähnlichkeit zwischen den multimodalen Daten der Artikel, um ihre Gleichmäßigkeitsverteilung zu kalibrieren und dadurch eine stärkere abstoßende Kraft zwischen unähnlichen Entitäten im Embedding-Raum zu induzieren. Eine theoretische Analyse verdeutlicht die Beziehung zwischen diesem kalibrierten Gleichmäßigkeitsverlust und der konventionellen Gleichmäßigkeitsfunktion. Darüber hinaus führen wir zur Verbesserung der Fusion multimodaler Merkmale eine sphärische Bézier-Methode ein, die darauf abzielt, eine beliebige Anzahl von Modalitäten zu integrieren, während sichergestellt wird, dass die resultierenden fusionierten Merkmale auf demselben hypersphärischen Manifold beschränkt bleiben. Empirische Auswertungen, die auf fünf realen Datensätzen durchgeführt wurden, bestätigen die Überlegenheit unseres Ansatzes gegenüber konkurrierenden Baselines. Wir zeigen auch, dass die vorgeschlagenen Methoden durch die Integration von MLLM-extrahierten Merkmalen eine Steigerung der NDCG@20-Leistung von bis zu 5,4 % erreichen können. Der Quellcode ist verfügbar unter: https://github.com/enoche/CM3.
Die Redaktion von personenbezogenen Informationen (PII) aus unstrukturiertem Text ist entscheidend, um den Datenschutz in regulierten Bereichen zu gewährleisten. Während frühere Ansätze auf regelbasierte Systeme und domänenspezifische Named Entity Recognition (NER)-Modelle setzten, scheitern diese Methoden daran, sich über verschiedene Formate und Kontexte hinweg zu verallgemeinern. Jüngste Fortschritte bei Large Language Models (LLMs) bieten eine vielversprechende Alternative, doch die Auswirkungen von Architektur- und Trainingsentscheidungen auf die Redaktionsleistung bleiben weitgehend unerforscht. LLMs haben eine starke Leistung bei Aufgaben gezeigt, die ein kontextuelles Sprachverständnis erfordern, einschließlich der Redaktion von PII in freiformuliertem Text. Frühere Arbeiten deuten darauf hin, dass LLMs mit entsprechender Anpassung effektive kontextuelle Datenschutzlerner werden können. Dennoch sind die Konsequenzen von Architektur- und Trainingsentscheidungen für die PII-Redaktion noch nicht ausreichend untersucht. In dieser Arbeit präsentieren wir eine umfassende Analyse von LLMs als datenschutzbewusste PII-Redaktionssysteme. Wir bewerten eine Reihe von LLM-Architekturen und Trainingsstrategien hinsichtlich ihrer Effektivität bei der PII-Redaktion. Unsere Analyse misst die Redaktionsleistung, die semantische Erhaltung und das PII-Leckage und vergleicht diese Ergebnisse mit Latenz und Rechenkosten. Die Ergebnisse bieten praktische Leitlinien für die Konfiguration von LLM-basierten Redaktoren, die präzise, effizient und datenschutzbewusst sind. Um Reproduzierbarkeit und den Einsatz in der Praxis zu unterstützen, veröffentlichen wir PRvL, eine Open-Source-Suite von feinabgestimmten Modellen und Evaluierungswerkzeugen für die allgemeine PII-Redaktion. PRvL basiert vollständig auf Open-Source-LLMs und unterstützt mehrere Inferenz-Einstellungen für Flexibilität und Compliance. Es ist so konzipiert, dass es leicht für verschiedene Domänen angepasst und vollständig in sicheren, selbstverwalteten Umgebungen betrieben werden kann. Dies ermöglicht es Datenbesitzern, Redaktionen durchzuführen, ohne auf Drittanbieterdienste angewiesen zu sein oder sensible Inhalte über ihre eigene Infrastruktur hinaus preiszugeben.
Simultane Sprachübersetzungssysteme (SimulST) verarbeiten Audiodaten in Echtzeit und geben gleichzeitig übersetzten Text oder Sprache aus. Solche Systeme stehen vor der erheblichen Herausforderung, die Übersetzungsqualität und die Latenzzeit in Einklang zu bringen. Wir stellen eine Strategie vor, um diesen Kompromiss zu optimieren: Warte nur dann auf weitere Eingaben, wenn dadurch zusätzliche Informationen gewonnen werden. Basierend auf dieser Strategie präsentieren wir Regularized Entropy INformation Adaptation (REINA), eine neuartige Verlustfunktion zur Schulung einer adaptiven Strategie unter Verwendung eines bestehenden nicht-streaming Übersetzungsmodells. REINA leiten wir aus Prinzipien der Informationstheorie ab und zeigen, dass REINA die berichtete Pareto-Grenze des Latenz/Qualitäts-Kompromisses im Vergleich zu früheren Arbeiten verbessert. Mit REINA trainieren wir ein SimulST-Modell für Französisch, Spanisch und Deutsch, sowohl aus als auch ins Englische. Durch das Training ausschließlich mit Open-Source- oder synthetisch generierten Daten erreichen wir state-of-the-art (SOTA) Streaming-Ergebnisse für Modelle vergleichbarer Größe. Wir führen zudem eine Metrik für die Streaming-Effizienz ein, die quantitativ zeigt, dass REINA den Latenz/Qualitäts-Kompromiss um bis zu 21 % im Vergleich zu früheren Ansätzen verbessert, normalisiert anhand der BLEU-Werte eines nicht-streaming Basismodells.
Die Entstehung von Reasoning-Modellen und deren Integration in praktische KI-Chatbots hat zu Durchbrüchen bei der Lösung fortgeschrittener mathematischer Probleme, tiefer Suche und extraktiver Frage-Antwort-Aufgaben geführt, die einen komplexen und mehrstufigen Denkprozess erfordern. Dennoch fehlt ein vollständiges Verständnis dafür, warum diese Modelle häufiger Halluzinationen aufweisen als allgemeine Sprachmodelle. In dieser Untersuchungsstudie erforschen wir systematisch Reasoning-Fehler zeitgenössischer Sprachmodelle bei Multi-Hop-Frage-Antwort-Aufgaben. Wir führen ein neuartiges, differenziertes Fehlerkategorisierungsframework ein, das Fehler in drei kritischen Dimensionen untersucht: die Vielfalt und Einzigartigkeit der beteiligten Quelldokumente („Hops“), die Vollständigkeit bei der Erfassung relevanter Informationen („Abdeckung“) und kognitive Ineffizienz („Überdenken“). Durch rigorose menschliche Annotation, unterstützt durch komplementäre automatisierte Metriken, deckt unsere Untersuchung komplexe Fehlermuster auf, die oft durch genauigkeitszentrierte Bewertungen verborgen bleiben. Dieser investigative Ansatz bietet tiefere Einblicke in die kognitiven Grenzen aktueller Modelle und liefert umsetzbare Leitlinien zur Verbesserung der Reasoning-Treue, Transparenz und Robustheit zukünftiger Sprachmodellierungsbemühungen.
Die robuste Hauptkomponentenanalyse (RPCA) zerlegt eine Beobachtungsmatrix in niedrigrangige Hintergrund- und spärliche Objektkomponenten. Diese Fähigkeit hat ihre Anwendung in Aufgaben von der Bildrestaurierung bis zur Segmentierung ermöglicht. Traditionelle RPCA-Modelle leiden jedoch unter rechenintensiven Matrixoperationen, der Abhängigkeit von fein abgestimmten Hyperparametern und starren Priorisierungen, die die Anpassungsfähigkeit in dynamischen Szenarien einschränken. Um diese Einschränkungen zu überwinden, schlagen wir RPCANet++ vor, ein Framework zur Segmentierung spärlicher Objekte, das die Interpretierbarkeit von RPCA mit effizienten Deep-Learning-Architekturen kombiniert. Unser Ansatz entfaltet ein entspanntes RPCA-Modell in ein strukturiertes Netzwerk, das aus einem Hintergrundapproximationsmodul (BAM), einem Objektextraktionsmodul (OEM) und einem Bildrestaurationsmodul (IRM) besteht. Um den Übertragungsverlust zwischen den Stufen im BAM zu minimieren, führen wir ein speichergestütztes Modul (MAM) ein, um die Erhaltung von Hintergrundmerkmalen zu verbessern, während ein Deep-Contrast-Prior-Modul (DCPM) Salienzhinweise nutzt, um die Objektextraktion zu beschleunigen. Umfangreiche Experimente auf verschiedenen Datensätzen zeigen, dass RPCANet++ unter verschiedenen Bildszenarien state-of-the-art Leistungen erzielt. Wir verbessern die Interpretierbarkeit weiter durch visuelle und numerische Messungen von Niedrigrangigkeit und Sparsity. Indem wir die theoretischen Stärken von RPCA mit der Effizienz von Deep-Learning-Netzwerken kombinieren, setzt unser Ansatz einen neuen Maßstab für zuverlässige und interpretierbare Segmentierung spärlicher Objekte. Die Codes sind auf unserer Projektwebseite verfügbar: https://fengyiwu98.github.io/rpcanetx.
Multimodale Sprachmodelle (MLMs) zeigen Potenzial für die klinische Entscheidungsunterstützung und diagnostische Argumentation, was die Aussicht auf eine end-to-end automatisierte medizinische Bildinterpretation eröffnet. Kliniker sind jedoch sehr selektiv bei der Einführung von KI-Tools; ein Modell, das Fehler bei scheinbar einfachen Wahrnehmungsaufgaben wie der Bestimmung der Bildausrichtung oder der Identifizierung, ob ein CT-Scan kontrastverstärkt ist, macht, wird voraussichtlich nicht für klinische Aufgaben übernommen. Wir stellen Medblink vor, einen Benchmark, der entwickelt wurde, um diese Modelle auf solche Wahrnehmungsfähigkeiten zu testen. Medblink umfasst acht klinisch relevante Aufgaben über mehrere Bildgebungsmodalitäten und anatomische Regionen hinweg, mit insgesamt 1.429 Multiple-Choice-Fragen zu 1.605 Bildern. Wir evaluieren 19 state-of-the-art MLMs, darunter allgemeine Modelle (GPT4o, Claude 3.5 Sonnet) und domänenspezifische Modelle (Med Flamingo, LLaVA Med, RadFM). Während menschliche Annotatoren eine Genauigkeit von 96,4 % erreichen, kommt das leistungsstärkste Modell nur auf 65 %. Diese Ergebnisse zeigen, dass aktuelle MLMs häufig bei routinemäßigen Wahrnehmungsprüfungen versagen, was die Notwendigkeit unterstreicht, ihre visuelle Verankerung zu stärken, um die klinische Einführung zu unterstützen. Die Daten sind auf unserer Projektseite verfügbar.