Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Diakritisierung arabischer Texte bleibt eine anhaltende Herausforderung in der natürlichen Sprachverarbeitung aufgrund des morphologischen Reichtums der Sprache. In diesem Artikel stellen wir Sadeed vor, einen neuartigen Ansatz, der auf einem feinabgestimmten, dekodierer-basierten Sprachmodell basiert, das von Kuwain 1.5B Hennara et al. [2025] adaptiert wurde, einem kompakten Modell, das ursprünglich auf diversen arabischen Korpora trainiert wurde. Sadeed wird auf sorgfältig kuratierten, hochwertigen diakritisierten Datensätzen feinabgestimmt, die durch eine rigorose Datenbereinigungs- und Normalisierungspipeline erstellt wurden. Trotz der Nutzung bescheidener Rechenressourcen erzielt Sadeed wettbewerbsfähige Ergebnisse im Vergleich zu proprietären großen Sprachmodellen und übertrifft traditionelle Modelle, die auf ähnlichen Domänen trainiert wurden. Zudem beleuchten wir wesentliche Einschränkungen in den aktuellen Benchmarking-Praktiken für die arabische Diakritisierung. Um diese Probleme zu adressieren, führen wir SadeedDiac-25 ein, einen neuen Benchmark, der eine fairere und umfassendere Bewertung über verschiedene Textgenres und Komplexitätsstufen hinweg ermöglicht. Zusammen bieten Sadeed und SadeedDiac-25 eine robuste Grundlage für die Weiterentwicklung von Anwendungen der arabischen NLP, einschließlich maschineller Übersetzung, Text-zu-Sprache und Sprachlernwerkzeugen.
Große Reasoning-Modelle (LRMs), wie OpenAI-o1 und DeepSeek-R1, demonstrieren beeindruckende Fähigkeiten im langfristigen Reasoning. Ihre Abhängigkeit von statischem internem Wissen schränkt jedoch ihre Leistung bei komplexen, wissensintensiven Aufgaben ein und behindert ihre Fähigkeit, umfassende Forschungsberichte zu erstellen, die die Synthese vielfältiger Webinformationen erfordern. Um dies zu adressieren, schlagen wir WebThinker vor, einen tiefen Forschungsagenten, der LRMs befähigt, eigenständig das Web zu durchsuchen, Webseiten zu navigieren und Forschungsberichte während des Reasoning-Prozesses zu erstellen. WebThinker integriert ein Deep Web Explorer-Modul, das es LRMs ermöglicht, dynamisch zu suchen, zu navigieren und Informationen aus dem Web zu extrahieren, wenn Wissenslücken auftreten. Es verwendet außerdem eine autonome Think-Search-and-Draft-Strategie, die es dem Modell ermöglicht, Reasoning, Informationsbeschaffung und Berichterstellung nahtlos in Echtzeit zu verknüpfen. Um die Nutzung von Forschungswerkzeugen weiter zu verbessern, führen wir eine RL-basierte Trainingsstrategie über iterative Online Direct Preference Optimization (DPO) ein. Umfangreiche Experimente auf komplexen Reasoning-Benchmarks (GPQA, GAIA, WebWalkerQA, HLE) und wissenschaftlichen Berichterstellungsaufgaben (Glaive) zeigen, dass WebThinker bestehende Methoden und starke proprietäre Systeme deutlich übertrifft. Unser Ansatz erhöht die Zuverlässigkeit und Anwendbarkeit von LRMs in komplexen Szenarien und ebnet den Weg für leistungsfähigere und vielseitigere tiefe Forschungssysteme. Der Code ist verfügbar unter https://github.com/RUC-NLPIR/WebThinker.
Wir stellen Phi-4-reasoning vor, ein 14-Milliarden-Parameter-Modell für logisches Denken, das eine starke Leistung bei komplexen Denkaufgaben erzielt. Das Modell wurde durch überwachtes Fein-Tuning von Phi-4 anhand eines sorgfältig kuratierten Satzes von „lehrenden“ Prompts – ausgewählt für das richtige Maß an Komplexität und Vielfalt – sowie durch Denkdemonstrationen, die mit o3-mini generiert wurden, trainiert. Phi-4-reasoning erzeugt detaillierte Denkketten, die die Rechenleistung zur Inferenzzeit effektiv nutzen. Wir entwickelten weiterhin Phi-4-reasoning-plus, eine Variante, die durch eine kurze Phase des ergebnisbasierten Reinforcement Learning verbessert wurde und durch die Erzeugung längerer Denkspuren eine höhere Leistung bietet. Bei einer Vielzahl von Denkaufgaben übertreffen beide Modelle deutlich größere Open-Weight-Modelle wie das DeepSeek-R1-Distill-Llama-70B-Modell und nähern sich den Leistungsniveaus des vollständigen DeepSeek-R1-Modells an. Unsere umfassenden Bewertungen umfassen Benchmarks in den Bereichen mathematisches und wissenschaftliches Denken, Programmierung, algorithmische Problemlösung, Planung und räumliches Verständnis. Interessanterweise beobachten wir auch eine nicht triviale Übertragung von Verbesserungen auf allgemeine Benchmarks. In diesem Bericht geben wir Einblicke in unsere Trainingsdaten, unsere Trainingsmethoden und unsere Bewertungen. Wir zeigen, dass der Nutzen einer sorgfältigen Datenkuratierung für überwachtes Fein-Tuning (SFT) auch auf Sprachmodelle für logisches Denken zutrifft und durch Reinforcement Learning (RL) weiter verstärkt werden kann. Schließlich weist unsere Bewertung auf Möglichkeiten hin, wie wir die Leistung und Robustheit von Denkmodellen besser bewerten können.
Chain-of-Thought (CoT) verbessert die formalen Denkfähigkeiten von Large Language Models (LLMs) erheblich, indem es sie darauf trainiert, explizit Zwischenschritte der Argumentation zu generieren. Während LLMs von solchen Techniken deutlich profitieren, bleibt die Verbesserung der Denkfähigkeiten in Small Language Models (SLMs) aufgrund ihrer begrenzten Modellkapazität eine Herausforderung. Aktuelle Arbeiten von Deepseek-R1 zeigen, dass die Destillation aus synthetischen Daten, die von LLMs generiert wurden, die Denkfähigkeiten von SLMs erheblich steigern kann. Allerdings wird das detaillierte Modellierungsrezept nicht offengelegt. In dieser Arbeit präsentieren wir ein systematisches Trainingsrezept für SLMs, das aus vier Schritten besteht: (1) groß angelegtes Mid-Training auf diversen destillierten langen CoT-Daten, (2) überwachtes Fein-Tuning auf hochwertigen langen CoT-Daten, (3) Rollout DPO unter Nutzung eines sorgfältig kuratierten Präferenzdatensatzes und (4) Reinforcement Learning (RL) mit verifizierbarer Belohnung. Wir wenden unsere Methode auf Phi-4-Mini an, ein kompaktes Modell mit 3,8 Milliarden Parametern. Das daraus resultierende Phi-4-Mini-Reasoning-Modell übertrifft bei mathematischen Denkaufgaben deutlich größere Denkmodelle, z. B. übertrifft es DeepSeek-R1-Distill-Qwen-7B um 3,2 Punkte und DeepSeek-R1-Distill-Llama-8B um 7,7 Punkte auf Math-500. Unsere Ergebnisse bestätigen, dass ein sorgfältig gestaltetes Trainingsrezept mit groß angelegten, hochwertigen CoT-Daten effektiv ist, um starke Denkfähigkeiten auch in ressourcenbeschränkten kleinen Modellen freizusetzen.
Die jüngste Entwicklung von Reasoning Language Models (RLMs) stellt eine neuartige Weiterentwicklung großer Sprachmodelle dar. Insbesondere die kürzliche Veröffentlichung von DeepSeek-R1 hat eine breite gesellschaftliche Wirkung entfaltet und Begeisterung in der Forschungsgemeinschaft für die Erforschung des expliziten Reasoning-Paradigmas von Sprachmodellen geweckt. Allerdings wurden die Implementierungsdetails der veröffentlichten Modelle, einschließlich DeepSeek-R1-Zero, DeepSeek-R1 und der destillierten kleinen Modelle, von DeepSeek nicht vollständig quelloffen gemacht. Infolgedessen sind zahlreiche Replikationsstudien entstanden, die darauf abzielen, die starke Leistung von DeepSeek-R1 nachzubilden und durch ähnliche Trainingsverfahren und vollständig quelloffene Datenressourcen vergleichbare Ergebnisse zu erzielen. Diese Arbeiten haben machbare Strategien für Supervised Fine-Tuning (SFT) und Reinforcement Learning from Verifiable Rewards (RLVR) untersucht, wobei der Schwerpunkt auf der Datenvorbereitung und Methodengestaltung lag, was zu verschiedenen wertvollen Erkenntnissen geführt hat. In diesem Bericht fassen wir aktuelle Replikationsstudien zusammen, um zukünftige Forschungen zu inspirieren. Wir konzentrieren uns hauptsächlich auf SFT und RLVR als zwei Hauptrichtungen und stellen die Details zur Datenkonstruktion, Methodengestaltung und Trainingsprozedur aktueller Replikationsstudien vor. Darüber hinaus fassen wir die wichtigsten Erkenntnisse aus den Implementierungsdetails und experimentellen Ergebnissen zusammen, die in diesen Studien berichtet wurden, in der Hoffnung, zukünftige Forschungen anzuregen. Wir diskutieren auch zusätzliche Techniken zur Verbesserung von RLMs, heben das Potenzial zur Erweiterung des Anwendungsbereichs dieser Modelle hervor und erörtern die Herausforderungen in der Entwicklung. Mit dieser Übersicht möchten wir Forscher und Entwickler von RLMs dabei unterstützen, über die neuesten Fortschritte auf dem Laufenden zu bleiben, und neue Ideen anregen, um RLMs weiter zu verbessern.
Wir stellen softpick vor, eine korrigierte, nicht auf eins normierte Alternative zu softmax in Transformer-Attentionsmechanismen, die Aufmerksamkeitssenken und massive Aktivierungen eliminiert. Unsere Experimente mit 340M-Parameter-Modellen zeigen, dass softpick auf Standard-Benchmarks eine vergleichbare Leistung wie softmax beibehält, während eine Senkenrate von 0% erreicht wird. Der softpick-Transformer erzeugt versteckte Zustände mit deutlich geringerer Kurtosis (340 vs. 33.510) und erzeugt spärliche Aufmerksamkeitskarten (46,97% Sparsity). Modelle, die softpick verwenden, übertreffen softmax durchweg bei Quantisierung, mit besonders deutlichen Vorteilen bei niedrigeren Bit-Präzisionen. Unsere Analyse und Diskussion zeigt, wie softpick das Potenzial hat, neue Möglichkeiten für Quantisierung, Training mit niedriger Präzision, Sparsity-Optimierung, Pruning und Interpretierbarkeit zu eröffnen. Unser Code ist verfügbar unter https://github.com/zaydzuhri/softpick-attention.
Multimodale Large Language Models (MLLMs) glänzen bei einfachen Vision-Sprache-Aufgaben, haben jedoch Schwierigkeiten mit komplexen Aufgaben, die mehrere Fähigkeiten erfordern, wie beispielsweise das gleichzeitige Erkennen von Objekten, deren Zählung und das Verständnis ihrer räumlichen Beziehungen. Dies könnte teilweise darauf zurückzuführen sein, dass Visual Instruction Tuning (VIT), ein entscheidender Trainingsschritt für MLLMs, traditionell auf die Skalierung des Datenvolumens ausgerichtet war, nicht jedoch auf die kompositionelle Komplexität der Trainingsbeispiele. Wir schlagen COMPACT (COMPositional Atomic-to-complex visual Capability Tuning) vor, das einen Trainingsdatensatz erzeugt, der explizit die kompositionelle Komplexität der Trainingsbeispiele steuert. Die Daten von COMPACT ermöglichen es MLLMs, Kombinationen atomarer Fähigkeiten zu trainieren, um komplexe Fähigkeiten effizienter zu erlernen. In allen Benchmarks erreicht COMPACT eine vergleichbare Leistung wie das LLaVA-665k VIT, während weniger als 10 % des Datenbudgets verwendet werden, und übertrifft es sogar in mehreren Fällen, insbesondere bei Aufgaben, die komplexe Multi-Fähigkeiten erfordern. Beispielsweise erzielt COMPACT eine deutliche Verbesserung von 83,3 % bei MMStar und 94,0 % bei MM-Vet im Vergleich zum vollständigen VIT bei besonders komplexen Fragen, die vier oder mehr atomare Fähigkeiten erfordern. COMPACT bietet ein skalierbares, dateneffizientes Rezept für das visuelle kompositionelle Tuning, um die Leistung bei komplexen Vision-Sprache-Aufgaben zu verbessern.
Große Sprachmodelle (LLMs) nutzen schrittweises Denken, um komplexe Probleme zu lösen. Die Standardbewertungspraxis umfasst die Erstellung eines vollständigen Denkpfads und die Bewertung der Korrektheit der am Ende präsentierten endgültigen Antwort. In diesem Papier stellen wir die Abhängigkeit von der endgültigen Antwort in Frage, indem wir die folgenden beiden Fragen aufwerfen: Repräsentiert die endgültige Antwort zuverlässig die optimale Schlussfolgerung des Modells? Können alternative Denkpfade zu unterschiedlichen Ergebnissen führen? Um diese Fragen zu beantworten, analysieren wir Zwischenschritte des Denkens, sogenannte Subgedanken, und schlagen eine Methode basierend auf unseren Erkenntnissen vor. Unser Ansatz beinhaltet die Segmentierung eines Denkpfads in sequenzielle Subgedanken basierend auf linguistischen Hinweisen. Wir beginnen damit, das Modell dazu anzuregen, Fortsetzungen vom Endpunkt jedes Zwischensubgedankens zu generieren. Wir extrahieren eine potenzielle Antwort aus jeder abgeschlossenen Fortsetzung, die von verschiedenen Subgedanken ausgeht. Wir stellen fest, dass die Aggregation dieser Antworten durch die Auswahl der häufigsten (der Modus) oft eine signifikant höhere Genauigkeit liefert, verglichen mit der alleinigen Verwendung der Antwort, die aus dem ursprünglichen vollständigen Denkpfad abgeleitet wurde. Die Analyse der Konsistenz zwischen den Antworten, die aus verschiedenen Subgedanken abgeleitet wurden, zeigt Merkmale, die mit dem Vertrauen und der Korrektheit des Modells korrelieren, was auf das Potenzial hinweist, weniger zuverlässige Antworten zu identifizieren. Unsere Experimente über verschiedene LLMs und anspruchsvolle mathematische Denkdatensätze (AIME2024 und AIME2025) zeigen konsistente Genauigkeitsverbesserungen, mit Gewinnen von bis zu 13\% bzw. 10\%. Die Implementierung ist verfügbar unter: https://github.com/hammoudhasan/SubthoughtReasoner.
Generative KI revolutioniert die Kunst, die Spielebranche und insbesondere die Animation. Jüngste Durchbrüche bei Foundation- und Diffusionsmodellen haben den Zeit- und Kostenaufwand für die Produktion von animierten Inhalten erheblich reduziert. Charaktere sind zentrale Bestandteile der Animation, die Bewegung, Emotionen, Gesten und Gesichtsausdrücke umfassen. Das Tempo und die Breite der Fortschritte in den letzten Monaten erschweren es, einen kohärenten Überblick über das Feld zu behalten, was die Notwendigkeit einer integrativen Übersichtsarbeit unterstreicht. Im Gegensatz zu früheren Überblicken, die Avatare, Gesten oder Gesichtsanimation isoliert behandeln, bietet diese Arbeit eine einheitliche, umfassende Perspektive auf alle wichtigen generativen KI-Anwendungen für die Charakteranimation. Wir beginnen mit einer Untersuchung des State-of-the-Art in den Bereichen Gesichtsanimation, Ausdrucksdarstellung, Bildsynthese, Avatar-Erstellung, Gestenmodellierung, Bewegungssynthese, Objektgenerierung und Textursynthese. Wir heben führende Forschung, praktische Anwendungen, häufig verwendete Datensätze und aufkommende Trends für jeden Bereich hervor. Um Neueinsteigern zu unterstützen, bieten wir außerdem einen umfassenden Hintergrundabschnitt, der grundlegende Modelle und Bewertungsmetriken einführt und die Leser mit dem notwendigen Wissen ausstattet, um in das Feld einzusteigen. Wir diskutieren offene Herausforderungen und skizzieren zukünftige Forschungsrichtungen, um eine Roadmap für die Weiterentwicklung von KI-gestützten Charakteranimationstechnologien zu bieten. Diese Übersichtsarbeit soll als Ressource für Forscher und Entwickler dienen, die in das Feld der generativen KI-Animation oder verwandter Bereiche einsteigen. Ressourcen sind verfügbar unter: https://github.com/llm-lab-org/Generative-AI-for-Character-Animation-Survey.
Da transformer-basierte große Sprachmodelle (LLMs) zunehmend die Gesellschaft durchdringen, haben sie Bereiche wie Softwareentwicklung, kreatives Schreiben und digitale Kunst revolutioniert. Ihre Einführung in der Cybersicherheit bleibt jedoch aufgrund von Herausforderungen wie der Knappheit spezialisierter Trainingsdaten und der Komplexität der Darstellung cybersicherheitsspezifischen Wissens begrenzt. Um diese Lücken zu schließen, präsentieren wir Foundation-Sec-8B, ein auf Cybersicherheit ausgerichtetes LLM, das auf der Llama 3.1-Architektur basiert und durch kontinuierliches Vortraining auf einem sorgfältig kuratierten Cybersicherheitskorpus verbessert wurde. Wir evaluieren Foundation-Sec-8B anhand etablierter und neuer Cybersicherheits-Benchmarks und zeigen, dass es in bestimmten cybersicherheitsspezifischen Aufgaben Llama 3.1-70B und GPT-4o-mini erreicht. Durch die Veröffentlichung unseres Modells für die Öffentlichkeit streben wir an, den Fortschritt und die Einführung KI-gestützter Werkzeuge in öffentlichen und privaten Cybersicherheitskontexten zu beschleunigen.
In den letzten Jahren hat die Videogenerierung bedeutende Fortschritte erzielt. Dennoch bestehen weiterhin Herausforderungen bei der Erzeugung komplexer Bewegungen und Interaktionen. Um diese Herausforderungen zu bewältigen, stellen wir ReVision vor, ein Plug-and-Play-Framework, das parametrisiertes 3D-Physikwissen explizit in ein vortrainiertes, bedingtes Videogenerierungsmodell integriert und dessen Fähigkeit zur Erzeugung hochwertiger Videos mit komplexen Bewegungen und Interaktionen erheblich verbessert. Konkret besteht ReVision aus drei Stufen. Zunächst wird ein Video-Diffusionsmodell verwendet, um ein grobes Video zu generieren. Anschließend extrahieren wir eine Reihe von 2D- und 3D-Merkmalen aus dem groben Video, um eine 3D-objektzentrierte Darstellung zu konstruieren, die dann durch unser vorgeschlagenes parametrisiertes physikalisches Prior-Modell verfeinert wird, um eine präzise 3D-Bewegungssequenz zu erzeugen. Schließlich wird diese verfeinerte Bewegungssequenz als zusätzliche Konditionierung in dasselbe Video-Diffusionsmodell zurückgeführt, wodurch die Generierung bewegungskonsistenter Videos ermöglicht wird, selbst in Szenarien mit komplexen Aktionen und Interaktionen. Wir validieren die Wirksamkeit unseres Ansatzes anhand von Stable Video Diffusion, wobei ReVision die Bewegungsfidelität und -kohärenz erheblich verbessert. Bemerkenswerterweise übertrifft es mit nur 1,5 Milliarden Parametern sogar ein modernstes Videogenerierungsmodell mit über 13 Milliarden Parametern bei der komplexen Videogenerierung deutlich. Unsere Ergebnisse deuten darauf hin, dass durch die Einbindung von 3D-Physikwissen selbst ein relativ kleines Video-Diffusionsmodell komplexe Bewegungen und Interaktionen mit größerer Realitätsnähe und Steuerbarkeit erzeugen kann, was eine vielversprechende Lösung für physikalisch plausible Videogenerierung bietet.
Große Sprachmodelle (LLMs) für Generative KI haben bemerkenswerte Fortschritte erzielt und sich zu hochentwickelten und vielseitigen Werkzeugen entwickelt, die in verschiedenen Domänen und Anwendungen weit verbreitet sind. Der erhebliche Speicherbedarf, der durch ihre enorme Anzahl von Parametern verursacht wird, kombiniert mit den hohen Rechenanforderungen des Aufmerksamkeitsmechanismus, stellt jedoch erhebliche Herausforderungen bei der Erzielung von niedriger Latenz und hohem Durchsatz für LLM-Inferenzdienste dar. Jüngste Fortschritte, die durch bahnbrechende Forschung vorangetrieben wurden, haben die Entwicklung in diesem Bereich erheblich beschleunigt. Dieses Papier bietet einen umfassenden Überblick über diese Methoden, der grundlegende Ansätze auf Instanzebene, detaillierte Strategien auf Cluster-Ebene, aufkommende Szenario-Richtungen sowie andere diverse, aber wichtige Bereiche abdeckt. Auf der Instanzebene betrachten wir die Modellplatzierung, die Anforderungsplanung, die Vorhersage der Dekodierungslänge, die Speicherverwaltung und das Disaggregationsparadigma. Auf der Cluster-Ebene untersuchen wir die Bereitstellung von GPU-Clustern, den Lastausgleich zwischen mehreren Instanzen und Cloud-Service-Lösungen. Für aufkommende Szenarien strukturieren wir die Diskussion um spezifische Aufgaben, Module und unterstützende Methoden. Um einen ganzheitlichen Überblick zu gewährleisten, heben wir auch mehrere Nischenbereiche hervor, die jedoch von entscheidender Bedeutung sind. Schließlich skizzieren wir potenzielle Forschungsrichtungen, um das Feld der LLM-Inferenzbereitstellung weiter voranzutreiben.
Die Skalierung von Daten und standardisierte Evaluierungsbenchmarks haben erhebliche Fortschritte in der natürlichen Sprachverarbeitung und der Computer Vision vorangetrieben. Allerdings stehen der Robotik einzigartige Herausforderungen bei der Skalierung von Daten und der Etablierung von Evaluierungsprotokollen gegenüber. Die Erfassung von realen Daten ist ressourcenintensiv und ineffizient, während die Bewertung in realen Szenarien äußerst komplex bleibt. Synthetische Daten und Simulationen bieten vielversprechende Alternativen, doch bestehende Ansätze erreichen oft nicht die erforderliche Datenqualität, Diversität und Benchmark-Standardisierung. Um diese Herausforderungen zu bewältigen, stellen wir RoboVerse vor, ein umfassendes Framework, das eine Simulationsplattform, einen synthetischen Datensatz und einheitliche Benchmarks umfasst. Unsere Simulationsplattform unterstützt mehrere Simulatoren und robotische Implementierungen und ermöglicht nahtlose Übergänge zwischen verschiedenen Umgebungen. Der synthetische Datensatz, der durch hochwertige Physik und fotorealistisches Rendering gekennzeichnet ist, wird durch mehrere Ansätze erstellt. Zusätzlich schlagen wir einheitliche Benchmarks für Imitationslernen und bestärkendes Lernen vor, die eine Bewertung über verschiedene Generalisierungsstufen hinweg ermöglichen. Im Kern der Simulationsplattform steht MetaSim, eine Infrastruktur, die verschiedene Simulationsumgebungen in eine universelle Schnittstelle abstrahiert. Sie strukturiert bestehende Simulationsumgebungen in ein simulatorunabhängiges Konfigurationssystem sowie eine API um, die verschiedene Simulatorfunktionen wie das Starten von Simulationsumgebungen, das Laden von Assets mit Anfangszuständen, das Fortschreiten der Physik-Engine usw. ausrichtet. Diese Abstraktion gewährleistet Interoperabilität und Erweiterbarkeit. Umfassende Experimente zeigen, dass RoboVerse die Leistung von Imitationslernen, bestärkendem Lernen, Weltmodelllernen und Sim-to-Real-Transfer verbessert. Diese Ergebnisse bestätigen die Zuverlässigkeit unseres Datensatzes und der Benchmarks und etablieren RoboVerse als robuste Lösung zur Weiterentwicklung des Robotik-Lernens.
Die multimodale Interpretation biomedizinischer Bilder eröffnet neue Möglichkeiten in der biomedizinischen Bildanalyse. Konventionelle KI-Ansätze stützen sich typischerweise auf getrenntes Training, d.h. Large Language Models (LLMs) für die klinische Textgenerierung und Segmentierungsmodelle für die Zielobjektextraktion, was zu unflexiblen Einsätzen in der Praxis und einer unzureichenden Nutzung ganzheitlicher biomedizinischer Informationen führt. Vor diesem Hintergrund stellen wir UniBiomed vor, das erste universelle Foundation-Modell für fundierte biomedizinische Bildinterpretation. UniBiomed basiert auf einer neuartigen Integration eines Multi-modal Large Language Model (MLLM) und eines Segment Anything Model (SAM), wodurch die Generierung klinischer Texte und die Segmentierung entsprechender biomedizinischer Objekte für eine fundierte Interpretation effektiv vereint werden. Auf diese Weise ist UniBiomed in der Lage, eine breite Palette biomedizinischer Aufgaben über zehn verschiedene biomedizinische Bildgebungsmodalitäten hinweg zu bewältigen. Zur Entwicklung von UniBiomed haben wir einen umfangreichen Datensatz mit über 27 Millionen Tripletts aus Bildern, Annotationen und Textbeschreibungen über zehn Bildgebungsmodalitäten zusammengestellt. Umfangreiche Validierungen an 84 internen und externen Datensätzen zeigten, dass UniBiomed Spitzenleistungen in den Bereichen Segmentierung, Krankheitserkennung, regionsbewusste Diagnose, visuelle Fragebeantwortung und Berichtsgenerierung erzielt. Darüber hinaus kann UniBiomed, im Gegensatz zu früheren Modellen, die auf klinische Experten angewiesen sind, um Bilder vorzudiagnostizieren und präzise textuelle oder visuelle Prompts manuell zu erstellen, eine automatisierte und end-to-end fundierte Interpretation für die biomedizinische Bildanalyse bieten. Dies stellt einen neuartigen Paradigmenwechsel in klinischen Arbeitsabläufen dar, der die diagnostische Effizienz erheblich verbessern wird. Zusammenfassend repräsentiert UniBiomed einen neuartigen Durchbruch in der biomedizinischen KI, der leistungsstarke Fähigkeiten zur fundierten Interpretation für eine genauere und effizientere biomedizinische Bildanalyse freisetzt.
Die Conjoint-Analyse, eine Anwendung des faktoriellen Versuchsplans, ist ein beliebtes Werkzeug in der sozialwissenschaftlichen Forschung zur Untersuchung multidimensionaler Präferenzen. In solchen Experimenten im Kontext der politischen Analyse werden die Befragten gebeten, zwischen zwei hypothetischen politischen Kandidaten mit zufällig ausgewählten Merkmalen zu wählen, die unter anderem Parteizugehörigkeit, politische Positionen, Geschlecht und ethnische Zugehörigkeit umfassen können. Wir betrachten das Problem der Identifizierung optimaler Kandidatenprofile. Da die Anzahl der einzigartigen Merkmalskombinationen die Gesamtzahl der Beobachtungen in einem typischen Conjoint-Experiment bei weitem übersteigt, ist es unmöglich, das optimale Profil exakt zu bestimmen. Um diese Identifikationsherausforderung zu bewältigen, leiten wir eine optimale stochastische Intervention ab, die eine Wahrscheinlichkeitsverteilung verschiedener Attribute darstellt, die darauf abzielt, das günstigste durchschnittliche Ergebnis zu erzielen. Wir betrachten zunächst ein Umfeld, in dem eine politische Partei ihre Kandidatenauswahl optimiert. Anschließend gehen wir zum realistischeren Fall über, in dem zwei politische Parteien ihre eigene Kandidatenauswahl gleichzeitig und gegeneinander optimieren. Wir wenden die vorgeschlagene Methodik auf ein bestehendes Conjoint-Experiment zur Wahlentscheidung für den US-Präsidenten an. Wir stellen fest, dass im Gegensatz zum nicht-adversarischen Ansatz die erwarteten Ergebnisse im adversarischen Regime im Bereich historischer Wahlergebnisse liegen, wobei die durch die Methode vorgeschlagenen optimalen Strategien mit höherer Wahrscheinlichkeit den tatsächlich beobachteten Kandidaten entsprechen als Strategien, die aus einem nicht-adversarischen Ansatz abgeleitet wurden. Diese Ergebnisse deuten darauf hin, dass die Einbeziehung adversarischer Dynamiken in die Conjoint-Analyse einzigartige Einblicke in sozialwissenschaftliche Daten aus Experimenten liefern kann.