papers.description
Die Entwicklung von hochmodernen Vision-Language-Modellen (VLMs) mit starken Bildbeschreibungsfähigkeiten erfordert in der Regel das Training mit Milliarden von hochwertigen Bild-Text-Paaren, was Millionen von GPU-Stunden in Anspruch nimmt. Dieses Papier stellt das Vision-Language-Vision (VLV)-Autoencoder-Framework vor, das strategisch auf Schlüsselkomponenten zurückgreift, die bereits vortrainiert wurden: einen Vision-Encoder, den Decoder eines Text-to-Image (T2I)-Diffusionsmodells und anschließend ein Large Language Model (LLM). Konkret schaffen wir einen Informationsengpass, indem wir den Sprachrepräsentationsraum regulieren, was durch das Einfrieren des vortrainierten T2I-Diffusionsdecoders erreicht wird. Unsere VLV-Pipeline destilliert effektiv Wissen aus dem textbedingten Diffusionsmodell unter Verwendung kontinuierlicher Embeddings und zeigt ein umfassendes semantisches Verständnis durch hochwertige Rekonstruktionen. Darüber hinaus konstruieren wir einen hochmodernen (SoTA) Bildbeschreiber, der mit führenden Modellen wie GPT-4o und Gemini 2.0 Flash vergleichbar ist, indem wir ein vortrainiertes LLM feinabstimmen, um die Zwischensprachrepräsentationen in detaillierte Beschreibungen zu dekodieren. Unser Ansatz zeigt eine außergewöhnliche Kosteneffizienz und reduziert den Datenbedarf erheblich; durch die primäre Nutzung von unimodalen Bildern für das Training und die Maximierung der Nutzung bestehender vortrainierter Modelle (Bild-Encoder, T2I-Diffusionsmodell und LLM) umgeht er die Notwendigkeit massiver gepaarter Bild-Text-Datensätze und hält die gesamten Trainingskosten unter 1.000 USD.
Dieser technische Bericht stellt EXAONE 4.0 vor, das einen Nicht-Schlussfolgerungsmodus und einen Schlussfolgerungsmodus integriert, um sowohl die hervorragende Benutzerfreundlichkeit von EXAONE 3.5 als auch die fortgeschrittenen Schlussfolgerungsfähigkeiten von EXAONE Deep zu erreichen. Um den Weg für die Ära der agentenbasierten KI zu ebnen, integriert EXAONE 4.0 wesentliche Funktionen wie den Einsatz agentenbasierter Werkzeuge, und seine mehrsprachigen Fähigkeiten wurden erweitert, um neben Englisch und Koreanisch auch Spanisch zu unterstützen. Die EXAONE 4.0-Modellreihe besteht aus zwei Größen: einem mittelgroßen 32B-Modell, das für hohe Leistung optimiert ist, und einem kleinen 1,2B-Modell, das für On-Device-Anwendungen konzipiert ist. EXAONE 4.0 zeigt eine überlegene Leistung im Vergleich zu Open-Weight-Modellen seiner Klasse und bleibt auch gegenüber Spitzenmodellen wettbewerbsfähig. Die Modelle sind zu Forschungszwecken öffentlich verfügbar und können einfach über https://huggingface.co/LGAI-EXAONE heruntergeladen werden.
Große Foundation-Modelle werden typischerweise mit Daten aus mehreren Domänen trainiert, wobei die Datenmischung – der Anteil jeder verwendeten Domäne – eine entscheidende Rolle für die Modellleistung spielt. Der Standardansatz zur Auswahl dieser Mischung beruht auf Versuch und Irrtum, was für groß angelegtes Pretraining unpraktisch wird. Wir schlagen eine systematische Methode vor, um die optimale Datenmischung für jede Zieldomäne mithilfe von Skalierungsgesetzen zu bestimmen. Unser Ansatz sagt den Verlust eines Modells der Größe N, das mit D Tokens und einem spezifischen Domänengewichtsvektor h trainiert wurde, präzise voraus. Wir validieren die Universalität dieser Skalierungsgesetze, indem wir ihre Vorhersagekraft in drei verschiedenen und groß angelegten Settings demonstrieren: Pretraining von großen Sprachmodellen (LLM), nativen multimodalen Modellen (NMM) und großen Vision-Modellen (LVM). Wir zeigen weiterhin, dass diese Skalierungsgesetze auf neue Datenmischungen und über verschiedene Skalen hinweg extrapolieren können: Ihre Parameter können mithilfe einiger kleiner Trainingsläufe präzise geschätzt und verwendet werden, um die Leistung bei größeren Skalen und unbekannten Domänengewichten zu schätzen. Die Skalierungsgesetze ermöglichen es, die optimalen Domänengewichte für jede Zieldomäne unter einem gegebenen Trainingsbudget (N, D) abzuleiten, und bieten somit eine prinzipielle Alternative zu kostspieligen Trial-and-Error-Methoden.
Dieses Paper stellt MISS-QA vor, den ersten Benchmark, der speziell entwickelt wurde, um die Fähigkeit von Modellen zur Interpretation von schematischen Diagrammen in wissenschaftlicher Literatur zu bewerten. MISS-QA umfasst 1.500 von Experten annotierte Beispiele aus 465 wissenschaftlichen Arbeiten. In diesem Benchmark wird von Modellen erwartet, dass sie schematische Diagramme, die Forschungsüberblicke darstellen, interpretieren und entsprechende informationssuchende Fragen basierend auf dem weiteren Kontext der Arbeit beantworten. Wir bewerten die Leistung von 18 führenden multimodalen Foundation-Modellen, darunter o4-mini, Gemini-2.5-Flash und Qwen2.5-VL. Unsere Ergebnisse zeigen eine signifikante Leistungslücke zwischen diesen Modellen und menschlichen Experten bei MISS-QA. Unsere Analyse der Modellleistung bei unbeantwortbaren Fragen sowie unsere detaillierte Fehleranalyse verdeutlichen weiterhin die Stärken und Schwächen aktueller Modelle und bieten wichtige Erkenntnisse, um Modelle im Verständnis multimodaler wissenschaftlicher Literatur zu verbessern.
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten zur Problemlösung unter Beweis gestellt, insbesondere wenn sie in Multi-Agenten-Systemen organisiert sind. Die Einführung solcher Systeme wirft jedoch auch mehrere Fragen zur Fähigkeit eines komplexen Netzwerks von Agenten auf, sich effektiv selbst zu organisieren und zusammenzuarbeiten. Während die Messung der Leistung anhand standardisierter Denkaufgaben zeigt, wie gut Multi-Agenten-Systeme logische Aufgaben lösen können, bleibt unklar, ob diese Systeme in der Lage sind, ihre Topologie effektiv zu nutzen. Hier schlagen wir AgentsNet vor, einen neuen Benchmark für das Multi-Agenten-Denken. Inspiriert von klassischen Problemen der verteilten Systeme und der Graphentheorie misst AgentsNet die Fähigkeit von Multi-Agenten-Systemen, gemeinsam Strategien zur Problemlösung, Selbstorganisation und effektiven Kommunikation unter Berücksichtigung einer Netzwerktopologie zu entwickeln. Wir bewerten eine Vielzahl von Baseline-Methoden auf AgentsNet, einschließlich homogener Netzwerke von Agenten, die zunächst grundlegende Protokolle für Organisation und Kommunikation vereinbaren müssen. Wir stellen fest, dass einige fortschrittliche LLMs bereits eine starke Leistung für kleine Netzwerke zeigen, jedoch nachlassen, sobald die Größe des Netzwerks skaliert wird. Während bestehende Multi-Agenten-Benchmarks höchstens 2-5 Agenten abdecken, ist AgentsNet praktisch unbegrenzt in der Größe und kann mit neuen Generationen von LLMs skaliert werden. Daher testen wir auch fortschrittliche Modelle in einem Setup mit bis zu 100 Agenten.
Jüngste Fortschritte bei Large Language Models (LLMs) mit Schwerpunkt auf logischem Denken, insbesondere ihr Potenzial durch Skalierung zur Testzeit, haben bedeutende Möglichkeiten für die Destillation in der Code-Generierung und -Kritik geschaffen. Der Fortschritt in beiden Bereichen hängt jedoch grundlegend von groß angelegten, hochwertigen Datensätzen ab. In dieser Arbeit stellen wir OpenCodeReasoning-II vor, einen Datensatz, der aus 2,5 Millionen Frage-Lösung-Kritik-Tripeln besteht (ca. 35.000 einzigartige Programmierfragen), was ihn fast doppelt so groß macht wie den bisher größten öffentlich verfügbaren Datensatz für Code-Reasoning. In dieser Arbeit verwenden wir eine zweistufige überwachte Feinabstimmungsstrategie. Die erste Stufe konzentriert sich auf die Feinabstimmung für die Code-Generierung, während die zweite Stufe das gemeinsame Training von Modellen für sowohl Code-Generierung als auch Kritik umfasst. Unsere daraus resultierenden feinabgestimmten Qwen2.5-Instruct-Modelle erreichen in der Code-Generierung eine Leistung, die die besten bisherigen offen gewichteten destillierten Modelle entweder übertrifft oder ihnen gleichkommt. Besonders hervorzuheben ist, dass die Integration unserer Code-Generierungs- und Kritikmodelle zu signifikanten Verbesserungen in der Leistung bei kompetitiver Programmierung führt. Darüber hinaus präsentieren wir eine Erweiterung des LiveCodeBench-Benchmarks, um speziell die Programmiersprache C++ zu unterstützen, wodurch eine umfassendere LLM-Evaluierung mit diesem Benchmark ermöglicht wird.
Die Extraktion von optischem Fluss aus Videos bleibt ein zentrales Problem der Computer Vision. Angeregt durch den Erfolg großer, allgemeiner Modelle, stellen wir die Frage, ob eingefrorene, selbstüberwachte Videomodelle, die ausschließlich für die Vorhersage zukünftiger Bilder trainiert wurden, ohne Feinabstimmung dazu gebracht werden können, Fluss zu erzeugen. Frühere Arbeiten, die Tiefe oder Beleuchtung aus Video-Generatoren ausgelesen haben, erforderten eine Feinabstimmung, was für Fluss unpraktisch ist, da Labels knapp sind und synthetische Datensätze unter einer Sim-to-Real-Lücke leiden. Inspiriert durch das Paradigma des Counterfactual World Model (CWM), das punktweise Korrespondenzen durch das Einbringen einer kleinen Tracer-Störung in einen nächsten-Bild-Vorhersager und das Verfolgen seiner Ausbreitung erhält, erweitern wir diese Idee auf generative Videomodelle. Wir untersuchen mehrere populäre Architekturen und stellen fest, dass eine erfolgreiche Null-Shot-Fluss-Extraktion auf diese Weise durch drei Modelleigenschaften begünstigt wird: (1) die verteilungsbasierte Vorhersage zukünftiger Bilder (vermeidet unscharfe oder verrauschte Ausgaben); (2) faktorisierte Latents, die jeden räumlich-zeitlichen Patch unabhängig behandeln; und (3) Random-Access-Decoding, das auf jede Teilmenge zukünftiger Pixel konditionieren kann. Diese Eigenschaften sind einzigartig in der kürzlich entwickelten Local Random Access Sequence (LRAS)-Architektur vorhanden. Aufbauend auf LRAS schlagen wir KL-Tracing vor: ein neuartiges Testzeit-Verfahren, das eine lokalisierte Störung in das erste Bild einbringt, das Modell einen Schritt weiterrollt und die Kullback-Leibler-Divergenz zwischen gestörten und ungestörten Vorhersageverteilungen berechnet. Ohne jegliche flussspezifische Feinabstimmung übertrifft unsere Methode state-of-the-art Modelle auf dem realen TAP-Vid DAVIS-Datensatz (16,6 % relative Verbesserung für den Endpunktfehler) und dem synthetischen TAP-Vid Kubric (4,7 % relative Verbesserung). Unsere Ergebnisse zeigen, dass das kontrafaktuelle Prompting kontrollierbarer generativer Videomodelle eine skalierbare und effektive Alternative zu überwachten oder photometrischen Verlustansätzen für hochwertigen Fluss darstellt.
Die Beantwortung von Fragen mithilfe von Wissensgraphen (Knowledge Graph Question Answering, KGQA) stellt aufgrund der strukturellen und semantischen Variationen in den Eingabegraphen erhebliche Herausforderungen dar. Bisherige Ansätze setzen auf Agenten, die auf großen Sprachmodellen (Large Language Models, LLMs) basieren, um Graphendurchläufe und -abfragen durchzuführen. Dieser Ansatz ist jedoch anfällig für Fehler bei der Initialisierung der Durchläufe, da er zu Fehlern bei der Entitätsverknüpfung neigt und möglicherweise nicht gut auf benutzerdefinierte ("bring-your-own") Wissensgraphen verallgemeinert. Wir stellen BYOKG-RAG vor, ein Framework, das KGQA verbessert, indem es LLMs synergetisch mit spezialisierten Graph-Retrieval-Tools kombiniert. In BYOKG-RAG generieren LLMs kritische Graph-Artefakte (Frageentitäten, Kandidatenantworten, Argumentationspfade und OpenCypher-Abfragen), und Graph-Tools verknüpfen diese Artefakte mit dem Wissensgraphen und holen den relevanten Graph-Kontext. Der abgerufene Kontext ermöglicht es dem LLM, seine Graph-Verknüpfungen und -Abfragen iterativ zu verfeinern, bevor die endgültige Antwort generiert wird. Durch das Abrufen von Kontext aus verschiedenen Graph-Tools bietet BYOKG-RAG eine allgemeinere und robustere Lösung für die Beantwortung von Fragen über benutzerdefinierte Wissensgraphen. In Experimenten mit fünf Benchmarks, die verschiedene Arten von Wissensgraphen abdecken, zeigen wir, dass BYOKG-RAG die zweitbeste Graph-Retrieval-Methode um 4,5 Prozentpunkte übertrifft und eine bessere Generalisierung auf benutzerdefinierte Wissensgraphen aufweist. Das BYOKG-RAG-Framework ist unter https://github.com/awslabs/graphrag-toolkit quelloffen verfügbar.
Audio Inpainting bezeichnet die Aufgabe, fehlende Segmente in beschädigten Audioaufnahmen zu rekonstruieren. Während bisherige Ansätze – einschließlich wellenform- und spektrogrammbasierter Diffusionsmodelle – vielversprechende Ergebnisse für kurze Lücken gezeigt haben, lässt ihre Qualität oft nach, wenn die Lücken 100 Millisekunden (ms) überschreiten. In dieser Arbeit stellen wir eine neuartige Inpainting-Methode vor, die auf diskreter Diffusionsmodellierung basiert und über tokenisierte Audiodarstellungen arbeitet, die von einem vortrainierten Audio-Tokenizer erzeugt werden. Unser Ansatz modelliert den generativen Prozess direkt im diskreten latenten Raum, was eine stabile und semantisch kohärente Rekonstruktion fehlender Audiodaten ermöglicht. Wir evaluieren die Methode auf dem MusicNet-Datensatz unter Verwendung sowohl objektiver als auch wahrnehmungsbasierter Metriken für Lückendauern von bis zu 300 ms. Darüber hinaus haben wir unseren Ansatz auf dem MTG-Datensatz evaluiert und die Lückendauer auf 500 ms erweitert. Die experimentellen Ergebnisse zeigen, dass unsere Methode im Vergleich zu bestehenden Baseline-Modellen wettbewerbsfähige oder überlegene Leistung erzielt, insbesondere bei längeren Lücken, und somit eine robuste Lösung für die Wiederherstellung degradierter Musikaufnahmen bietet. Audio-Beispiele unserer vorgeschlagenen Methode finden Sie unter https://iftach21.github.io/.
In der realen Welt erstellte Nutzervideos, insbesondere auf Plattformen wie TikTok, weisen oft reichhaltige und miteinander verwobene audiovisuelle Inhalte auf. Bestehende Benchmarks und Modelle für die Videobeschriftung bleiben jedoch überwiegend visuell zentriert und übersehen die entscheidende Rolle des Audios bei der Vermittlung von Szenendynamik, Sprecherabsicht und narrativem Kontext. Dieser Mangel an omni-Datensätzen und leistungsfähigen, schlanken Modellen behindert den Fortschritt im feingranularen, multimodalen Videoverständnis. Um diese Herausforderungen zu bewältigen, stellen wir UGC-VideoCap vor, einen neuen Benchmark und Modellrahmen, der speziell für die detaillierte omnimodale Beschriftung von kurzformatigen Nutzervideos entwickelt wurde. Im Gegensatz zu früheren Datensätzen betont UGC-VideoCap die ausgewogene Integration von Audio- und visuellen Modalitäten und umfasst 1000 TikTok-Videos, die durch einen strukturierten dreistufigen Human-in-the-Loop-Prozess annotiert wurden, der ausschließlich auditive, ausschließlich visuelle und gemeinsame audiovisuelle Semantik abdeckt. Der Benchmark enthält außerdem 4000 sorgfältig erstellte Frage-Antwort-Paare, die sowohl unimodales als auch cross-modales Verständnis untersuchen. Neben dem Datensatz schlagen wir UGC-VideoCaptioner(3B) vor, ein 3-Milliarden-Parameter-Beschriftungsmodell, das aus Gemini 2.5 Flash destilliert wurde. Durch eine neuartige zweistufige Trainingsstrategie – überwachtes Fein-Tuning gefolgt von Group Relative Policy Optimization (GRPO) – ermöglicht unser Ansatz eine effiziente Anpassung mit begrenzten Daten bei gleichzeitiger Aufrechterhaltung einer wettbewerbsfähigen Leistung. Zusammen bieten unser Benchmark und Modell eine hochwertige Grundlage und eine dateneffiziente Lösung zur Weiterentwicklung der omnimodalen Videobeschriftung in ungezwungenen realen UGC-Umgebungen.
Große Sprachmodelle (LLMs) haben die Softwareentwicklung und die automatisierte Codegenerierung revolutioniert. Angespornt durch diese Fortschritte untersucht dieses Papier die Machbarkeit von LLMs bei der Modifikation von Malware-Quellcode zur Erzeugung von Varianten. Wir stellen LLMalMorph vor, ein halbautomatisiertes Framework, das semantisches und syntaktisches Codeverständnis durch LLMs nutzt, um neue Malware-Varianten zu generieren. LLMalMorph extrahiert funktionale Informationen aus dem Malware-Quellcode und verwendet speziell entwickelte Prompts in Kombination mit strategisch definierten Code-Transformationen, um das LLM bei der Generierung von Varianten ohne ressourcenintensives Fine-Tuning zu leiten. Zur Bewertung von LLMalMorph sammelten wir 10 diverse Windows-Malware-Proben unterschiedlicher Typen, Komplexität und Funktionalität und erzeugten 618 Varianten. Unsere umfassenden Experimente zeigen, dass es möglich ist, die Erkennungsraten von Antiviren-Engines für diese Malware-Varianten bis zu einem gewissen Grad zu reduzieren, während die Malware-Funktionalitäten erhalten bleiben. Darüber hinaus erreichten mehrere Varianten, obwohl sie nicht gegen maschinelles Lernen (ML) basierte Malware-Erkennungssysteme optimiert wurden, bemerkenswerte Angriffserfolgsraten gegen einen ML-basierten Malware-Klassifikator. Wir diskutieren auch die Grenzen der aktuellen LLM-Fähigkeiten bei der Generierung von Malware-Varianten aus Quellcode und bewerten, wo diese aufstrebende Technologie im weiteren Kontext der Malware-Variantengenerierung steht.
Große Sprachmodelle (LLMs) zeigen kognitive Verzerrungen – systematische Tendenzen zu irrationalen Entscheidungen, ähnlich wie sie bei Menschen beobachtet werden. Frühere Arbeiten haben festgestellt, dass diese Verzerrungen zwischen Modellen variieren und durch Instruction Tuning verstärkt werden können. Es bleibt jedoch unklar, ob diese Unterschiede in den Verzerrungen auf das Pretraining, das Finetuning oder sogar auf zufälliges Rauschen aufgrund der Trainingsstochastizität zurückzuführen sind. Wir schlagen einen zweistufigen kausalen experimentellen Ansatz vor, um diese Faktoren zu entwirren. Zunächst finetunen wir Modelle mehrmals mit unterschiedlichen Zufallsinitialisierungen, um zu untersuchen, wie die Trainingszufälligkeit über 30 kognitive Verzerrungen beeinflusst. Zweitens führen wir Cross-Tuning ein – den Austausch von Instruction-Datensätzen zwischen Modellen, um die Quellen der Verzerrungen zu isolieren. Dieser Austausch verwendet Datensätze, die zu unterschiedlichen Verzerrungsmustern führten, und testet direkt, ob die Verzerrungen datensatzabhängig sind. Unsere Ergebnisse zeigen, dass die Trainingszufälligkeit zwar einige Variabilität einführt, die Verzerrungen jedoch hauptsächlich durch das Pretraining geprägt werden: Modelle mit demselben vortrainierten Backbone zeigen ähnlichere Verzerrungsmuster als solche, die nur Finetuning-Daten teilen. Diese Erkenntnisse legen nahe, dass das Verständnis von Verzerrungen in finetunten Modellen die Berücksichtigung ihrer Pretraining-Ursprünge über die Effekte des Finetunings hinaus erfordert. Diese Perspektive kann zukünftige Bemühungen leiten, um prinzipielle Strategien zur Bewertung und Minderung von Verzerrungen in LLMs zu entwickeln.
Moderne Künstliche Intelligenz (KI) setzt zunehmend auf Multi-Agenten-Architekturen, die visuelles und sprachliches Verständnis kombinieren. Dennoch bleibt eine dringende Herausforderung bestehen: Wie können wir diesen Agenten vertrauen, insbesondere in Zero-Shot-Szenarien ohne Feinabstimmung? Wir stellen ein neuartiges modulares Agentic AI-Framework zur visuellen Klassifizierung vor, das generalistische multimodale Agenten mit einem nicht-visuellen Reasoning-Orchestrator und einem Retrieval-Augmented Generation (RAG)-Modul integriert. Angewendet auf die Diagnose von Apfelblattkrankheiten, vergleichen wir drei Konfigurationen: (I) Zero-Shot mit vertrauensbasierter Orchestrierung, (II) feinabgestimmte Agenten mit verbesserter Leistung und (III) vertrauenskalibrierte Orchestrierung, die durch CLIP-basiertes Bild-Retrieval und Re-Evaluationsschleifen erweitert wird. Mithilfe von Vertrauenskalibrierungsmetriken (ECE, OCR, CCC) moduliert der Orchestrator das Vertrauen zwischen den Agenten. Unsere Ergebnisse zeigen eine Verbesserung der Genauigkeit um 77,94 % im Zero-Shot-Setting durch vertrauensbewusste Orchestrierung und RAG, wodurch insgesamt 85,63 % erreicht werden. GPT-4o zeigte eine bessere Kalibrierung, während Qwen-2.5-VL Überzuversicht aufwies. Darüber hinaus verankerte das Bild-RAG Vorhersagen mit visuell ähnlichen Fällen, wodurch die Korrektur von Überzuversicht der Agenten durch iterative Re-Evaluation ermöglicht wurde. Das vorgeschlagene System trennt Wahrnehmung (Vision-Agenten) vom Meta-Reasoning (Orchestrator) und ermöglicht so skalierbare und interpretierbare Multi-Agenten-KI. Dieser Entwurf ist auf Diagnostik, Biologie und andere vertrauenskritische Domänen erweiterbar. Alle Modelle, Prompts, Ergebnisse und Systemkomponenten, einschließlich des vollständigen Software-Quellcodes, werden offen veröffentlicht, um Reproduzierbarkeit, Transparenz und Community-Benchmarking zu unterstützen: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust.