Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Da sich Large Language Models (LLMs) rasant weiterentwickeln, wird die Bereitstellung von präzisem Feedback und skalierbarer Überwachung ihrer Ausgaben zu einem dringenden und kritischen Problem. Die Nutzung von LLMs als Kritikmodelle zur Erzielung einer automatisierten Aufsicht stellt eine vielversprechende Lösung dar. In dieser Arbeit konzentrieren wir uns auf die Untersuchung und Verbesserung der mathematischen Kritikfähigkeit von LLMs. Aktuelle LLM-Kritiker liefern Kritiken, die zu oberflächlich und wenig tiefgehend für jeden Schritt sind, was zu einer geringen Urteilsgenauigkeit führt und es schwierig macht, ausreichend Feedback für den LLM-Generator zur Korrektur von Fehlern bereitzustellen. Um dieses Problem zu lösen, schlagen wir ein neuartiges und effektives zweistufiges Framework vor, um LLM-Kritiker zu entwickeln, die in der Lage sind, gezielt jeden Schritt mathematischer Lösungen zu kritisieren. In der ersten Stufe nutzen wir Qwen2.5-72B-Instruct, um 4.5K langformatige Kritiken als Ausgangsdaten für das überwachte Fein-Tuning zu generieren. Jede Ausgangskritik besteht aus gezielten schrittweisen Kritiken, die mehrperspektivische Überprüfungen sowie tiefgehende Kritiken der initialen Kritiken für jeden Lösungsweg beinhalten. Anschließend führen wir Reinforcement Learning auf dem feinabgestimmten Modell durch, entweder mit bestehenden, von Menschen annotierten Daten aus PRM800K oder unseren automatisch annotierten Daten, die durch Monte-Carlo-Sampling-basierte Korrektheitsschätzung gewonnen wurden, um dessen Kritikfähigkeit weiter zu fördern. Unser entwickeltes Kritikmodell, das auf Qwen2.5-7B-Instruct basiert, übertrifft nicht nur signifikant bestehende LLM-Kritiker (einschließlich der gleich großen DeepSeek-R1-distill-Modelle und GPT-4o) in verschiedenen Fehleridentifikations-Benchmarks, sondern hilft auch effektiver dem LLM-Generator, fehlerhafte Schritte durch detaillierteres Feedback zu verbessern.
Interaktives Generatives Video (IGV) hat sich als eine entscheidende Technologie etabliert, um der wachsenden Nachfrage nach hochwertigen, interaktiven Videoinhalten in verschiedenen Domänen gerecht zu werden. In diesem Artikel definieren wir IGV als eine Technologie, die generative Fähigkeiten zur Erzeugung vielfältiger, hochwertiger Videoinhalte mit interaktiven Funktionen kombiniert, die Benutzerengagement durch Steuersignale und reaktives Feedback ermöglichen. Wir untersuchen die aktuelle Landschaft der IGV-Anwendungen mit einem Fokus auf drei Hauptbereiche: 1) Gaming, wo IGV unendliche Exploration in virtuellen Welten ermöglicht; 2) verkörperte KI, wo IGV als physikbewusster Umgebungssynthesizer für das Training von Agenten in multimodaler Interaktion mit sich dynamisch entwickelnden Szenen dient; und 3) autonomes Fahren, wo IGV geschlossene Simulationsfähigkeiten für sicherheitskritische Tests und Validierungen bereitstellt. Um die zukünftige Entwicklung zu leiten, schlagen wir ein umfassendes Framework vor, das ein ideales IGV-System in fünf wesentliche Module zerlegt: Generierung, Steuerung, Speicher, Dynamik und Intelligenz. Darüber hinaus analysieren wir systematisch die technischen Herausforderungen und zukünftigen Richtungen bei der Realisierung jeder Komponente für ein ideales IGV-System, wie z. B. die Erreichung von Echtzeitgenerierung, die Ermöglichung von offener Domänenkontrolle, die Aufrechterhaltung von langfristiger Kohärenz, die Simulation präziser Physik und die Integration von kausalem Denken. Wir glauben, dass diese systematische Analyse zukünftige Forschung und Entwicklung im Bereich IGV erleichtern wird und die Technologie letztendlich in Richtung anspruchsvollerer und praktischerer Anwendungen vorantreiben wird.
Jüngste Fortschritte bei großen Sprachmodellen haben gezeigt, wie Chain-of-Thought (CoT) und Reinforcement Learning (RL) die Leistung verbessern können. Die Anwendung solcher Denkstrategien im Bereich der visuellen Generierung bleibt jedoch weitgehend unerforscht. In diesem Artikel stellen wir T2I-R1 vor, ein neuartiges, durch RL unterstütztes Text-zu-Bild-Generierungsmodell, das durch einen zweistufigen CoT-Denkprozess verbessert wird. Konkret identifizieren wir zwei Ebenen von CoT, die zur Verbesserung verschiedener Generierungsphasen genutzt werden können: (1) den semantischen CoT für die hochrangige Planung des Prompts und (2) den Token-Level CoT für die niedrigrangige Pixelverarbeitung während der patchweisen Generierung. Um diese beiden CoT-Ebenen besser zu koordinieren, führen wir BiCoT-GRPO mit einem Ensemble von Generierungsbelohnungen ein, das beide Generierungs-CoTs nahtlos innerhalb desselben Trainingsschritts optimiert. Durch die Anwendung unserer Denkstrategien auf das Basismodell Janus-Pro erzielen wir eine überlegene Leistung mit einer Verbesserung von 13 % auf T2I-CompBench und 19 % auf dem WISE-Benchmark, wobei wir sogar das state-of-the-art Modell FLUX übertreffen. Der Code ist verfügbar unter: https://github.com/CaraJ7/T2I-R1.
Viele Methoden zur Verbesserung von Large Language Model (LLM)-Agenten für sequenzielle Entscheidungsaufgaben basieren auf aufgabenbezogenem Wissensengineering – wie Prompt-Tuning, kuratierte In-Kontext-Beispiele oder angepasste Beobachtungs- und Aktionsräume. Bei diesen Ansätzen verbessert sich die Leistung des Agenten mit der Qualität oder dem Aufwand des investierten Wissensengineerings. Stattdessen untersuchen wir, wie LLM-Agenten ihre Leistung automatisch verbessern können, indem sie In-Kontext aus ihren eigenen erfolgreichen Erfahrungen bei ähnlichen Aufgaben lernen. Anstatt auf aufgabenbezogenes Wissensengineering zu setzen, konzentrieren wir uns auf den Aufbau und die Verfeinerung einer Datenbank mit selbstgenerierten Beispielen. Wir zeigen, dass bereits eine naive Akkumulation erfolgreicher Trajektorien über Trainingsaufgaben die Testleistung auf drei Benchmarks steigert: ALFWorld (73 % auf 89 %), Wordcraft (55 % auf 64 %) und InterCode-SQL (75 % auf 79 %) – was der Leistung entspricht, die der ursprüngliche Agent erreicht, wenn er zwei bis drei Versuche pro Aufgabe erhält. Anschließend führen wir zwei Erweiterungen ein: (1) Datenbankselektion durch populationsbasiertes Training, um hochperformante Beispielsammlungen zu identifizieren, und (2) Exemplarselektion, die einzelne Trajektorien basierend auf ihrer empirischen Nützlichkeit als In-Kontext-Beispiele beibehält. Diese Erweiterungen steigern die Leistung weiter und erreichen 91 % auf ALFWorld – was komplexeren Ansätzen entspricht, die aufgabenbezogene Komponenten und Prompts verwenden. Unsere Ergebnisse zeigen, dass die automatische Konstruktion von Trajektorien-Datenbanken eine überzeugende Alternative zu arbeitsintensivem Wissensengineering darstellt.
Die Lippensynchronisation, bekannt als die Aufgabe, Lippenbewegungen in einem bestehenden Video mit neuem Eingabe-Audio abzustimmen, wird typischerweise als eine einfachere Variante der audio-gesteuerten Gesichtsanimation betrachtet. Allerdings leidet sie nicht nur unter den üblichen Problemen bei der Generierung von sprechenden Köpfen (z.B. zeitliche Konsistenz), sondern stellt auch erhebliche neue Herausforderungen dar, wie z.B. den Ausdrucksdurchgriff aus dem Eingabevideo und Gesichtsverdeckungen, die reale Anwendungen wie automatisiertes Synchronisieren stark beeinträchtigen können, aber in bestehenden Arbeiten oft vernachlässigt werden. Um diese Mängel zu beheben, präsentieren wir KeySync, ein zweistufiges Framework, das das Problem der zeitlichen Konsistenz erfolgreich löst und gleichzeitig Lösungen für Durchgriff und Verdeckungen durch eine sorgfältig gestaltete Maskierungsstrategie integriert. Wir zeigen, dass KeySync state-of-the-art Ergebnisse in der Lippennachbildung und Cross-Synchronisation erzielt, die visuelle Qualität verbessert und den Ausdrucksdurchgriff gemäß LipLeak, unserer neuartigen Durchgriff-Metrik, reduziert. Darüber hinaus demonstrieren wir die Wirksamkeit unseres neuen Maskierungsansatzes bei der Handhabung von Verdeckungen und validieren unsere architektonischen Entscheidungen durch mehrere Ablationsstudien. Code und Modellgewichte sind unter https://antonibigata.github.io/KeySync verfügbar.
Moralgeschichten sind ein bewährtes Mittel zur Vermittlung von Werten, doch der modernen NLP-Forschung fehlt ein umfangreiches, strukturiertes Korpus, das kohärente Erzählungen mit expliziten ethischen Lehren verbindet. Wir schließen diese Lücke mit TF1-EN-3M, dem ersten offenen Datensatz von drei Millionen englischsprachigen Fabeln, die ausschließlich von Instruktions-finetunierten Modellen mit maximal 8B Parametern generiert wurden. Jede Geschichte folgt einem sechsstufigen Gerüst (Charakter -> Eigenschaft -> Setting -> Konflikt -> Lösung -> Moral), das durch einen kombinatorischen Prompt-Generator erzeugt wird, der Genre-Treue gewährleistet und gleichzeitig ein breites thematisches Spektrum abdeckt. Eine hybride Evaluationspipeline kombiniert (i) einen GPT-basierten Kritiker, der Grammatik, Kreativität, moralische Klarheit und Vorlagen-Treue bewertet, mit (ii) referenzfreien Metriken für Diversität und Lesbarkeit. Unter zehn Open-Weight-Kandidaten liefert eine 8B-Parameter-Variante von Llama-3 das beste Qualitäts-Geschwindigkeits-Verhältnis und erzeugt hoch bewertete Fabeln auf einer einzelnen Consumer-GPU (<24 GB VRAM) zu Kosten von etwa 13,5 Cent pro 1.000 Fabeln. Wir veröffentlichen den Datensatz, den Generierungscode, die Evaluationsskripte und die vollständigen Metadaten unter einer freizügigen Lizenz, was exakte Reproduzierbarkeit und Kostenvergleiche ermöglicht. TF1-EN-3M eröffnet neue Forschungsmöglichkeiten in den Bereichen Instruktionsbefolgung, narrative Intelligenz, Wertausrichtung und kindgerechter Bildungs-KI und zeigt, dass groß angelegtes moralisches Geschichtenerzählen keine proprietären Riesenmodelle mehr erfordert.
Große Sprachmodelle (LLMs) haben die Softwareentwicklung revolutioniert, doch ihre Anwendung in physikalischen Ingenieursdomänen bleibt weitgehend unerforscht. Diese Arbeit bewertet die Fähigkeiten von LLMs im Bereich des Hochleistungsraketenentwurfs mithilfe von RocketBench, einem Benchmark, der LLMs mit hochgenauen Raketensimulationen verbindet. Wir testen Modelle an zwei zunehmend komplexen Entwurfsaufgaben: der Optimierung der Zielhöhe und der Präzisionslandung. Unsere Ergebnisse zeigen, dass zwar state-of-the-art LLMs über solides Grundlagenwissen im Ingenieurwesen verfügen, sie jedoch Schwierigkeiten haben, ihre Entwürfe auf der Grundlage von Simulationsergebnissen zu iterieren und letztlich unterhalb des menschlichen Leistungsniveaus stagnieren. Wenn sie jedoch mit Verstärkungslernen (RL) verbessert werden, zeigt sich, dass ein 7B-Parameter-Modell sowohl state-of-the-art Basismodelle als auch menschliche Experten übertrifft. Diese Forschung demonstriert, dass RL-trainierte LLMs als effektive Werkzeuge für komplexe Ingenieursoptimierung dienen können und potenziell Ingenieursdomänen über die Softwareentwicklung hinaus transformieren könnten.
Kürzlich haben Modelle für langkettiges Denken (Long-CoT) starke Leistungen bei komplexen Denkaufgaben gezeigt, verursachen jedoch oft erheblichen Inferenzaufwand, was Effizienz zu einem kritischen Anliegen macht. Unsere empirische Analyse zeigt, dass der Nutzen von Long-CoT je nach Problem variiert: Während einige Probleme aufwendiges Denken erfordern, zeigen andere keine Verbesserung oder sogar eine geringere Genauigkeit. Dies motiviert adaptive Denkstrategien, die die Denktiefe an den Eingang anpassen. Bisherige Arbeiten reduzieren jedoch hauptsächlich Redundanzen innerhalb langer Denkpfade, was die Erforschung effizienterer Strategien jenseits des Long-CoT-Paradigmas einschränkt. Um dies zu adressieren, schlagen wir ein neuartiges zweistufiges Framework für adaptives und effizientes Denken vor. Zunächst konstruieren wir ein hybrides Denkmodell, indem wir lange und kurze CoT-Modelle kombinieren, um verschiedene Denkstile zu ermöglichen. Zweitens wenden wir ein zweistufiges Präferenztraining an, um das Modell anzuleiten, geeignete Denkstile (Gruppenebene) auszuwählen und innerhalb jeder Stilgruppe präzises und korrektes Denken zu bevorzugen (Instanzebene). Experimente zeigen, dass unsere Methode die Inferenzkosten im Vergleich zu anderen Baseline-Ansätzen signifikant reduziert, während die Leistung erhalten bleibt. Bemerkenswerterweise wird die durchschnittliche Länge des Denkens auf fünf mathematischen Datensätzen um mehr als 50 % reduziert, was das Potenzial adaptiver Strategien zur Optimierung der Denkeffizienz in großen Sprachmodellen unterstreicht. Unser Code wird demnächst unter https://github.com/StarDewXXX/AdaR1 verfügbar sein.
Skriptschnittstellen ermöglichen es Benutzern, Aufgaben zu automatisieren und Software-Workflows anzupassen. Die Erstellung von Skripten erfordert jedoch traditionell Programmierkenntnisse und Vertrautheit mit spezifischen APIs, was für viele Benutzer eine Hürde darstellt. Während große Sprachmodelle (LLMs) Code aus natürlichen Sprachanfragen generieren können, ist die Laufzeit-Codegenerierung aufgrund von ungeprüftem Code, Sicherheitsrisiken, längeren Antwortzeiten und höheren Rechenkosten stark eingeschränkt. Um diese Lücke zu schließen, schlagen wir ein Offline-Simulationsframework vor, um ein software-spezifisches Skillset, eine Sammlung verifizierter Skripte, durch die Nutzung von LLMs und öffentlich verfügbaren Skriptanleitungen zu kuratieren. Unser Framework besteht aus zwei Komponenten: (1) Aufgabenstellung, bei der top-down-Funktionsanleitungen und bottom-up-API-Synergie-Exploration verwendet werden, um nützliche Aufgaben zu generieren; und (2) Skill-Generierung mit Versuchen, die Skripte basierend auf Ausführungsfeedback verfeinern und validieren. Um die umfangreiche API-Landschaft effizient zu navigieren, führen wir ein Graph Neural Network (GNN)-basiertes Link-Vorhersagemodell ein, um API-Synergien zu erfassen, was die Generierung von Skills unter Einbeziehung untergenutzter APIs ermöglicht und die Vielfalt des Skillsets erweitert. Experimente mit Adobe Illustrator zeigen, dass unser Framework die Automatisierungserfolgsraten deutlich verbessert, die Antwortzeit reduziert und Laufzeit-Token-Kosten im Vergleich zur traditionellen Laufzeit-Codegenerierung einspart. Dies ist der erste Versuch, Software-Skriptschnittstellen als Testumgebung für LLM-basierte Systeme zu nutzen, und hebt die Vorteile der Nutzung von Ausführungsfeedback in einer kontrollierten Umgebung hervor. Es bietet wertvolle Einblicke in die Ausrichtung von KI-Fähigkeiten auf Benutzerbedürfnisse in spezialisierten Softwarebereichen.
Stellen Sie sich vor, Sie befinden sich in einem überfüllten Raum, in dem Menschen eine andere Sprache sprechen, und Sie tragen Hörgeräte, die den akustischen Raum in Ihre Muttersprache übersetzen, während die räumlichen Hinweise für alle Sprecher erhalten bleiben. Wir stellen die räumliche Sprachübersetzung vor, ein neuartiges Konzept für Hörgeräte, das Sprecher in der Umgebung des Trägers übersetzt, während die Richtung und die einzigartigen Stimmmerkmale jedes Sprechers in der binauralen Ausgabe beibehalten werden. Um dies zu erreichen, bewältigen wir mehrere technische Herausforderungen, darunter blinde Quellentrennung, Lokalisierung, Echtzeit-Übersetzung mit Ausdruckskraft und binaurales Rendering, um die Sprecherrichtungen in der übersetzten Audioausgabe zu erhalten, während eine Echtzeit-Inferenz auf dem Apple M2-Silizium erreicht wird. Unsere Proof-of-Concept-Evaluierung mit einem prototypischen binauralen Headset zeigt, dass wir im Gegensatz zu bestehenden Modellen, die bei Störungen versagen, einen BLEU-Score von bis zu 22,01 erreichen, wenn wir zwischen Sprachen übersetzen, trotz starker Störungen durch andere Sprecher in der Umgebung. Benutzerstudien bestätigen weiterhin die Effektivität des Systems bei der räumlichen Darstellung der übersetzten Sprache in zuvor unbekannten, realen hallenden Umgebungen. Ein Schritt zurück betrachtet, markiert diese Arbeit den ersten Schritt zur Integration der räumlichen Wahrnehmung in die Sprachübersetzung.
Datenaugmentierung ist in der medizinischen Bildgebung entscheidend, um die Klassifikationsgenauigkeit, die Läsionserkennung und die Organsegmentierung unter begrenzten Datenbedingungen zu verbessern. Es bleiben jedoch zwei wesentliche Herausforderungen bestehen. Erstens kann eine deutliche Domänenlücke zwischen natürlichen Fotografien und medizinischen Bildern kritische Krankheitsmerkmale verzerren. Zweitens sind Augmentierungsstudien in der medizinischen Bildgebung fragmentiert und auf einzelne Aufgaben oder Architekturen beschränkt, wodurch die Vorteile fortschrittlicher mix-basierter Strategien unklar bleiben. Um diese Herausforderungen zu bewältigen, schlagen wir ein einheitliches Bewertungsframework mit sechs mix-basierten Augmentierungsmethoden vor, die sowohl mit konvolutionellen als auch mit Transformer-Backbones auf MRT-Datensätzen von Hirntumoren und Fundus-Datensätzen von Augenerkrankungen integriert sind. Unsere Beiträge sind dreifach. (1) Wir führen MediAug ein, einen umfassenden und reproduzierbaren Benchmark für fortschrittliche Datenaugmentierung in der medizinischen Bildgebung. (2) Wir bewerten systematisch MixUp, YOCO, CropMix, CutMix, AugMix und SnapMix mit ResNet-50- und ViT-B-Backbones. (3) Wir zeigen durch umfangreiche Experimente, dass MixUp die größte Verbesserung bei der Klassifikation von Hirntumoren für ResNet-50 mit einer Genauigkeit von 79,19 % erzielt und SnapMix die größte Verbesserung für ViT-B mit einer Genauigkeit von 99,44 % liefert, während YOCO die größte Verbesserung bei der Klassifikation von Augenerkrankungen für ResNet-50 mit einer Genauigkeit von 91,60 % erzielt und CutMix die größte Verbesserung für ViT-B mit einer Genauigkeit von 97,94 % liefert. Der Code wird unter https://github.com/AIGeeksGroup/MediAug verfügbar sein.
Vision-Sensoren gewinnen in Intelligenten Verkehrssystemen (ITS) für die Verkehrsüberwachung, -steuerung und -optimierung zunehmend an Bedeutung, da die Anzahl der Netzwerkkameras weiter steigt. Die manuelle Objektverfolgung und -zuordnung über mehrere nicht überlappende Kameras hinweg stellt jedoch erhebliche Herausforderungen in städtischen Verkehrsszenarien im Stadtmaßstab dar. Zu diesen Herausforderungen gehören die Handhabung verschiedener Fahrzeugattribute, Verdeckungen, Beleuchtungsvariationen, Schatten und unterschiedliche Videoauflösungen. Um diese Probleme zu bewältigen, schlagen wir ein effizientes und kosteneffektives Deep-Learning-basiertes Framework für Multi-Object Multi-Camera Tracking (MO-MCT) vor. Das vorgeschlagene Framework nutzt Mask R-CNN für die Objekterkennung und setzt Non-Maximum Suppression (NMS) ein, um Zielobjekte aus überlappenden Detektionen auszuwählen. Transfer Learning wird für die Re-Identifikation verwendet, wodurch die Zuordnung und Generierung von Fahrzeug-Tracklets über mehrere Kameras hinweg ermöglicht wird. Darüber hinaus nutzen wir geeignete Verlustfunktionen und Distanzmaße, um Herausforderungen wie Verdeckungen, Beleuchtung und Schatten zu bewältigen. Das Modul zur endgültigen Lösungsidentifikation führt eine Merkmalsextraktion mit ResNet-152 in Kombination mit Deep-SORT-basierter Fahrzeugverfolgung durch. Das vorgeschlagene Framework wird auf dem Dataset der 5. AI City Challenge (Track 3) evaluiert, das 46 Kamerastreams umfasst. Von diesen 46 Kamerastreams werden 40 für das Modelltraining und die Validierung verwendet, während die verbleibenden sechs für die Modelltestung genutzt werden. Das vorgeschlagene Framework erzielt eine wettbewerbsfähige Leistung mit einem IDF1-Score von 0,8289 sowie Präzisions- und Recall-Werten von 0,9026 bzw. 0,8527, was seine Effektivität bei der robusten und präzisen Fahrzeugverfolgung unterstreicht.