Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren Seed1.5-VL, ein Vision-Language-Foundation-Modell, das entwickelt wurde, um das allgemeine multimodale Verständnis und die multimodale Argumentation voranzutreiben. Seed1.5-VL besteht aus einem Vision-Encoder mit 532 Millionen Parametern und einem Mixture-of-Experts (MoE)-LLM mit 20 Milliarden aktiven Parametern. Trotz seiner relativ kompakten Architektur liefert es eine starke Leistung über ein breites Spektrum öffentlicher VLM-Benchmarks und interner Evaluationssuiten und erreicht state-of-the-art-Leistungen in 38 von 60 öffentlichen Benchmarks. Darüber hinaus übertrifft Seed1.5-VL in agentenzentrierten Aufgaben wie GUI-Steuerung und Gameplay führende multimodale Systeme, einschließlich OpenAI CUA und Claude 3.7. Neben dem Verständnis von Bildern und Videos zeigt es auch starke Argumentationsfähigkeiten, was es besonders effektiv für multimodale Argumentationsherausforderungen wie visuelle Rätsel macht. Wir glauben, dass diese Fähigkeiten breitere Anwendungen über diverse Aufgaben hinweg ermöglichen werden. In diesem Bericht geben wir hauptsächlich einen umfassenden Überblick über unsere Erfahrungen beim Aufbau von Seed1.5-VL in den Bereichen Modelldesign, Datenkonstruktion und Training in verschiedenen Phasen, in der Hoffnung, dass dieser Bericht weitere Forschungen inspirieren kann. Seed1.5-VL ist jetzt unter https://www.volcengine.com/ (Volcano Engine Model ID: doubao-1-5-thinking-vision-pro-250428) zugänglich.
Wir präsentieren MiMo-7B, ein großes Sprachmodell, das speziell für Reasoning-Aufgaben entwickelt wurde und sowohl in der Vor- als auch in der Nachtrainingsphase optimiert wurde. Während des Vortrainings verbessern wir die Datenvorverarbeitungspipeline und setzen eine dreistufige Datenmischungsstrategie ein, um das Reasoning-Potenzial des Basismodells zu stärken. MiMo-7B-Base wurde auf 25 Billionen Tokens vortrainiert, wobei zusätzlich ein Multi-Token-Prädiktionsziel verwendet wurde, um die Leistung zu steigern und die Inferenzgeschwindigkeit zu beschleunigen. Während des Nachtrainings haben wir einen Datensatz mit 130.000 verifizierbaren Mathematik- und Programmierproblemen für Reinforcement Learning kuratiert, ein testschwierigkeitsgesteuertes Code-Belohnungsschema integriert, um Probleme mit spärlichen Belohnungen zu mildern, und strategische Datenresampling-Methoden eingesetzt, um das Training zu stabilisieren. Umfangreiche Evaluierungen zeigen, dass MiMo-7B-Base ein außergewöhnliches Reasoning-Potenzial besitzt und sogar deutlich größere 32B-Modelle übertrifft. Das final mit Reinforcement Learning optimierte Modell, MiMo-7B-RL, erzielt überragende Leistungen in den Bereichen Mathematik, Code und allgemeinem Reasoning und übertrifft die Leistung von OpenAI o1-mini. Die Modell-Checkpoints sind unter https://github.com/xiaomimimo/MiMo verfügbar.
Während die generative künstliche Intelligenz in den Bereichen Text, Bild, Audio und Video erhebliche Fortschritte gemacht hat, bleibt die 3D-Generierung vergleichsweise unterentwickelt, was auf grundlegende Herausforderungen wie Datenknappheit, algorithmische Einschränkungen und die Fragmentierung des Ökosystems zurückzuführen ist. Vor diesem Hintergrund präsentieren wir Step1X-3D, ein offenes Framework, das diese Herausforderungen durch folgende Maßnahmen adressiert: (1) eine rigorose Datenkuratierungspipeline, die >5M Assets verarbeitet, um einen hochwertigen Datensatz mit 2M Einträgen und standardisierten geometrischen und texturalen Eigenschaften zu erstellen; (2) eine zweistufige, 3D-native Architektur, die einen hybriden VAE-DiT-Geometriegenerator mit einem diffusionsbasierten Textursynthesemodul kombiniert; und (3) die vollständige Open-Source-Freigabe von Modellen, Trainingscode und Anpassungsmodulen. Für die Geometriegenerierung erzeugt die hybride VAE-DiT-Komponente TSDF-Repräsentationen durch die Verwendung von Perceiver-basierter latenter Kodierung mit scharfer Kantenabtastung zur Detailerhaltung. Das diffusionsbasierte Textursynthesemodul gewährleistet dann die konsistente Darstellung über verschiedene Blickwinkel hinweg durch geometrische Konditionierung und Latentraum-Synchronisation. Benchmark-Ergebnisse zeigen eine state-of-the-art Leistung, die bestehende Open-Source-Methoden übertrifft und gleichzeitig eine wettbewerbsfähige Qualität zu proprietären Lösungen erreicht. Bemerkenswert ist, dass das Framework eine einzigartige Brücke zwischen den 2D- und 3D-Generierungsparadigmen schlägt, indem es den direkten Transfer von 2D-Kontrolltechniken (z.B. LoRA) auf die 3D-Synthese unterstützt. Durch die gleichzeitige Verbesserung der Datenqualität, algorithmischen Genauigkeit und Reproduzierbarkeit zielt Step1X-3D darauf ab, neue Standards für die offene Forschung in der kontrollierbaren 3D-Asset-Generierung zu setzen.
Große Reasoning-Modelle (LRMs) besitzen die Fähigkeit, sich selbst zu korrigieren, selbst wenn sie Fehler in ihren Reasoning-Pfaden machen. Unsere Studie zeigt jedoch, dass es für das Modell schwierig wird, sich zu erholen, wenn der Reasoning-Prozess mit einem kurzen, aber schlechten Anfang beginnt. Wir bezeichnen dieses Phänomen als die „Prefix Dominance Trap“. Inspiriert von psychologischen Erkenntnissen, dass Interaktion mit Gleichgesinnten die Selbstkorrektur fördern kann, ohne bereits korrekte Individuen negativ zu beeinflussen, schlagen wir **Learning from Peers** (LeaP) vor, um dieses Phänomen zu adressieren. Konkret fasst jeder Reasoning-Pfad in regelmäßigen Abständen seine Zwischenergebnisse zusammen und teilt sie über einen Routing-Mechanismus mit anderen, wodurch Pfade während des Inferenzprozesses Einblicke von Gleichgesinnten einbeziehen können. Wir beobachten jedoch, dass kleinere Modelle manchmal Schwierigkeiten haben, Zusammenfassungs- und Reflexionsanweisungen effektiv zu befolgen. Um dies zu beheben, feintunen wir sie zu unserer **LeaP-T**-Modellreihe. Experimente auf AIME 2024, AIME 2025, AIMO 2025 und GPQA Diamond zeigen, dass LeaP erhebliche Verbesserungen bringt. Beispielsweise erreicht QwQ-32B mit LeaP im Durchschnitt fast 5 absolute Punkte mehr als die Baseline und übertrifft DeepSeek-R1-671B auf drei Mathematik-Benchmarks mit einem durchschnittlichen Gewinn von 3,3 Punkten. Bemerkenswerterweise erreicht unser feinabgestimmtes LeaP-T-7B die Leistung von DeepSeek-R1-Distill-Qwen-14B auf AIME 2024. Eine detaillierte Analyse zeigt, dass LeaP durch rechtzeitige Einblicke von Gleichgesinnten eine robuste Fehlerkorrektur ermöglicht, was eine starke Fehlertoleranz und die Bewältigung unterschiedlicher Aufgabenanforderungen demonstriert. LeaP markiert einen Meilenstein, indem es LRMs ermöglicht, während des Reasoning-Prozesses zusammenzuarbeiten. Unser Code, Datensätze und Modelle sind unter https://learning-from-peers.github.io/ verfügbar.
Jüngste Fortschritte bei kontinuierlichen generativen Modellen, einschließlich mehrstufiger Ansätze wie Diffusion und Flow-Matching (typischerweise 8-1000 Abtastschritte erfordernd) sowie wenige-stufiger Methoden wie Konsistenzmodelle (typischerweise 1-8 Schritte), haben beeindruckende generative Leistungen gezeigt. Bisherige Arbeiten behandeln diese Ansätze jedoch oft als getrennte Paradigmen, was zu separaten Trainings- und Abtastmethoden führt. Wir stellen ein einheitliches Framework für das Training, die Abtastung und die Analyse dieser Modelle vor. Unsere Implementierung, der Unified Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), erreicht state-of-the-art (SOTA) Leistung. Beispielsweise erreicht UCGM-T auf ImageNet 256x256 mit einem 675M Diffusion Transformer ein mehrstufiges Modell, das einen FID-Wert von 1,30 in 20 Schritten erzielt, und ein wenige-stufiges Modell, das einen FID-Wert von 1,42 in nur 2 Schritten erreicht. Darüber hinaus verbessert die Anwendung von UCGM-S auf ein vortrainiertes Modell (zuvor 1,26 FID bei 250 Schritten) die Leistung auf 1,06 FID in nur 40 Schritten. Der Code ist verfügbar unter: https://github.com/LINs-lab/UCGM.
Instruktionsbasierte Large Language Models (LLMs) haben sich bei zahlreichen Few-Shot- oder Zero-Shot-Natural Language Processing (NLP)-Aufgaben als effektiv erwiesen. Die Erstellung von menschlich annotierten Instruktionsdaten ist jedoch zeitaufwendig, kostspielig und oft in Menge und Aufgabenvielfalt begrenzt. Frühere Forschungsbemühungen haben versucht, diese Herausforderung zu bewältigen, indem sie Frameworks vorgeschlagen haben, die in der Lage sind, Instruktionen auf halbautomatisierte und aufgabenunabhängige Weise direkt aus dem Modell selbst zu generieren. Viele dieser Ansätze stützten sich auf große API-basierte Modelle mit vielen Parametern wie GPT-3.5 (175B), die teuer sind und Beschränkungen bei der Anzahl der Abfragen unterliegen. Diese Arbeit untersucht die Leistung von drei quelloffenen kleinen LLMs wie LLaMA 2-7B, LLaMA 2-13B und Mistral 7B unter Verwendung eines halbautomatisierten Frameworks, wodurch der menschliche Eingriff, der Aufwand und die Kosten, die zur Generierung eines Instruktionsdatensatzes für das Fine-Tuning von LLMs erforderlich sind, reduziert werden. Darüber hinaus zeigen wir, dass die Integration eines Reinforcement Learning (RL)-basierten Trainingsalgorithmus in dieses LLM-basierte Framework zu weiteren Verbesserungen führt. Unsere Auswertung des Datensatzes zeigt, dass diese RL-basierten Frameworks in 63–66 % der Aufgaben erhebliche Verbesserungen im Vergleich zu früheren Ansätzen erzielen.
Jüngste Durchbrüche bei generativen Modellen – insbesondere Diffusionsmodelle und korrigierte Flüsse – haben die Erstellung visueller Inhalte revolutioniert, doch die Ausrichtung der Modellausgaben auf menschliche Präferenzen bleibt eine zentrale Herausforderung. Bestehende, auf Reinforcement Learning (RL) basierende Methoden für die visuelle Generierung stoßen auf kritische Grenzen: Inkompatibilität mit modernen, auf gewöhnlichen Differentialgleichungen (ODEs) basierenden Sampling-Paradigmen, Instabilität beim Training in großem Maßstab und fehlende Validierung für die Videogenerierung. Dieses Paper stellt DanceGRPO vor, den ersten vereinheitlichten Rahmen, der Group Relative Policy Optimization (GRPO) an visuelle Generierungsparadigmen anpasst und damit einen einheitlichen RL-Algorithmus über zwei generative Paradigmen (Diffusionsmodelle und korrigierte Flüsse), drei Aufgaben (Text-zu-Bild, Text-zu-Video, Bild-zu-Video), vier Basismodelle (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V) und fünf Belohnungsmodelle (Bild-/Videoästhetik, Text-Bild-Ausrichtung, Videobewegungsqualität und binäre Belohnung) ermöglicht. Nach unserem Wissen ist DanceGRPO der erste RL-basierte, vereinheitlichte Rahmen, der nahtlose Anpassungen über diverse generative Paradigmen, Aufgaben, Basismodelle und Belohnungsmodelle hinweg ermöglicht. DanceGRPO zeigt konsistente und erhebliche Verbesserungen, die die Baselines auf Benchmarks wie HPS-v2.1, CLIP Score, VideoAlign und GenEval um bis zu 181 % übertreffen. Bemerkenswerterweise kann DanceGRPO nicht nur die Policy-Optimierung für komplexe Videogenerierung stabilisieren, sondern ermöglicht es auch der generativen Policy, Denoising-Trajektorien besser zu erfassen, um Best-of-N-Inferenzskalierung zu ermöglichen, und aus spärlichem binärem Feedback zu lernen. Unsere Ergebnisse etablieren DanceGRPO als robuste und vielseitige Lösung für die Skalierung von Reinforcement Learning from Human Feedback (RLHF) Aufgaben in der visuellen Generierung und bieten neue Einblicke in die Harmonisierung von Reinforcement Learning und visueller Synthese. Der Code wird veröffentlicht.
Wir stellen Skywork-VL Reward vor, ein multimodales Belohnungsmodell, das Belohnungssignale sowohl für multimodale Verständnis- als auch für Reasoning-Aufgaben liefert. Unser technischer Ansatz umfasst zwei Schlüsselkomponenten: Erstens erstellen wir einen groß angelegten multimodalen Präferenzdatensatz, der eine breite Palette von Aufgaben und Szenarien abdeckt, wobei Antworten sowohl von Standard-Vision-Language-Modellen (VLMs) als auch von fortschrittlichen VLM-Reasonern gesammelt werden. Zweitens entwerfen wir eine Belohnungsmodellarchitektur basierend auf Qwen2.5-VL-7B-Instruct, die einen Belohnungskopf integriert und mehrstufiges Fine-Tuning unter Verwendung von paarweisem Ranking-Verlust auf paarweisen Präferenzdaten anwendet. Experimentelle Auswertungen zeigen, dass Skywork-VL Reward state-of-the-art Ergebnisse auf dem multimodalen VL-RewardBench erzielt und wettbewerbsfähige Leistungen auf dem textbasierten RewardBench-Benchmark zeigt. Darüber hinaus erweisen sich Präferenzdaten, die auf Basis unseres Skywork-VL Reward erstellt wurden, als äußerst effektiv für das Training von Mixed Preference Optimization (MPO), was zu signifikanten Verbesserungen in den multimodalen Reasoning-Fähigkeiten führt. Unsere Ergebnisse unterstreichen Skywork-VL Reward als einen bedeutenden Fortschritt hin zu allgemeinen, zuverlässigen Belohnungsmodellen für multimodale Ausrichtung. Unser Modell wurde öffentlich freigegeben, um Transparenz und Reproduzierbarkeit zu fördern.
In letzter Zeit hat das Interesse an der Sammlung von vortrainierten Daten, die eine hohe Anforderung an das logische Denken stellen, zugenommen, um die komplexen Denkfähigkeiten von LLMs (Large Language Models) zu verbessern. Bisherige Ansätze stützen sich typischerweise auf überwachte Klassifikatoren, um solche Daten zu identifizieren, was eine Kennzeichnung durch Menschen oder LLMs erfordert und oft domänenspezifische Verzerrungen einführt. Da die Aufmerksamkeitsköpfe (Attention Heads) für das kontextbezogene Denken entscheidend sind, schlagen wir AttentionInfluence vor, eine einfache, aber effektive, trainingsfreie Methode ohne Überwachungssignal. Unser Ansatz ermöglicht es einem kleinen vortrainierten Sprachmodell, durch eine einfache Maskierung der Aufmerksamkeitsköpfe als starker Datenauswähler zu fungieren. Konkret identifizieren wir Retrieval-Köpfe und berechnen den Verlustunterschied, wenn diese Köpfe maskiert werden. Wir wenden AttentionInfluence auf ein dichtes Modell mit 1,3 Milliarden Parametern an, um eine Datenauswahl im SmolLM-Korpus mit 241 Milliarden Tokens durchzuführen, und mischen das SmolLM-Korpus mit der ausgewählten Teilmenge von 73 Milliarden Tokens, um ein dichtes Modell mit 7 Milliarden Parametern unter Verwendung von 1 Billion Trainings-Tokens und WSD-Lernratenplanung vortrainieren. Unsere experimentellen Ergebnisse zeigen erhebliche Verbesserungen im Bereich von 1,4 bis 3,5 Prozentpunkten über mehrere wissensintensive und denkintensive Benchmarks hinweg (d. h. MMLU, MMLU-Pro, AGIEval-en, GSM8K und HumanEval). Dies demonstriert eine effektive schwache-zu-starke Skalierungseigenschaft, bei der kleine Modelle die Endleistung größerer Modelle verbessern – ein vielversprechender und skalierbarer Weg für die datenzentrierte Auswahl im Hinblick auf das logische Denken.
Continual Pre-Training (CPT) hat sich zu einer beliebten und effektiven Methode entwickelt, um leistungsstarke Basismodelle auf spezifische Downstream-Aufgaben anzuwenden. In dieser Arbeit untersuchen wir die Lern-Dynamik während des CPT-Prozesses für große Sprachmodelle. Wir konzentrieren uns insbesondere darauf, wie sich die allgemeine und die domänenspezifische Leistung in jedem Trainingsschritt entwickeln, wobei die Domänenleistung über Validierungsverluste gemessen wird. Wir haben beobachtet, dass die CPT-Verlustkurve grundsätzlich den Übergang von einer Kurve zu einer anderen verborgenen Kurve charakterisiert und durch die Entkopplung der Effekte von Verschiebungen in der Verteilung und der Lernraten-Anpassung beschrieben werden kann. Wir leiten ein CPT-Skalierungsgesetz ab, das diese beiden Faktoren kombiniert und es ermöglicht, den Verlust zu jedem (kontinuierlichen) Trainingsschritt und über verschiedene Lernratenpläne (LRS) in CPT vorherzusagen. Unsere Formulierung bietet ein umfassendes Verständnis mehrerer kritischer Faktoren in CPT, einschließlich Verlustpotenzial, Spitzenlernrate, Trainingsschritte, Replay-Verhältnis usw. Darüber hinaus kann unser Ansatz angepasst werden, um Trainings-Hyperparameter an verschiedene CPT-Ziele wie die Balance zwischen allgemeiner und domänenspezifischer Leistung anzupassen. Umfangreiche Experimente zeigen, dass unser Skalierungsgesetz über verschiedene CPT-Datensätze und Trainings-Hyperparameter hinweg gültig ist.
LLM-basierte Agenten haben großes Potenzial bei der Generierung und Verwaltung von Code in komplexen Codebasen gezeigt. In diesem Artikel stellen wir WebGen-Bench vor, einen neuartigen Benchmark, der entwickelt wurde, um die Fähigkeit eines LLM-basierten Agenten zu messen, mehrdateige Website-Codebasen von Grund auf zu erstellen. Er enthält diverse Anweisungen zur Website-Generierung, die durch die gemeinsamen Bemühungen von menschlichen Annotatoren und GPT-4o erstellt wurden. Diese Anweisungen umfassen drei Hauptkategorien und dreizehn Unterkategorien, die nahezu alle wichtigen Arten von Webanwendungen abdecken. Um die Qualität der generierten Websites zu bewerten, verwenden wir GPT-4o, um Testfälle zu generieren, die jede in den Anweisungen beschriebene Funktionalität abdecken, und filtern, passen und organisieren diese manuell, um Genauigkeit zu gewährleisten, was zu 647 Testfällen führt. Jeder Testfall spezifiziert eine Operation, die auf der Website durchgeführt werden soll, und das erwartete Ergebnis nach der Operation. Um das Testen zu automatisieren und die Reproduzierbarkeit zu verbessern, setzen wir einen leistungsstarken Web-Navigations-Agenten ein, um Tests auf den generierten Websites durchzuführen und festzustellen, ob die beobachteten Antworten mit den erwarteten Ergebnissen übereinstimmen. Wir evaluieren drei hochleistungsfähige Code-Agenten-Frameworks, Bolt.diy, OpenHands und Aider, unter Verwendung mehrerer proprietärer und Open-Source-LLMs als Engines. Die beste Kombination, Bolt.diy angetrieben von DeepSeek-R1, erreicht nur 27,8 % Genauigkeit bei den Testfällen, was die anspruchsvolle Natur unseres Benchmarks unterstreicht. Zusätzlich erstellen wir WebGen-Instruct, einen Trainingsdatensatz, der aus 6.667 Website-Generierungsanweisungen besteht. Das Training von Qwen2.5-Coder-32B-Instruct auf Bolt.diy-Trajektorien, die aus einer Teilmenge dieses Trainingsdatensatzes generiert wurden, erreicht eine Genauigkeit von 38,2 % und übertrifft damit die Leistung des besten proprietären Modells.
Die gängige Meinung besagt, dass autoregressive Modelle zur Verarbeitung diskreter Daten verwendet werden. Bei der Anwendung auf kontinuierliche Modalitäten wie visuelle Daten greift das Visual AutoRegressive Modeling (VAR) typischerweise auf quantisierungsbasierte Ansätze zurück, um die Daten in einen diskreten Raum zu überführen, was zu erheblichen Informationsverlusten führen kann. Um dieses Problem zu lösen, führen wir ein Continuous VAR-Framework ein, das eine direkte visuelle autoregressive Generierung ohne Vektorquantisierung ermöglicht. Die zugrunde liegende theoretische Grundlage bilden streng korrekte Bewertungsregeln (strictly proper scoring rules), die leistungsstarke statistische Werkzeuge bereitstellen, um zu bewerten, wie gut ein generatives Modell die wahre Verteilung annähert. Innerhalb dieses Frameworks müssen wir lediglich eine streng korrekte Bewertungsregel auswählen und sie als Trainingsziel festlegen, das optimiert werden soll. Wir untersuchen hauptsächlich eine Klasse von Trainingszielen, die auf dem Energie-Score basieren, der likelihood-frei ist und somit die Schwierigkeit überwindet, probabilistische Vorhersagen im kontinuierlichen Raum zu treffen. Frühere Ansätze zur kontinuierlichen autoregressiven Generierung, wie GIVT und Diffusionsverlust, können ebenfalls aus unserem Framework abgeleitet werden, indem andere streng korrekte Bewertungsregeln verwendet werden. Quellcode: https://github.com/shaochenze/EAR.
Wir stellen INTELLECT-2 vor, den ersten global verteilten Reinforcement-Learning (RL)-Trainingslauf eines Sprachmodells mit 32 Milliarden Parametern. Im Gegensatz zu traditionellen zentralisierten Trainingsansätzen trainiert INTELLECT-2 ein Modell für logisches Denken mithilfe von vollständig asynchronem RL über einen dynamischen, heterogenen Schwarm von berechtigungsfreien Rechenbeitragenden. Um einen Trainingslauf mit dieser einzigartigen Infrastruktur zu ermöglichen, haben wir verschiedene Komponenten von Grund auf neu entwickelt: Wir präsentieren PRIME-RL, unser speziell für verteiltes asynchrones Reinforcement Learning entwickeltes Trainingsframework, das auf neuartigen Komponenten wie TOPLOC basiert, das Rollouts von nicht vertrauenswürdigen Inferenzarbeitern verifiziert, und SHARDCAST, das effizient Policy-Gewichte von Trainingsknoten an Inferenzarbeiter überträgt. Neben Infrastrukturkomponenten schlagen wir Anpassungen an der standardmäßigen GRPO-Trainingsmethode und Datenfiltertechniken vor, die entscheidend waren, um Trainingsstabilität zu erreichen und sicherzustellen, dass unser Modell sein Trainingsziel erfolgreich erlernte, wodurch es QwQ-32B, das bisher führende Modell für logisches Denken im Bereich von 32 Milliarden Parametern, übertraf. Wir veröffentlichen INTELLECT-2 zusammen mit unserem gesamten Code und unseren Daten als Open Source, in der Hoffnung, offene Forschung im Bereich des dezentralen Trainings zu fördern und zu ermöglichen.
Retusche ist eine wesentliche Aufgabe bei der Nachbearbeitung von Rohfotos. Generatives Editieren, das durch Text oder Striche gesteuert wird, bietet ein neues Werkzeug, das Benutzern zugänglich ist, kann jedoch die Identität der ursprünglichen Objekte auf unakzeptable und unvorhersehbare Weise verändern. Im Gegensatz dazu sind traditionelle prozedurale Bearbeitungen, wie sie häufig von Fotobearbeitungstools (z.B. Gimp, Lightroom) unterstützt werden, zwar konservativ, werden aber dennoch von Profis bevorzugt. Leider umfasst eine professionelle Retusche viele einzelne prozedurale Bearbeitungsschritte, die für die meisten Anfänger schwer zu planen sind. In diesem Artikel fragen wir, ob ein multimodales großes Sprachmodell (MLLM) dazu gebracht werden kann, Rohfotos zu bewerten, geeignete Korrekturen vorzuschlagen und diese schließlich mit einer gegebenen Menge vordefinierter prozeduraler Bildoperationen umzusetzen. Wir zeigen, dass MLLMs zunächst über die zugrunde liegenden Bildverarbeitungsoperationen informiert werden können, indem sie darauf trainiert werden, speziell gestaltete visuelle Rätsel zu lösen. Anschließend kann ein solches operationsbewusstes MLLM sowohl Bearbeitungssequenzen planen als auch vorschlagen. Um das Training zu erleichtern, synthetisieren wir aus einer Menge von von Experten bearbeiteten Fotos einen Reasoning-Datensatz, indem wir die Expertenbearbeitungen prozedural manipulieren und dann ein vortrainiertes LLM auf die visuellen Anpassungen abstimmen, um Reasoning für das Feintuning zu synthetisieren. Die vorgeschlagenen Retuscheoperationen sind konstruktionsbedingt für die Benutzer verständlich, bewahren Objektdetails und Auflösung und können optional überschrieben werden. Wir bewerten unser Setup anhand einer Vielzahl von Testbeispielen und zeigen Vorteile in Bezug auf Erklärbarkeit und Identitätserhaltung gegenüber bestehenden generativen und anderen prozeduralen Alternativen. Code, Daten, Modelle und ergänzende Ergebnisse finden Sie auf unserer Projektwebsite unter https://monetgpt.github.io.
Retrieval-augmented Generation (RAG) ist eine gängige Strategie, um Halluzinationen in Large Language Models (LLMs) zu reduzieren. Während Reinforcement Learning (RL) LLMs dazu befähigen kann, als Suchagenten zu agieren, indem sie Abruffähigkeiten aktivieren, nutzen bestehende Modelle oft ihr internes Wissen unzureichend. Dies kann zu redundanten Abrufen, potenziell schädlichen Wissenskonflikten und erhöhter Inferenzlatenz führen. Um diese Einschränkungen zu überwinden, besteht ein dringender Bedarf an einem effizienten und adaptiven Suchagenten, der in der Lage ist, den optimalen Zeitpunkt für den Abruf zu bestimmen und parametrisches (internes) sowie abgerufenes (externes) Wissen synergetisch zu integrieren. In diesem Artikel wird der Reinforced Internal-External Knowledge Synergistic Reasoning Agent (IKEA) vorgestellt, der seine eigene Wissensgrenze identifizieren und die Nutzung von internem Wissen priorisieren kann, wobei er nur dann auf externe Suche zurückgreift, wenn internes Wissen als unzureichend erachtet wird. Dies wird durch eine neuartige wissensgrenzenbewusste Belohnungsfunktion und einen wissensgrenzenbewussten Trainingsdatensatz erreicht. Diese sind für RL mit Fokus auf die Synergie von internem und externem Wissen konzipiert und sollen das Modell dazu anregen, präzise Antworten zu liefern, unnötige Abrufe zu minimieren und angemessene externe Suchen zu fördern, wenn das eigene Wissen nicht ausreicht. Evaluierungen über mehrere Wissensschlussfolgerungsaufgaben zeigen, dass IKEA Baseline-Methoden deutlich übertrifft, die Abruffrequenz erheblich reduziert und robuste Generalisierungsfähigkeiten aufweist.
In diesem Positionspapier stellen wir fest, dass die empirische Evaluierung im Bereich der Generativen KI an einem kritischen Punkt angelangt ist, da traditionelle Evaluierungs- und Benchmarking-Strategien des maschinellen Lernens nicht ausreichen, um den Anforderungen der Bewertung moderner GenAI-Modelle und -Systeme gerecht zu werden. Dafür gibt es viele Gründe, darunter die Tatsache, dass diese Modelle typischerweise nahezu unbegrenzte Eingabe- und Ausgaberäume haben, oft kein klar definiertes Ground-Truth-Ziel besitzen und starke Rückkopplungsschleifen sowie Vorhersageabhängigkeiten basierend auf dem Kontext früherer Modellausgaben aufweisen. Neben diesen kritischen Problemen argumentieren wir, dass die Herausforderungen von {\em Leakage} und {\em Kontamination} tatsächlich die wichtigsten und schwierigsten Probleme für GenAI-Evaluierungen darstellen. Interessanterweise hat das Feld der KI-Wettbewerbe wirksame Maßnahmen und Praktiken entwickelt, um Leakage zu bekämpfen, mit dem Ziel, Betrug durch schlechte Akteure in einem Wettbewerbsumfeld zu verhindern. Dies macht KI-Wettbewerbe zu einer besonders wertvollen (aber unterausgeschöpften) Ressource. Es ist an der Zeit, dass das Feld KI-Wettbewerbe als den Goldstandard für empirische Strenge in der GenAI-Evaluierung betrachtet und ihre Ergebnisse entsprechend wertschätzt und nutzt.
Sparse Mixture of Experts (MoE)-Architekturen haben sich als vielversprechender Ansatz zur Skalierung von Transformer-Modellen erwiesen. Während frühe Arbeiten MoE hauptsächlich in Feed-Forward-Netzwerk (FFN)-Schichten integrierten, haben neuere Studien die Erweiterung des MoE-Paradigmas auf Attention-Schichten untersucht, um die Modellleistung zu verbessern. Allerdings erfordern bestehende Attention-basierte MoE-Schichten spezialisierte Implementierungen und zeigen im Vergleich zu ihren FFN-basierten Gegenstücken eine suboptimale Leistung. In diesem Artikel streben wir an, die MoE-Designs in Attention- und FFN-Schichten zu vereinheitlichen, indem wir eine neuartige Neuformulierung des Attention-Mechanismus einführen, die eine zugrunde liegende FFN-ähnliche Struktur innerhalb von Attention-Modulen offenlegt. Unsere vorgeschlagene Architektur, UMoE, erreicht eine überlegene Leistung durch Attention-basierte MoE-Schichten und ermöglicht gleichzeitig eine effiziente Parameterfreigabe zwischen FFN- und Attention-Komponenten.
Retrieval-augmented Generation (RAG)-Systeme kombinieren große Sprachmodelle (LLMs) mit externer Wissensabfrage, wodurch sie besonders effektiv für wissensintensive Aufgaben sind. Eine entscheidende, aber oft wenig erforschte Komponente dieser Systeme ist der Reranker, der abgerufene Dokumente verfeinert, um die Generierungsqualität und Erklärbarkeit zu verbessern. Die Herausforderung, die optimale Anzahl von Dokumenten (k) auszuwählen, bleibt ungelöst: Zu wenige könnten kritische Informationen auslassen, während zu viele Rauschen und Ineffizienzen einführen. Obwohl neuere Studien LLM-basierte Reranker untersucht haben, nutzen diese hauptsächlich internes Modellwissen und übersehen die reichhaltigen Überwachungssignale, die LLMs liefern können, wie z. B. die Nutzung der Antwortqualität als Feedback zur Optimierung von Reranking-Entscheidungen. In diesem Artikel schlagen wir DynamicRAG vor, ein neuartiges RAG-Framework, bei dem der Reranker sowohl die Reihenfolge als auch die Anzahl der abgerufenen Dokumente dynamisch an die Anfrage anpasst. Wir modellieren den Reranker als Agenten, der durch Reinforcement Learning (RL) optimiert wird, wobei Belohnungen auf der Grundlage der LLM-Ausgabequalität abgeleitet werden. Über sieben wissensintensive Datensätze hinweg zeigt DynamicRAG eine überlegene Leistung und erzielt state-of-the-art Ergebnisse. Das Modell, die Daten und der Code sind unter https://github.com/GasolSun36/DynamicRAG verfügbar.
Wir stellen LlamaPIE vor, den ersten Echtzeit-Proaktivassistenten, der entwickelt wurde, um menschliche Gespräche durch diskrete, prägnante Anleitungen zu verbessern, die über hörbare Geräte bereitgestellt werden. Im Gegensatz zu traditionellen Sprachmodellen, die eine explizite Benutzeraufforderung erfordern, arbeitet dieser Assistent im Hintergrund, antizipiert Benutzerbedürfnisse, ohne Gespräche zu unterbrechen. Wir adressieren mehrere Herausforderungen, darunter die Bestimmung des richtigen Zeitpunkts für eine Antwort, die Erstellung prägnanter Antworten, die Gespräche bereichern, die Nutzung von Benutzerwissen für kontextbewusste Unterstützung und die Echtzeitverarbeitung auf dem Gerät. Um dies zu erreichen, erstellen wir einen halbsynthetischen Dialogdatensatz und schlagen eine Zwei-Modell-Pipeline vor: ein kleines Modell, das entscheidet, wann geantwortet werden soll, und ein größeres Modell, das die Antwort generiert. Wir bewerten unseren Ansatz anhand realer Datensätze und demonstrieren seine Wirksamkeit bei der Bereitstellung hilfreicher, unaufdringlicher Unterstützung. Benutzerstudien mit unserem Assistenten, der auf Apple Silicon M2-Hardware implementiert ist, zeigen eine starke Präferenz für den proaktiven Assistenten im Vergleich zu einer Basislinie ohne Unterstützung und einem reaktiven Modell, was das Potenzial von LlamaPIE zur Verbesserung von Live-Gesprächen unterstreicht.
Das Lernen von Visuomotorik-Policies hat erhebliche Fortschritte in der robotischen Manipulation erlebt, wobei neuere Ansätze überwiegend auf generative Modelle zurückgreifen, um die Aktionsverteilung zu modellieren. Diese Methoden übersehen jedoch oft die entscheidende Kopplung zwischen visueller Wahrnehmung und Aktionsvorhersage. In dieser Arbeit stellen wir die Triply-Hierarchical Diffusion Policy (H^{\mathbf{3}DP}) vor, ein neuartiges Framework für das Visuomotorik-Lernen, das explizit hierarchische Strukturen einbezieht, um die Integration zwischen visuellen Merkmalen und Aktionsgenerierung zu stärken. H^{3}DP umfasst drei Hierarchieebenen: (1) eine tiefenbewusste Eingabeschichtung, die RGB-D-Beobachtungen basierend auf Tiefeninformationen organisiert; (2) mehrstufige visuelle Repräsentationen, die semantische Merkmale auf verschiedenen Granularitätsebenen kodieren; und (3) einen hierarchisch bedingten Diffusionsprozess, der die Erzeugung von grob- bis feinabgestimmten Aktionen mit entsprechenden visuellen Merkmalen in Einklang bringt. Umfangreiche Experimente zeigen, dass H^{3}DP eine durchschnittliche relative Verbesserung von +27,5 % gegenüber den Baselines über 44 Simulationstasks erzielt und eine überlegene Leistung in 4 anspruchsvollen bimanuellen Manipulationsaufgaben in der realen Welt erreicht. Projektseite: https://lyy-iiis.github.io/h3dp/.
Ein aktueller Trend bei großen Sprachmodellen (LLMs) ist die Entwicklung von rekurrenten sub-quadratischen Modellen, die die Effizienz bei der Verarbeitung langer Kontexte verbessern. Wir untersuchen führende große Modelle für lange Kontexte, wobei wir uns darauf konzentrieren, wie ihr festgelegter rekurrenter Speicher ihre Leistung beeinflusst. Unsere Experimente zeigen, dass selbst wenn diese Modelle für erweiterte Kontexte trainiert werden, ihre Nutzung langer Kontexte unterausgeschöpft bleibt. Insbesondere demonstrieren wir, dass ein chunk-basiertes Inferenzverfahren, das nur den relevantesten Teil der Eingabe identifiziert und verarbeitet, rekurrente Speicherfehler mildern und für viele Aufgaben mit langen Kontexten effektiv sein kann: Auf LongBench verbessert unsere Methode die Gesamtleistung von Falcon3-Mamba-Inst-7B um 14%, Falcon-Mamba-Inst-7B um 28%, RecurrentGemma-IT-9B um 50% und RWKV6-Finch-7B um 51%. Überraschenderweise führt dieser einfache Ansatz auch zu state-of-the-art Ergebnissen im anspruchsvollen LongBench v2 Benchmark und zeigt eine wettbewerbsfähige Leistung im Vergleich zu Transformern gleicher Größe. Darüber hinaus werfen unsere Ergebnisse Fragen auf, ob rekurrente Modelle tatsächlich langreichweitige Abhängigkeiten nutzen, da unsere Single-Chunk-Strategie eine stärkere Leistung liefert – selbst bei Aufgaben, die vermeintlich kontextübergreifende Beziehungen erfordern.
Da große Sprachmodelle (LLMs) zunehmend für dokumentbasierte Aufgaben eingesetzt werden – wie Dokumentenzusammenfassung, Fragebeantwortung und Informationsextraktion –, bei denen sich die Benutzeranforderungen darauf konzentrieren, Informationen aus bereitgestellten Dokumenten abzurufen, anstatt sich auf das parametrische Wissen des Modells zu verlassen, ist die Sicherstellung der Vertrauenswürdigkeit und Interpretierbarkeit dieser Systeme zu einem zentralen Anliegen geworden. Ein zentraler Ansatz zur Bewältigung dieser Herausforderung ist die Attribution, bei der die generierten Ausgaben auf ihre Quelldokumente zurückverfolgt werden. Da LLMs jedoch ungenaue oder unpräzise Antworten liefern können, ist es entscheidend, die Zuverlässigkeit dieser Zitate zu bewerten. Um dies zu bewältigen, schlägt unsere Arbeit zwei Techniken vor. (1) Ein Zero-Shot-Ansatz, der Attribution als eine einfache Aufgabe der textuellen Implikation betrachtet. Unsere Methode mit flan-ul2 zeigt eine Verbesserung von 0,27 % und 2,4 % gegenüber der besten Baseline der ID- und OOD-Datensätze von AttributionBench. (2) Wir untersuchen auch die Rolle des Aufmerksamkeitsmechanismus bei der Verbesserung des Attributionsprozesses. Mit einem kleineren LLM, flan-t5-small, übertreffen die F1-Werte die Baseline in fast allen Schichten, mit Ausnahme von Schicht 4 und den Schichten 8 bis 11.
Obwohl Deep-Learning-Modelle ein bemerkenswertes Potenzial in der Wettervorhersage gezeigt haben, übersehen die meisten von ihnen entweder die Physik der zugrunde liegenden Wetterentwicklung oder die Topologie der Erdoberfläche. Angesichts dieser Nachteile entwickeln wir PASSAT, ein neuartiges Physics-ASSisted And Topology-informed Deep-Learning-Modell für die Wettervorhersage. PASSAT führt die Wetterentwicklung auf zwei Schlüsselfaktoren zurück: (i) den Advektionsprozess, der durch die Advektionsgleichung und die Navier-Stokes-Gleichung charakterisiert werden kann; (ii) die Wechselwirkung zwischen Erde und Atmosphäre, die sowohl schwer zu modellieren als auch zu berechnen ist. PASSAT berücksichtigt auch die Topologie der Erdoberfläche, anstatt sie einfach als Ebene zu behandeln. Mit diesen Überlegungen löst PASSAT numerisch die Advektionsgleichung und die Navier-Stokes-Gleichung auf der sphärischen Mannigfaltigkeit, nutzt ein sphärisches Graph-Neuronales Netzwerk, um die Wechselwirkung zwischen Erde und Atmosphäre zu erfassen, und generiert die Anfangsgeschwindigkeitsfelder, die für die Lösung der Advektionsgleichung entscheidend sind, aus demselben sphärischen Graph-Neuronalen Netzwerk. Im 5,625°-Auflösungs-ERA5-Datensatz übertrifft PASSAT sowohl die modernsten Deep-Learning-basierten Wettervorhersagemodelle als auch das operationelle numerische Wettervorhersagemodell IFS T42. Code und Checkpoint sind verfügbar unter https://github.com/Yumenomae/PASSAT_5p625.
Die Gestaltung biologischer Sequenzen, die mehrere, oft widersprüchliche funktionelle und biophysikalische Kriterien erfüllen, bleibt eine zentrale Herausforderung im Bereich des Biomoleküldesigns. Während diskrete Flow-Matching-Modelle kürzlich vielversprechende Ansätze für effizientes Sampling in hochdimensionalen Sequenzräumen gezeigt haben, adressieren bestehende Methoden nur einzelne Ziele oder erfordern kontinuierliche Einbettungen, die diskrete Verteilungen verzerren können. Wir stellen Multi-Objective-Guided Discrete Flow Matching (MOG-DFM) vor, ein allgemeines Framework, um jeden vortrainierten diskreten Flow-Matching-Generator in Richtung Pareto-effizienter Kompromisse über mehrere skalare Ziele zu steuern. Bei jedem Sampling-Schritt berechnet MOG-DFM einen hybriden Rang-Richtungs-Score für Kandidatenübergänge und wendet einen adaptiven Hyperkegel-Filter an, um konsistenten Fortschritt bei mehreren Zielen zu gewährleisten. Wir haben außerdem zwei unkonditionierte diskrete Flow-Matching-Modelle trainiert, PepDFM für die Erzeugung diverser Peptide und EnhancerDFM für die Generierung funktioneller Enhancer-DNA, als Basismodelle für MOG-DFM. Wir demonstrieren die Wirksamkeit von MOG-DFM bei der Erzeugung von Peptidbindern, die über fünf Eigenschaften optimiert sind (Hämolyse, Anti-Fouling, Löslichkeit, Halbwertszeit und Bindungsaffinität), sowie beim Design von DNA-Sequenzen mit spezifischen Enhancer-Klassen und DNA-Formen. Insgesamt erweist sich MOG-DFM als ein leistungsstarkes Werkzeug für das multi-eigenschaftsgesteuerte Design von Biomolekülsequenzen.