Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) generieren oft Antworten mit inhärenten Verzerrungen, was ihre Zuverlässigkeit in realen Anwendungen untergräbt. Bestehende Evaluierungsmethoden übersehen häufig Verzerrungen in langen Antworten und die intrinsische Variabilität der LLM-Ausgaben. Um diese Herausforderungen zu bewältigen, schlagen wir FiSCo (Fine-grained Semantic Computation) vor, ein neuartiges statistisches Framework zur Bewertung der Fairness auf Gruppenebene in LLMs, indem es subtile semantische Unterschiede in langen Antworten über demografische Gruppen hinweg erkennt. Im Gegensatz zu früheren Arbeiten, die sich auf Sentiment oder Token-Vergleiche konzentrieren, geht FiSCo über oberflächliche Analysen hinaus, indem es auf der Behauptungsebene operiert und Entailment-Prüfungen nutzt, um die Konsistenz der Bedeutung über Antworten hinweg zu bewerten. Wir zerlegen Modellausgaben in semantisch unterschiedliche Behauptungen und wenden statistische Hypothesentests an, um inter- und intra-gruppale Ähnlichkeiten zu vergleichen, was eine robuste Erkennung subtiler Verzerrungen ermöglicht. Wir formalisieren eine neue Definition der gruppenbezogenen kontrafaktischen Fairness und validieren FiSCo anhand von sowohl synthetischen als auch von Menschen annotierten Datensätzen, die Geschlecht, Rasse und Alter abdecken. Experimente zeigen, dass FiSCo nuancenreiche Verzerrungen zuverlässiger identifiziert, während es den Einfluss der stochastischen Variabilität von LLMs reduziert und verschiedene Evaluierungsmetriken übertrifft.
Wir präsentieren AnimaX, ein vorwärtsgerichtetes 3D-Animationsframework, das die Bewegungspräferenzen von Video-Diffusionsmodellen mit der kontrollierbaren Struktur von skelettbasierter Animation verbindet. Traditionelle Methoden zur Bewegungssynthese sind entweder auf feste Skeletttopologien beschränkt oder erfordern kostspielige Optimierungen in hochdimensionalen Verformungsräumen. Im Gegensatz dazu überträgt AnimaX effektiv videobasiertes Bewegungswissen in den 3D-Bereich und unterstützt diverse artikulierte Meshes mit beliebigen Skeletten. Unsere Methode repräsentiert 3D-Bewegungen als Multi-View-, Multi-Frame-2D-Pose-Maps und ermöglicht eine gemeinsame Video-Pose-Diffusion, die auf Template-Renderings und einem textuellen Bewegungs-Prompt basiert. Wir führen gemeinsame Positionskodierungen und modalitätsbewusste Einbettungen ein, um die räumlich-zeitliche Ausrichtung zwischen Video- und Pose-Sequenzen sicherzustellen und so Video-Prioritäten effektiv auf die Bewegungsgenerationsaufgabe zu übertragen. Die resultierenden Multi-View-Pose-Sequenzen werden in 3D-Gelenkpositionen trianguliert und über inverse Kinematik in Mesh-Animationen umgewandelt. AnimaX, das auf einem neu kuratierten Datensatz von 160.000 rigged Sequenzen trainiert wurde, erzielt state-of-the-art Ergebnisse auf VBench in Bezug auf Generalisierung, Bewegungsfidelität und Effizienz und bietet eine skalierbare Lösung für kategorieagnostische 3D-Animation. Projektseite: https://anima-x.github.io/{https://anima-x.github.io/}.
Wir stellen Matrix-Game vor, ein interaktives Weltgrundlagenmodell zur kontrollierbaren Generierung von Spielwelten. Matrix-Game wird in einem zweistufigen Pipeline-Verfahren trainiert, das zunächst ein groß angelegtes, unüberwachtes Vortraining zur Umgebungsverständigung durchführt, gefolgt von einem aktionsbeschrifteten Training zur interaktiven Videogenerierung. Um dies zu unterstützen, haben wir Matrix-Game-MC kuratiert, einen umfassenden Minecraft-Datensatz, der über 2.700 Stunden unmarkierte Gameplay-Videoclips und mehr als 1.000 Stunden hochwertige, mit feingranularen Tastatur- und Mausaktionen annotierte Clips umfasst. Unser Modell folgt einem kontrollierbaren Bild-zu-Welt-Generierungsparadigma, das auf einem Referenzbild, einem Bewegungskontext und Benutzeraktionen basiert. Mit über 17 Milliarden Parametern ermöglicht Matrix-Game eine präzise Steuerung von Charakteraktionen und Kamerabewegungen bei gleichbleibend hoher visueller Qualität und zeitlicher Kohärenz. Zur Leistungsbewertung entwickeln wir GameWorld Score, einen einheitlichen Benchmark, der visuelle Qualität, zeitliche Qualität, Aktionskontrollierbarkeit und das Verständnis physikalischer Regeln für die Minecraft-Weltgenerierung misst. Umfangreiche Experimente zeigen, dass Matrix-Game durchweg alle bisherigen Open-Source-Minecraft-Weltmodelle (einschließlich Oasis und MineWorld) in allen Metriken übertrifft, mit besonders deutlichen Verbesserungen in der Kontrollierbarkeit und physikalischen Konsistenz. Doppelblind durchgeführte menschliche Bewertungen bestätigen weiterhin die Überlegenheit von Matrix-Game und unterstreichen seine Fähigkeit, wahrnehmungsrealistische und präzise steuerbare Videos in diversen Spielszenarien zu generieren. Um zukünftige Forschungen zur interaktiven Bild-zu-Welt-Generierung zu erleichtern, werden wir die Matrix-Game-Modellgewichte und den GameWorld Score-Benchmark unter https://github.com/SkyworkAI/Matrix-Game open-source zur Verfügung stellen.
Aktuelle Ansätze im Bereich des bestärkenden Lernens, wie das ergebnisüberwachte GRPO, haben das Chain-of-Thought-Reasoning in großen Sprachmodellen (LLMs) vorangetrieben, doch ihre Anpassung an multimodale LLMs (MLLMs) ist bisher unerforscht. Um den Mangel an rigoroser Bewertung von Nachschulungsmethoden für MLLMs zu beheben, führen wir SEED-Bench-R1 ein, einen Benchmark mit komplexen realen Videos, die ein ausgewogenes Verständnis von Wahrnehmung und Schlussfolgerung erfordern. Er bietet einen umfangreichen Trainingsdatensatz und bewertet die Generalisierungsfähigkeit über drei zunehmend anspruchsvolle Herausforderungen: In-Distribution, Cross-Environment und Cross-Environment-Task-Szenarien. Mit SEED-Bench-R1 stellen wir fest, dass das Standard-GRPO zwar die Antwortgenauigkeit verbessert, jedoch häufig die logische Kohärenz zwischen den Denkschritten und den Antworten verringert, mit einer Konsistenzrate von nur 57,9 %. Dies resultiert aus Belohnungssignalen, die sich ausschließlich auf die Endantworten konzentrieren, was Abkürzungen fördert, sowie aus strengen KL-Strafen, die die Exploration einschränken. Um dies zu beheben, schlagen wir GRPO-CARE vor, ein konsistenzbewusstes RL-Framework, das sowohl die Antwortkorrektheit als auch die Schlussfolgerungskohärenz ohne explizite Überwachung optimiert. GRPO-CARE führt eine zweistufige Belohnung ein: (1) eine Grundbelohnung für die Antwortkorrektheit und (2) einen adaptiven Konsistenzbonus, der durch den Vergleich der Wahrscheinlichkeit der Schlussfolgerung zur Antwort des Modells (über ein langsam evolvierendes Referenzmodell) mit den Gruppenkollegen berechnet wird. Dieser duale Mechanismus verstärkt die Belohnungen für Denkpfade, die sowohl korrekt als auch logisch konsistent sind. Indem KL-Strafen durch diesen adaptiven Bonus ersetzt werden, übertrifft GRPO-CARE das Standard-GRPO auf SEED-Bench-R1 und erzielt eine Leistungssteigerung von 6,7 % auf der schwierigsten Bewertungsstufe und eine Verbesserung der Konsistenz um 24,5 %. Es zeigt auch eine starke Übertragbarkeit und verbessert die Modellleistung über verschiedene Benchmarks zur Videoverständnis hinweg. Unsere Arbeit leistet einen systematisch gestalteten Benchmark und ein generalisierbares Nachschulungsframework, das die Entwicklung interpretierbarer und robusterer MLLMs vorantreibt.
Die Softwareentwicklung (SWE) hat sich kürzlich als entscheidendes Testfeld für die nächste Generation von LLM-Agenten (Large Language Models) erwiesen, die inhärente Fähigkeiten in zwei kritischen Dimensionen erfordern: nachhaltiges iteratives Problemlösen (z.B. >50 Interaktionsrunden) und die Bewältigung von langen Kontextabhängigkeiten (z.B. >32k Tokens). Der Datenkuratierungsprozess in der SWE bleibt jedoch notorisch zeitaufwendig, da er stark auf manuelle Annotationen zur Filterung von Code-Dateien und die Einrichtung dedizierter Laufzeitumgebungen zur Ausführung und Validierung von Unit-Tests angewiesen ist. Folglich sind die meisten bestehenden Datensätze auf nur wenige tausend Instanzen aus GitHub beschränkt. Um dies zu adressieren, schlagen wir eine inkrementelle, automatisierte Datenkuratierungs-Pipeline vor, die sowohl das Volumen als auch die Vielfalt von SWE-Datensätzen systematisch skaliert. Unser Datensatz umfasst 10.169 reale Python-Aufgabeninstanzen aus 2.531 verschiedenen GitHub-Repositories, jeweils ergänzt durch eine in natürlicher Sprache spezifizierte Aufgabe und ein dediziertes Laufzeitumgebungs-Image zur automatisierten Unit-Test-Validierung. Wir haben sorgfältig über 8.000 erfolgreich validierte Trainingsverläufe aus unserem vorgeschlagenen SWE-Datensatz kuratiert. Bei der Feinabstimmung des Skywork-SWE-Modells auf diesen Verläufen entdecken wir ein bemerkenswertes Daten-Skalierungsphänomen: Die Leistung des trainierten Modells für Softwareentwicklungsfähigkeiten in LLMs verbessert sich kontinuierlich mit zunehmender Datengröße, ohne Anzeichen von Sättigung zu zeigen. Insbesondere erreicht unser Skywork-SWE-Modell eine Genauigkeit von 38,0 % pass@1 auf dem SWE-bench Verified Benchmark, ohne Verifizierer oder mehrere Rollouts zu verwenden, und setzt damit einen neuen State-of-the-Art (SOTA) unter den auf dem OpenHands-Agenten-Framework basierenden Qwen2.5-Coder-32B-LLMs. Darüber hinaus verbessert sich die Leistung durch die Einbindung von Testzeit-Skalierungstechniken auf 47,0 % Genauigkeit, was die bisherigen SOTA-Ergebnisse für Modelle mit weniger als 32B Parametern übertrifft. Wir veröffentlichen den Skywork-SWE-32B-Modell-Checkpoint, um zukünftige Forschung zu beschleunigen.
Dieses Papier stellt ScaleCap vor, eine skalierbare Strategie zur Bildbeschreibung zur Inferenzzeit, die umfassende und detaillierte Bildbeschreibungen generiert. Die zentralen Herausforderungen bei hochwertiger Bildbeschreibung liegen in den inhärenten Verzerrungen von LVLMs (Large Vision-Language Models): multimodale Verzerrungen, die zu einer unausgewogenen Beschreibungsgranularität führen, indem sie einige Elemente detailliert darstellen, während andere nur oberflächlich behandelt werden; linguistische Verzerrungen, die zu halluzinierten Beschreibungen nicht existierender Objekte führen. Um diese Probleme zu adressieren, schlagen wir eine skalierbare, entzerrte Beschreibungsstrategie vor, die die Bildbeschreibung kontinuierlich mit zunehmendem Inferenzbudget anreichert und kalibriert. Konkret schlagen wir zwei neuartige Komponenten vor: heuristisches Frage-Antworten und kontrastive Satzbewertung. Erstere generiert inhaltsbezogene Fragen basierend auf dem Bild und beantwortet diese, um schrittweise relevante Informationen in die Beschreibung einzufügen. Letztere verwendet satzbasierte, offline kontrastive Dekodierung, um effektiv Halluzinationen, die durch linguistische Verzerrungen verursacht werden, zu identifizieren und zu eliminieren. Mit steigenden Inferenzkosten stellt ScaleCap mehr heuristische Fragen, um zusätzliche visuelle Details schrittweise zu erfassen und so Beschreibungen zu generieren, die genauer, ausgewogener und informativer sind. Umfangreiche Experimente zur Modalitätsausrichtung demonstrieren die Wirksamkeit von ScaleCap. Die Annotation von 450.000 Bildern mit ScaleCap und deren Verwendung für das Pretraining von LVLMs führt zu konsistenten Leistungssteigerungen über 11 weit verbreitete Benchmarks hinweg. Darüber hinaus zeigt ScaleCap eine hervorragende Reichhaltigkeit und Treue der generierten Beschreibungen in zwei zusätzlichen Aufgaben: dem Ersetzen von Bildern durch Beschreibungen in VQA-Aufgaben (Visual Question Answering) und der Rekonstruktion von Bildern aus Beschreibungen zur Bewertung der semantischen Abdeckung. Der Code ist verfügbar unter https://github.com/Cooperx521/ScaleCap.
Die Fotoretusche ist zu einem integralen Bestandteil des zeitgenössischen visuellen Storytellings geworden und ermöglicht es Nutzern, Ästhetik einzufangen und Kreativität auszudrücken. Während professionelle Werkzeuge wie Adobe Lightroom leistungsstarke Funktionen bieten, erfordern sie beträchtliche Expertise und manuellen Aufwand. Im Gegensatz dazu bieten bestehende KI-basierte Lösungen zwar Automatisierung, leiden jedoch oft unter begrenzter Anpassungsfähigkeit und schlechter Generalisierung, wodurch sie vielfältige und personalisierte Bearbeitungsbedürfnisse nicht erfüllen können. Um diese Lücke zu schließen, stellen wir JarvisArt vor, einen multi-modalen Large Language Model (MLLM)-gesteuerten Agenten, der die Absichten der Nutzer versteht, den Denkprozess professioneller Künstler nachahmt und intelligent über 200 Retusche-Werkzeuge innerhalb von Lightroom koordiniert. JarvisArt durchläuft einen zweistufigen Trainingsprozess: eine anfängliche Chain-of-Thought-supervised Feinabstimmung, um grundlegende Denk- und Werkzeugnutzungskompetenzen zu etablieren, gefolgt von Group Relative Policy Optimization for Retouching (GRPO-R), um seine Entscheidungsfindung und Werkzeugbeherrschung weiter zu verbessern. Wir schlagen außerdem das Agent-to-Lightroom-Protokoll vor, um eine nahtlose Integration mit Lightroom zu ermöglichen. Zur Bewertung der Leistung entwickeln wir MMArt-Bench, einen neuartigen Benchmark, der auf realen Nutzerbearbeitungen basiert. JarvisArt zeigt benutzerfreundliche Interaktion, überlegene Generalisierung und fein abgestimmte Kontrolle über sowohl globale als auch lokale Anpassungen und ebnet so einen neuen Weg für intelligente Fotoretusche. Bemerkenswerterweise übertrifft es GPT-4o mit einer 60%igen Verbesserung der durchschnittlichen Pixel-Level-Metriken auf MMArt-Bench in Bezug auf Inhaltsgenauigkeit, bei gleichzeitig vergleichbaren Fähigkeiten zur Befolgung von Anweisungen. Projektseite: https://jarvisart.vercel.app/.
Menschliche Annotationsvariation (d. h. Annotationen, bei denen keine Einigkeit besteht) ist in der NLP (Natural Language Processing) weit verbreitet und spiegelt oft wichtige Informationen wider, wie z. B. die Subjektivität der Aufgabe und die Mehrdeutigkeit der Beispiele. Während Large Language Models (LLMs) zunehmend für die automatische Annotation eingesetzt werden, um den menschlichen Aufwand zu reduzieren, konzentriert sich ihre Bewertung häufig auf die Vorhersage der mehrheitlich abgestimmten „Ground-Truth“-Labels. Es ist jedoch noch unklar, ob diese Modelle auch informative menschliche Annotationsvariationen erfassen können. Unsere Arbeit schließt diese Lücke, indem wir die Fähigkeit von LLMs, Annotationen ohne Zugriff auf wiederholte menschliche Labels vorherzusagen, umfassend evaluieren. Unsere Ergebnisse zeigen, dass LLMs Schwierigkeiten haben, Uneinigkeiten zu modellieren, was bei Bewertungen, die auf Mehrheitslabels basieren, übersehen werden kann. Bemerkenswerterweise führt RLVR-ähnliches (Reinforcement Learning with Verifiable Rewards) Denken zwar allgemein zu einer Leistungssteigerung von LLMs, verschlechtert jedoch die Vorhersage von Uneinigkeiten. Unsere Ergebnisse unterstreichen die dringende Notwendigkeit, LLM-Annotatoren in der Modellierung von Uneinigkeiten zu evaluieren und zu verbessern. Code und Daten sind unter https://github.com/EdisonNi-hku/Disagreement_Prediction verfügbar.
Die Lösung komplexer SQL-Probleme bleibt ein erheblicher Engpass in realen Datenbankanwendungen. Aktuelle Large Language Models (LLMs), obwohl geschickt in der Text-zu-SQL-Übersetzung, wurden nicht rigoros auf die anspruchsvollere Aufgabe des Debuggens von SQL-Problemen evaluiert. Um diese Lücke zu schließen, führen wir BIRD-CRITIC ein, einen neuen Benchmark für das Debuggen von SQL-Problemen, der 530 PostgreSQL-Aufgaben (BIRD-CRITIC-PG) und 570 Multi-Dialekt-Aufgaben (BIRD-CRITIC-Multi) umfasst, die aus authentischen Benutzerproblemen destilliert und in neuen Umgebungen wiedergegeben wurden, um eine strenge Evaluation zu ermöglichen. Baseline-Evaluationen unterstreichen die Komplexität der Aufgabe, wobei das führende Reasoning-Modell O3-Mini nur eine Erfolgsrate von 38,87 % auf BIRD-CRITIC-PG und 33,33 % auf BIRD-CRITIC-Multi erreicht. Gleichzeitig ist die Weiterentwicklung von Open-Source-Modellen für Datenbankaufgaben entscheidend, um die lokale Entwicklung zu stärken und gleichzeitig die Datensicherheit zu gewährleisten. Daher präsentieren wir Six-Gym (Sql-fIX-Gym), eine Trainingsumgebung zur Verbesserung der Fähigkeiten von Open-Source-Modellen beim Debuggen von SQL-Problemen. Diese Umgebung nutzt die SQL-Rewind-Strategie, die automatisch ausführbare Problem-Lösungs-Datensätze durch Reverse-Engineering von Problemen aus verifizierten SQLs generiert. Beliebte, auf Trajektorien basierende Feinabstimmungsmethoden erforschen jedoch keine wesentlichen Überwachungssignale. Wir schlagen weiterhin f-Plan Boosting vor, das hochrangige Debugging-Pläne aus SQL-Lösungen extrahiert und es Lehrer-LLMs ermöglicht, 73,7 % mehr erfolgreiche Trajektorien für das Training zu erzeugen. Wir integrieren diese Komponenten in einen Open-Source-Agenten, Bird-Fixer. Basierend auf Qwen-2.5-Coder-14B erreicht Bird-Fixer eine Erfolgsrate von 38,11 % auf BIRD-CRITIC-PG und 29,65 % auf BIRD-CRITIC-Multi und übertrifft damit führende proprietäre Modelle wie Claude-3.7-Sonnet und GPT-4.1, was einen bedeutenden Schritt zur Demokratisierung anspruchsvoller SQL-Debugging-Fähigkeiten darstellt. Die Bestenliste und der Quellcode sind verfügbar: https://bird-critic.github.io/
Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte bei Denkaufgaben erzielt, doch die optimale Integration von Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) bleibt eine grundlegende Herausforderung. Durch eine umfassende Analyse von Token-Verteilungen, Lern-Dynamiken und Integrationsmechanismen aus entropiebasierten Perspektiven zeigen wir wesentliche Unterschiede zwischen diesen Paradigmen auf: SFT induziert grobkörnige globale Veränderungen in den Policy-Verteilungen der LLMs, während RL feinkörnige selektive Optimierungen durchführt, wobei die Entropie als kritischer Indikator für die Trainingswirksamkeit dient. Aufbauend auf diesen Beobachtungen schlagen wir Supervised Reinforcement Fine-Tuning (SRFT) vor, eine einstufige Methode, die beide Feinabstimmungs-Paradigmen durch entropiebewusste Gewichtungsmechanismen vereint. Unser Ansatz wendet SFT und RL gleichzeitig an, um das LLM direkt durch Demonstrationen und Selbstexplorations-Rollouts zu optimieren, anstatt auf zweistufige sequenzielle Methoden zurückzugreifen. Umfangreiche Experimente zeigen, dass SRFT eine durchschnittliche Genauigkeit von 59,1 % erreicht und Zero-RL-Methoden um 9,0 % auf fünf mathematischen Denk-Benchmarks und um 10,9 % auf drei Out-of-Distribution-Benchmarks übertrifft.
Latent-Diffusionsmodelle haben sich als führendes Paradigma für die effiziente Videogenerierung etabliert. Da sich die Nutzererwartungen jedoch zunehmend auf höher aufgelöste Ausgaben verlagern, reicht die alleinige Abhängigkeit von latenter Berechnung nicht mehr aus. Ein vielversprechender Ansatz besteht darin, den Prozess in zwei Stufen zu entkoppeln: die Generierung semantischer Inhalte und die Synthese von Details. Erstere verwendet ein rechenintensives Basismodell bei niedrigeren Auflösungen, während letztere ein leichtgewichtiges kaskadiertes Video-Super-Resolution (VSR)-Modell nutzt, um eine hochauflösende Ausgabe zu erzielen. In dieser Arbeit konzentrieren wir uns auf die Untersuchung zentraler Designprinzipien für kaskadierte VSR-Modelle, die derzeit noch unzureichend erforscht sind. Zunächst schlagen wir zwei Degradationsstrategien vor, um Trainingspaare zu generieren, die die Ausgabeeigenschaften des Basismodells besser nachahmen und so die Abstimmung zwischen dem VSR-Modell und seinem vorgelagerten Generator sicherstellen. Zweitens liefern wir wichtige Erkenntnisse zum Verhalten von VSR-Modellen durch systematische Analysen von (1) Zeitschritt-Sampling-Strategien und (2) den Auswirkungen von Rauschaugmentationen auf niedrig aufgelöste (LR) Eingaben. Diese Erkenntnisse leiten direkt unsere architektonischen und Trainingsinnovationen. Schließlich führen wir verschachtelte temporale Einheiten und sparsame lokale Aufmerksamkeit ein, um effizientes Training und Inferenz zu ermöglichen und den Rechenaufwand erheblich zu reduzieren. Umfangreiche Experimente demonstrieren die Überlegenheit unseres Frameworks gegenüber bestehenden Methoden, wobei Ablationsstudien die Wirksamkeit jedes Designentscheids bestätigen. Unsere Arbeit etabliert eine einfache, aber effektive Baseline für die kaskadierte Video-Super-Resolution-Generierung und bietet praktische Einblicke, um zukünftige Fortschritte in effizienten kaskadierten Synthesesystemen zu leiten.
Classifier-free guidance (CFG) hat sich zu einem wesentlichen Bestandteil moderner bedingter Diffusionsmodelle entwickelt. Obwohl in der Praxis äußerst effektiv, sind die zugrunde liegenden Mechanismen, durch die CFG die Qualität, Detailtreue und Prompt-Ausrichtung verbessert, noch nicht vollständig verstanden. Wir präsentieren eine neuartige Perspektive auf CFG, indem wir seine Auswirkungen im Frequenzbereich analysieren und zeigen, dass niedrige und hohe Frequenzen unterschiedliche Auswirkungen auf die Generierungsqualität haben. Insbesondere steuert die niederfrequente Führung die globale Struktur und die Bedingungsausrichtung, während die hochfrequente Führung hauptsächlich die visuelle Detailtreue verbessert. Die Anwendung einer einheitlichen Skalierung über alle Frequenzen hinweg – wie es im Standard-CFG der Fall ist – führt jedoch bei hohen Skalen zu Übersättigung und reduzierter Diversität sowie bei niedrigen Skalen zu einer Verschlechterung der visuellen Qualität. Basierend auf diesen Erkenntnissen schlagen wir die frequenzentkoppelte Führung (Frequency-Decoupled Guidance, FDG) vor, einen effektiven Ansatz, der CFG in nieder- und hochfrequente Komponenten zerlegt und separate Führungsstärken auf jede Komponente anwendet. FDG verbessert die Bildqualität bei niedrigen Führungsskalen und vermeidet durch seine Konzeption die Nachteile hoher CFG-Skalen. Durch umfangreiche Experimente über mehrere Datensätze und Modelle hinweg zeigen wir, dass FDG die Probenqualität konsistent steigert, während die Diversität erhalten bleibt, was im Vergleich zu CFG zu verbesserten FID- und Recall-Werten führt. Damit etablieren wir unsere Methode als eine Plug-and-Play-Alternative zur standardmäßigen classifier-free guidance.
Code-Switching (CSW) bezeichnet den Wechsel zwischen zwei oder mehr Sprachen innerhalb eines einzelnen Diskurses. Dieses Phänomen ist in multilingualen Gemeinschaften weit verbreitet und zunehmend in Online-Inhalten präsent, wo Nutzer im Alltag natürlicherweise Sprachen vermischen. Infolgedessen sind Large Language Models (LLMs), die mittlerweile zentral für die Verarbeitung und Generierung von Inhalten sind, häufig mit code-switched Eingaben konfrontiert. Angesichts ihrer weitreichenden Nutzung ist es entscheidend zu verstehen, wie LLMs derart gemischtsprachige Texte verarbeiten und interpretieren. Diese Arbeit präsentiert eine systematische Evaluierung des Verständnisses von LLMs unter Code-Switching, indem CSW-Varianten etablierter Verständnis- und Schlussfolgerungs-Benchmarks generiert werden. Während eine Verschlechterung offensichtlich ist, wenn fremde Token englische Texte unterbrechen – selbst unter linguistischen Einschränkungen –, führt die Einbettung von Englisch in andere Sprachen oft zu einem verbesserten Verständnis. Obwohl Prompting gemischte Ergebnisse liefert, bietet Fine-Tuning einen stabileren Weg zur Minderung von Verschlechterungen.
Vision-Language-Action-Modelle (VLAs) haben aufgrund ihres Potenzials zur Weiterentwicklung der robotischen Manipulation erhebliche Aufmerksamkeit erregt. Bisherige Ansätze stützen sich jedoch überwiegend auf die allgemeinen Verständnisfähigkeiten von Vision-Language-Modellen (VLMs), um Aktionssignale zu generieren, wobei häufig die reichhaltige zeitliche und kausale Struktur, die in visuellen Beobachtungen enthalten ist, übersehen wird. In diesem Artikel stellen wir UniVLA vor, ein einheitliches und natives multimodales VLA-Modell, das visuelle, sprachliche und aktionsbezogene Signale autoregressiv als diskrete Token-Sequenzen modelliert. Diese Formulierung ermöglicht flexibles Lernen multimodaler Aufgaben, insbesondere aus groß angelegten Videodaten. Durch die Einbindung von Weltmodellierung während des Post-Trainings erfasst UniVLA kausale Dynamiken aus Videos, was einen effektiven Transfer auf nachgelagerte Policy-Lernaufgaben erleichtert – insbesondere für langfristige Aufgaben. Unser Ansatz erzielt neue State-of-the-Art-Ergebnisse in mehreren weit verbreiteten Simulationsbenchmarks, darunter CALVIN, LIBERO und Simplenv-Bridge, und übertrifft dabei bisherige Methoden deutlich. Beispielsweise erreicht UniVLA eine durchschnittliche Erfolgsrate von 95,5 % im LIBERO-Benchmark und übertrifft damit pi0-FAST mit 85,5 %. Darüber hinaus demonstrieren wir seine breite Anwendbarkeit in der realen Welt, sowohl bei der ALOHA-Manipulation als auch beim autonomen Fahren.
Große Sprachmodelle (LLMs) bergen Potenzial in der Automatisierung von Datenanalysen, doch Open-Source-Modelle stoßen in solchen Denk-intensiven Szenarien auf erhebliche Einschränkungen. In dieser Arbeit untersuchen wir Strategien, um die Datenanalysefähigkeiten von Open-Source-LLMs zu verbessern. Durch die Zusammenstellung eines Ausgangsdatensatzes mit vielfältigen, realistischen Szenarien bewerten wir Modelle in drei Dimensionen: Datenverständnis, Codegenerierung und strategische Planung. Unsere Analyse zeigt drei zentrale Erkenntnisse: (1) Die Qualität der strategischen Planung ist der primäre Leistungsindikator für Modelle; (2) Interaktionsdesign und Aufgabenkomplexität beeinflussen die Denkfähigkeiten maßgeblich; (3) Datenqualität hat einen größeren Einfluss auf die Leistung als Diversität. Wir nutzen diese Erkenntnisse, um eine Methode zur Datensynthese zu entwickeln, die signifikante Verbesserungen in den analytischen Denkfähigkeiten von Open-Source-LLMs demonstriert.
Self-supervised Learning (SSL) hat die Art und Weise, wie Audio-Repräsentationen erlernt werden, revolutioniert, doch bleiben Modelle oft domänenspezifisch und konzentrieren sich entweder auf Sprach- oder Nicht-Sprach-Aufgaben. In dieser Arbeit präsentieren wir Universal Speech and Audio Distillation (USAD), einen einheitlichen Ansatz für das Erlernen von Audio-Repräsentationen, der verschiedene Audio-Typen – Sprache, Klänge und Musik – in einem einzigen Modell integriert. USAD nutzt effiziente Layer-to-Layer-Distillation von domänenspezifischen SSL-Modellen, um ein Studentenmodell auf einem umfassenden Audio-Datensatz zu trainieren. USAD bietet wettbewerbsfähige Leistung über verschiedene Benchmarks und Datensätze hinweg, einschließlich Frame- und Instanz-Level-Sprachverarbeitungsaufgaben, Audio-Tagging und Klassifikation von Klängen, und erzielt nahezu state-of-the-art Ergebnisse mit einem einzigen Encoder auf den SUPERB- und HEAR-Benchmarks.
Große Sprachmodelle (LLMs), insbesondere langsam denkende Modelle, zeigen oft starke Halluzinationen, indem sie falsche Inhalte ausgeben, da sie während des Schlussfolgerns nicht in der Lage sind, Wissensgrenzen genau zu erkennen. Während Reinforcement Learning (RL) die Fähigkeiten zum komplexen Schlussfolgern verbessern kann, fehlt seinem ergebnisorientierten Belohnungsmechanismus oft eine faktische Überwachung des Denkprozesses, was das Halluzinationsproblem weiter verschärft. Um die hohe Halluzinationsrate in langsam denkenden Modellen zu adressieren, schlagen wir Knowledge-enhanced RL, KnowRL, vor. KnowRL leitet Modelle an, faktenbasiertes langsames Denken durchzuführen, indem es eine Faktizitätsbelohnung, basierend auf Wissensüberprüfung, in den RL-Trainingsprozess integriert und ihnen hilft, ihre Wissensgrenzen zu erkennen. Diese gezielte faktische Eingabe während des RL-Trainings ermöglicht es dem Modell, faktenbasierte Schlussfolgerungsstrategien zu erlernen und zu verinnerlichen. Durch die direkte Belohnung der Einhaltung von Fakten innerhalb der Denkschritte fördert KnowRL einen zuverlässigeren Denkprozess. Experimentelle Ergebnisse auf drei Halluzinationsbewertungsdatensätzen und zwei Schlussfolgerungsbewertungsdatensätzen zeigen, dass KnowRL Halluzinationen in langsam denkenden Modellen effektiv reduziert, während ihre ursprünglich starken Schlussfolgerungsfähigkeiten erhalten bleiben. Unser Code ist verfügbar unter https://github.com/zjunlp/KnowRL.
Diese Studie untersucht die Effektivität von Predictive-Maintenance-Modellen und die Optimierung intelligenter Betriebs- und Wartungssysteme (O&M) zur Steigerung der Effizienz der Windenergieerzeugung. Durch qualitative Forschung wurden strukturierte Interviews mit fünf Windpark-Ingenieuren und Wartungsmanagern durchgeführt, die jeweils über umfangreiche Erfahrungen in der Turbinenwartung verfügen. Mithilfe einer thematischen Analyse zeigte die Studie, dass Predictive-Maintenance-Modelle zwar effektiv Ausfallzeiten reduzieren, indem sie größere Fehler identifizieren, jedoch oft Schwierigkeiten haben, kleinere, graduelle Ausfälle zu erkennen. Zu den wichtigsten Herausforderungen zählen falsch positive Ergebnisse, Sensorstörungen und Schwierigkeiten bei der Integration neuer Modelle in ältere Turbinensysteme. Fortschrittliche Technologien wie digitale Zwillinge, SCADA-Systeme und Zustandsüberwachung haben die Turbinenwartungspraktiken erheblich verbessert. Dennoch bedürfen diese Technologien weiterer Verbesserungen, insbesondere in der KI-Verfeinerung und der Echtzeit-Datenintegration. Die Ergebnisse unterstreichen die Notwendigkeit einer kontinuierlichen Weiterentwicklung, um die Leistung von Windturbinen vollständig zu optimieren und die breitere Nutzung erneuerbarer Energien zu unterstützen.
Reasoning-Modelle zeichnen sich dadurch aus, dass sie lange Ketten von Gedankengängen erzeugen, aber die Dekodierung der daraus resultierenden Tausenden von Tokens ist langsam. Token-level spekulative Dekodierung (SD) hilft dabei, aber ihr Nutzen ist begrenzt, da die Wahrscheinlichkeit, dass ein gesamter Gamma-Token-Rateversuch korrekt ist, exponentiell abnimmt, wenn Gamma wächst. Dies bedeutet, dass die Zuweisung von mehr Rechenleistung für längere Token-Entwürfe auf eine algorithmische Obergrenze stößt – was die Beschleunigung bescheiden und hardwareunabhängig macht. Wir heben diese Grenze mit Lookahead Reasoning an, das eine zweite, schrittweise Ebene von Parallelität nutzt. Unsere zentrale Erkenntnis ist, dass Reasoning-Modelle schrittweise arbeiten und jeder Schritt nur semantisch korrekt sein muss, nicht exakt tokenübereinstimmend. Bei Lookahead Reasoning schlägt ein leichtgewichtiges Entwurfsmodell mehrere zukünftige Schritte vor; das Zielmodell erweitert jeden Vorschlag in einem gebündelten Durchlauf, und ein Verifizierer behält semantisch korrekte Schritte bei, während das Zielmodell alle fehlgeschlagenen Schritte neu generiert. Token-level SD arbeitet weiterhin innerhalb jedes Reasoning-Schritts, sodass sich die beiden Ebenen der Parallelität multiplizieren. Wir zeigen, dass Lookahead Reasoning den maximalen Beschleunigungsfaktor von SD sowohl theoretisch als auch empirisch erhöht. Über GSM8K, AIME und andere Benchmarks hinweg verbessert Lookahead Reasoning die Beschleunigung von SD von 1,4x auf 2,1x, während die Antwortqualität erhalten bleibt, und seine Beschleunigung skaliert besser mit zusätzlicher GPU-Durchsatzleistung. Unser Code ist verfügbar unter https://github.com/hao-ai-lab/LookaheadReasoning.
Orthogonales Finetuning (OFT) bietet eine hochgradig parameter-effiziente Anpassung, während es katastrophales Vergessen verhindert, doch sein hoher Laufzeit- und Speicherbedarf schränkt den praktischen Einsatz ein. Wir identifizieren den zentralen Rechenengpass in OFT als seine gewichts-zentrierte Implementierung, die auf kostspieligen Matrix-Matrix-Multiplikationen mit kubischer Komplexität beruht. Um dies zu überwinden, schlagen wir OFTv2 vor, eine input-zentrierte Neuformulierung, die stattdessen Matrix-Vektor-Multiplikationen (d.h. matrixfreie Berechnung) verwendet und so die Rechenkosten auf quadratische Komplexität reduziert. Weiterhin führen wir die Cayley-Neumann-Parametrisierung ein, eine effiziente orthogonale Parametrisierung, die die Matrixinversion in der Cayley-Transformation durch eine abgeschnittene Neumann-Reihe approximiert. Diese Modifikationen ermöglichen es OFTv2, bis zu 10x schnellere Trainingszeiten und 3x geringeren GPU-Speicherverbrauch zu erreichen, ohne die Leistung zu beeinträchtigen. Zusätzlich erweitern wir OFTv2, um das Finetuning quantisierter Basismodelle zu unterstützen, und zeigen, dass es das beliebte QLoRA in Bezug auf Trainingsstabilität, Effizienz und Speicherverbrauch übertrifft.
Vision-and-Language Navigation (VLN) in großräumigen urbanen Umgebungen erfordert, dass verkörperte Agenten sprachliche Anweisungen in komplexen Szenen verankern und relevante Erfahrungen über längere Zeiträume hinweg abrufen können. Bisherige modulare Pipelines bieten Interpretierbarkeit, mangeln jedoch an einem einheitlichen Gedächtnis, während end-to-end (M)LLM-Agenten zwar in der Fusion von Vision und Sprache hervorragend sind, jedoch durch feste Kontextfenster und implizite räumliche Schlussfolgerungen eingeschränkt bleiben. Wir stellen Mem4Nav vor, ein hierarchisches räumlich-kognitives Langzeit-Kurzzeit-Gedächtnissystem, das jeden VLN-Backbone erweitern kann. Mem4Nav kombiniert ein spärliches Oktree für die feinkörnige Voxel-Indizierung mit einem semantischen Topologiegraphen für die Konnektivität von Landmarken auf hoher Ebene und speichert beide in trainierbaren Gedächtnis-Tokens, die über einen reversiblen Transformer eingebettet werden. Das Langzeitgedächtnis (LTM) komprimiert und behält historische Beobachtungen sowohl auf Oktree- als auch auf Graphenknoten bei, während das Kurzzeitgedächtnis (STM) aktuelle multimodale Einträge in relativen Koordinaten zwischenspeichert, um Echtzeit-Hindernisvermeidung und lokale Planung zu ermöglichen. Bei jedem Schritt schneidet die STM-Abrufung den dynamischen Kontext scharf zu, und wenn eine tiefere Historie benötigt wird, werden LTM-Tokens verlustfrei decodiert, um vergangene Einbettungen zu rekonstruieren. Ausgewertet auf Touchdown und Map2Seq über drei Backbones (modular, state-of-the-art VLN mit prompt-basiertem LLM und state-of-the-art VLN mit gestaffelter Aufmerksamkeit MLLM), erzielt Mem4Nav 7-13 Prozentpunkte Gewinne bei der Aufgabenabschlussrate, eine ausreichende Reduzierung der SPD und eine Verbesserung des nDTW um >10 Prozentpunkte. Ablationen bestätigen die Unverzichtbarkeit sowohl der hierarchischen Karte als auch der dualen Gedächtnismodule. Unsere Codes sind über https://github.com/tsinghua-fib-lab/Mem4Nav quelloffen verfügbar.