Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Auf systematische Weise untersuchen wir eine weit verbreitete Frage: Verstehen LLMs wirklich, was sie sagen?, die sich auf den geläufigeren Begriff des Stochastischen Papageis bezieht. Zu diesem Zweck schlagen wir eine zusammenfassende Bewertung über eine sorgfältig konzipierte Aufgabe zum Verständnis physikalischer Konzepte, PhysiCo, vor. Unsere Aufgabe behebt das Problem des reinen Auswendiglernens durch die Verwendung von Rasterformat-Eingaben, die physikalische Phänomene abstrakt beschreiben. Die Raster repräsentieren unterschiedliche Verständnisstufen, vom Kernphänomen über Anwendungsbeispiele bis hin zu Analogien zu anderen abstrakten Mustern in der Rasterwelt. Eine umfassende Studie zu unserer Aufgabe zeigt: (1) LLMs auf dem neuesten Stand der Technik, einschließlich GPT-4o, o1 und Gemini 2.0 Flash Thinking, liegen um ~40% hinter Menschen zurück; (2) das Phänomen des Stochastischen Papageis ist bei LLMs vorhanden, da sie bei unserer Rasteraufgabe scheitern, aber dieselben Konzepte gut in natürlicher Sprache beschreiben und erkennen können; (3) unsere Aufgabe stellt die LLMs aufgrund intrinsischer Schwierigkeiten heraus, anstatt des ungewohnten Rasterformats, da das Lernen im Kontext und das Feintuning auf denselben formatierten Daten wenig zur Verbesserung ihrer Leistung beitrugen.
In modernen großen Sprachmodellen (LLMs) stellen sehr lange Kontextlängen erhebliche Herausforderungen dar, da sie langsamere Inferenzgeschwindigkeiten und erhöhte Speicherkosten verursachen. Darüber hinaus gelingt es den meisten bestehenden vorab trainierten LLMs nicht, über ihre ursprünglichen Trainingssequenzlängen hinaus zu generalisieren. Um eine effiziente und praktische Nutzung von langem Kontext zu ermöglichen, stellen wir InfiniteHiP vor, ein neuartiges und praktisches LLM-Inferenzframework, das die Verarbeitung beschleunigt, indem irrelevante Kontext-Token dynamisch durch einen modularen hierarchischen Token-Pruning-Algorithmus eliminiert werden. Unsere Methode ermöglicht auch die Generalisierung auf längere Sequenzen, indem verschiedene RoPE-Anpassungsmethoden selektiv entsprechend den internen Aufmerksamkeitsmustern innerhalb von LLMs angewendet werden. Darüber hinaus lagern wir den Key-Value-Cache während der Inferenz in den Host-Speicher aus, was den Speicherdruck auf der GPU erheblich reduziert. Als Ergebnis ermöglicht InfiniteHiP die Verarbeitung von bis zu 3 Millionen Tokens auf einer einzelnen L40s 48GB GPU - 3x größer - ohne dauerhaften Verlust von Kontextinformationen. Unser Framework erzielt eine 18,95-fache Beschleunigung beim Aufmerksamkeitsdecodieren für einen Kontext von 1 Million Tokens, ohne zusätzliches Training zu erfordern. Wir implementieren unsere Methode im SGLang-Framework und zeigen deren Wirksamkeit und Praktikabilität durch umfangreiche Evaluationen.
Groß angelegte Textkodierer in Text-zu-Bild (T2I) Diffusionsmodellen haben eine außergewöhnliche Leistung bei der Erzeugung hochwertiger Bilder aus textuellen Eingaben gezeigt. Im Gegensatz zu Rauschunterdrückungsmodulen, die auf mehreren iterativen Schritten beruhen, benötigen Textkodierer nur einen einzigen Vorwärtsschritt, um Texteinbettungen zu erzeugen. Trotz ihres minimalen Beitrags zur Gesamtinferenzzeit und den Gleitkommaoperationen (FLOPs) erfordern Textkodierer jedoch signifikant höheren Speicherverbrauch, bis zu achtmal mehr als Rauschunterdrückungsmodule. Um diese Ineffizienz zu beheben, schlagen wir Skip and Re-use-Schichten (Skrr) vor, eine einfache, aber effektive Beschneidungsstrategie, die speziell für Textkodierer in T2I-Diffusionsmodellen entwickelt wurde. Skrr nutzt die inhärente Redundanz in Transformerblöcken aus, indem bestimmte Schichten selektiv übersprungen oder wiederverwendet werden, auf eine Weise, die für T2I-Aufgaben maßgeschneidert ist, wodurch der Speicherverbrauch reduziert wird, ohne die Leistung zu beeinträchtigen. Umfangreiche Experimente zeigen, dass Skrr die Bildqualität vergleichbar mit dem Originalmodell auch bei hohen Sparsamkeitsniveaus beibehält und bestehende blockweise Beschneidungsmethoden übertrifft. Darüber hinaus erreicht Skrr eine Speichereffizienz auf dem neuesten Stand der Technik und bewahrt die Leistung über mehrere Bewertungsmetriken hinweg, einschließlich der FID, CLIP, DreamSim und GenEval-Werte.
In jüngster Zeit haben Fortschritte in Diffusionstechniken die Erzeugung von Bildern und Videos auf unerreichte Qualitätsniveaus vorangetrieben und die Bereitstellung sowie Anwendung von generativer KI signifikant beschleunigt. Allerdings hinkt die Technologie zur 3D-Formgenerierung bisher hinterher, begrenzt durch Einschränkungen im Maßstab der 3D-Daten, der Komplexität der 3D-Datenverarbeitung und der unzureichenden Erforschung fortgeschrittener Techniken im 3D-Bereich. Aktuelle Ansätze zur 3D-Formgenerierung stehen vor erheblichen Herausforderungen hinsichtlich der Ausgabequalität, der Verallgemeinerungsfähigkeit und der Anpassung an Eingangsbedingungen. Wir stellen TripoSG vor, ein neues schlankes Formdiffusionsparadigma, das in der Lage ist, hochwertige 3D-Netze mit präziser Entsprechung zu Eingabebildern zu erzeugen. Konkret schlagen wir vor: 1) Einen groß angelegten rektifizierten Fluss-Transformer für die 3D-Formgenerierung, der durch das Training an umfangreichen, hochwertigen Daten einen Stand der Technik bei der Treue erreicht. 2) Eine hybride überwachte Trainingsstrategie, die SDF-, Normal- und Eikonal-Verluste für 3D-VAE kombiniert und eine hochwertige 3D-Rekonstruktionsleistung erzielt. 3) Eine Datenverarbeitungspipeline zur Erzeugung von 2 Millionen hochwertigen 3D-Mustern, die die entscheidenden Regeln für Datenqualität und -quantität beim Training von 3D-generativen Modellen hervorhebt. Durch umfassende Experimente haben wir die Wirksamkeit jedes Bestandteils in unserem neuen Rahmenwerk validiert. Die nahtlose Integration dieser Teile hat TripoSG ermöglicht, eine Spitzenleistung bei der 3D-Formgenerierung zu erreichen. Die resultierenden 3D-Formen zeigen aufgrund der hochauflösenden Fähigkeiten verbesserte Details und demonstrieren eine außergewöhnliche Treue zu den Eingabebildern. Darüber hinaus zeigt TripoSG eine verbesserte Vielseitigkeit bei der Erzeugung von 3D-Modellen aus verschiedenen Bildstilen und -inhalten und präsentiert starke Verallgemeinerungsfähigkeiten. Um Fortschritt und Innovation im Bereich der 3D-Generierung zu fördern, werden wir unser Modell öffentlich zugänglich machen.
Mit der zunehmenden Anzahl öffentlich verfügbarer Modelle gibt es wahrscheinlich vortrainierte, Online-Modelle für die meisten Aufgaben, die Benutzer benötigen. Allerdings sind die aktuellen Methoden zur Modellsuche rudimentär, im Wesentlichen eine textbasierte Suche in der Dokumentation, sodass Benutzer die relevanten Modelle nicht finden können. Dieses Papier stellt ProbeLog vor, eine Methode zum Abrufen von Klassifikationsmodellen, die ein Zielkonzept wie "Hund" erkennen können, ohne Zugriff auf Modellmetadaten oder Trainingsdaten. Im Unterschied zu früheren Sondierungsmethoden berechnet ProbeLog einen Deskriptor für jede Ausgabedimension (Logit) jedes Modells, indem es seine Reaktionen auf einen festen Satz von Eingaben (Sonden) beobachtet. Unsere Methode unterstützt sowohl logitbasiertes Abrufen ("finde mehr Logits wie diesen") als auch Null-Shot, textbasiertes Abrufen ("finde alle Logits, die Hunden entsprechen"). Da sondierungsbasierte Repräsentationen mehrere kostspielige Feedforward-Passagen durch das Modell erfordern, entwickeln wir eine Methode, die auf kollaborativem Filtern basiert und die Kosten der Codierung von Repositories um das 3-fache reduziert. Wir zeigen, dass ProbeLog hohe Abrufgenauigkeit sowohl bei realen als auch bei feinkörnigen Suchaufgaben erreicht und auf vollständige Repositories skalierbar ist.
Wir stellen SelfCite vor, einen innovativen selbstüberwachten Ansatz, der LLMs ausrichtet, um hochwertige, feinkörnige, auf Satzebene zitierte Aussagen in ihren generierten Antworten zu erzeugen. Anstatt nur auf kostspielige und arbeitsintensive Annotationen zu setzen, nutzt SelfCite ein Belohnungssignal, das vom LLM selbst durch Kontextablagerung bereitgestellt wird: Wenn ein Zitat erforderlich ist, sollte das Entfernen des zitierten Textes aus dem Kontext dieselbe Antwort verhindern; wenn ausreichend, sollte das Beibehalten des zitierten Textes allein dieselbe Antwort bewahren. Diese Belohnung kann die Inferenzzeit-Best-of-N-Samplingstrategie anleiten, um die Zitierqualität signifikant zu verbessern, sowie zur Präferenzoptimierung verwendet werden, um die Modelle direkt für die Generierung besserer Zitate feinzutunen. Die Wirksamkeit von SelfCite wird durch eine Steigerung des Zitier-F1-Werts um bis zu 5,3 Punkte im LongBench-Cite-Benchmark über fünf Frage-Antwort-Aufgaben auf Langformbasis demonstriert.
Die Nutzung von Multi-modalen Large Language Models (MLLMs) zur Erstellung von verkörperten Agenten bietet einen vielversprechenden Ansatz zur Bewältigung realer Aufgaben. Während sprachzentrierte verkörperte Agenten erhebliche Aufmerksamkeit erregt haben, sind MLLM-basierte verkörperte Agenten aufgrund des Mangels an umfassenden Bewertungsrahmen noch wenig erforscht. Um diese Lücke zu schließen, stellen wir EmbodiedBench vor, einen umfangreichen Benchmark, der entwickelt wurde, um visionbasierte verkörperte Agenten zu bewerten. EmbodiedBench umfasst: (1) eine vielfältige Sammlung von 1.128 Testaufgaben in vier Umgebungen, die von hochrangigen semantischen Aufgaben (z.B. Haushalt) bis hin zu niederwertigen Aufgaben mit atomaren Aktionen (z.B. Navigation und Manipulation) reichen; und (2) sechs sorgfältig zusammengestellte Untermengen, die wesentliche Agentenfähigkeiten wie gesunden Menschenverstand, komplexe Anweisungsverständnis, räumliches Bewusstsein, visuelle Wahrnehmung und langfristige Planung bewerten. Durch umfangreiche Experimente haben wir 13 führende proprietäre und Open-Source MLLMs innerhalb von EmbodiedBench bewertet. Unsere Ergebnisse zeigen, dass MLLMs bei hochrangigen Aufgaben glänzen, aber Schwierigkeiten bei niederwertiger Manipulation haben, wobei das beste Modell, GPT-4o, nur durchschnittlich 28,9% erreicht. EmbodiedBench bietet eine vielschichtige standardisierte Bewertungsplattform, die nicht nur bestehende Herausforderungen aufzeigt, sondern auch wertvolle Einblicke zur Weiterentwicklung von MLLM-basierten verkörperten Agenten bietet. Unser Code ist unter https://embodiedbench.github.io verfügbar.
Dieses Papier untersucht Datenauswahl- und Modellzusammenführungsmethoden, die darauf abzielen, fortgeschrittene Argumentationsfähigkeiten wie die von DeepSeek R1 in sprachspezifische große Sprachmodelle (LLMs) zu integrieren, wobei der Schwerpunkt auf dem thailändischen LLM liegt. Unser Ziel ist es, die Argumentationsfähigkeiten sprachspezifischer LLMs zu verbessern, während ihre Fähigkeiten in der Zielsprache erhalten bleiben. DeepSeek R1 zeichnet sich durch Argumentation aus, profitiert jedoch hauptsächlich von Ressourcenreichen Sprachen wie Englisch und Chinesisch. Niedrig-ressourcen Sprachen werden jedoch aufgrund der Dominanz von englischzentrierten Trainingsdaten und Modelloptimierungen vernachlässigt, was die Leistung in diesen Sprachen einschränkt. Diese Einschränkung führt zu unzuverlässigem Code-Switching und verringert die Effektivität bei Aufgaben in niedrig-ressourcen Sprachen. In der Zwischenzeit haben lokale und regionale LLM-Initiativen versucht, diese Lücke zu schließen, indem sie sprachspezifische LLMs entwickeln, die sich auf die Verbesserung der lokalen sprachlichen Treue konzentrieren. Wir zeigen, dass es mit nur öffentlich verfügbaren Datensätzen und einem Rechenaufwand von 120 US-Dollar möglich ist, die Argumentationsfähigkeiten sprachspezifischer LLMs auf das Niveau von DeepSeek R1 zu verbessern, ohne ihre Leistung bei Aufgaben in der Zielsprache zu beeinträchtigen.
Rollen-spielende Sprachagenten (RPLAs) haben sich als vielversprechende Anwendungen großer Sprachmodelle (LLMs) herausgestellt. Die Simulation etablierter Charaktere stellt jedoch eine herausfordernde Aufgabe für RPLAs dar, aufgrund des Mangels an authentischen Charakterdatensätzen und nuancierten Evaluierungsmethoden unter Verwendung solcher Daten. In diesem Artikel präsentieren wir CoSER, eine Sammlung eines hochwertigen Datensatzes, offener Modelle und eines Evaluierungsprotokolls zur effektiven Umsetzung von RPLAs etablierter Charaktere. Der CoSER-Datensatz umfasst 17.966 Charaktere aus 771 renommierten Büchern. Er bietet authentische Dialoge mit realen Feinheiten sowie verschiedene Datentypen wie Gesprächssituationen, Charaktererfahrungen und innere Gedanken. Unter Verwendung von Schauspielmethoden führen wir das Konzept des Umstandsspielens ein, um RPLAs zu trainieren und zu evaluieren, bei dem LLMs sequenziell mehrere Charaktere in Buchszenen darstellen. Unter Verwendung unseres Datensatzes entwickeln wir CoSER 8B und CoSER 70B, d. h. fortschrittliche offene Rollenspiel-LLMs, die auf LLaMA-3.1-Modellen aufbauen. Umfangreiche Experimente zeigen den Wert des CoSER-Datensatzes für das Training, die Evaluierung und den Abruf von RPLAs. Darüber hinaus zeigt CoSER 70B eine Spitzenleistung, die die von GPT-4o in unserer Evaluierung und drei bestehenden Benchmarks übertrifft oder erreicht, d. h. eine Genauigkeit von 75,80 % bzw. 93,47 % bei den Benchmarks InCharacter und LifeChoice.
Die Beantwortung von Fragen mit Chain-of-Thought (CoT) hat die Argumentationsfähigkeiten von Large Language Models (LLMs) signifikant verbessert, doch ihr Einfluss auf Large Multimodal Models (LMMs) fehlt noch eine systematische Bewertung und eingehende Untersuchung. In diesem Papier stellen wir MME-CoT vor, einen spezialisierten Benchmark zur Bewertung der CoT-Argumentationsleistung von LMMs, der sechs Bereiche umfasst: Mathematik, Naturwissenschaften, OCR, Logik, Raum-Zeit und allgemeine Szenen. Als erste umfassende Studie in diesem Bereich schlagen wir eine gründliche Bewertungssuite vor, die drei neue Metriken umfasst, die die Argumentationsqualität, Robustheit und Effizienz auf feingranularer Ebene bewerten. Durch die Nutzung kuratierter hochwertiger Daten und einer einzigartigen Bewertungsstrategie führen wir eine eingehende Analyse von State-of-the-Art LMMs durch und decken mehrere Schlüsselerkenntnisse auf: 1) Modelle mit Reflexionsmechanismus zeigen eine überlegene CoT-Qualität, wobei Kimi k1.5 GPT-4o übertrifft und die höchsten Qualitätsresultate zeigt; 2) CoT-Aufforderungen führen oft zu einer Verschlechterung der Leistung von LMMs bei wahrnehmungslastigen Aufgaben, was auf ein potenziell schädliches Überdenkverhalten hinweist; und 3) Obwohl die CoT-Qualität hoch ist, zeigen LMMs mit Reflexion eine signifikante Ineffizienz sowohl in normalen Antwort- als auch in Selbstkorrekturphasen. Wir hoffen, dass MME-CoT als Grundlage für die Weiterentwicklung der multimodalen Argumentation in LMMs dient. Projektseite: https://mmecot.github.io/
Architekturen ohne Encoder wurden vorläufig im 2D-Visuellen Bereich erforscht, aber es bleibt eine offene Frage, ob sie effektiv auf 3D-Verständnisszenarien angewendet werden können. In diesem Paper präsentieren wir die erste umfassende Untersuchung des Potenzials von Encoder-freien Architekturen, um die Herausforderungen von Encoder-basierten 3D Large Multimodal Models (LMMs) zu überwinden. Diese Herausforderungen umfassen das Versagen bei der Anpassung an unterschiedliche Punktewolkenauflösungen und dass die Punktmerkmale des Encoders nicht den semantischen Anforderungen von Large Language Models (LLMs) entsprechen. Wir identifizieren Schlüsselaspekte für 3D LMMs, um den Encoder zu entfernen und dem LLM zu ermöglichen, die Rolle des 3D-Encoders zu übernehmen: 1) Wir schlagen die LLM-eingebettete semantische Kodierungsstrategie in der Vortrainingsphase vor, um die Auswirkungen verschiedener selbstüberwachter Verluste für Punktewolken zu untersuchen. Und wir präsentieren den Hybrid Semantic Loss zur Extraktion von hochrangigen Semantiken. 2) Wir führen die Hierarchische Geometrieaggregationsstrategie in der Anweisungstuningphase ein. Diese integriert induktive Verzerrung in die frühen Schichten des LLM, um sich auf die lokalen Details der Punktewolken zu konzentrieren. Abschließend präsentieren wir das erste Encoder-freie 3D LMM, ENEL. Unser 7B-Modell konkurriert mit dem aktuellen State-of-the-Art-Modell, ShapeLLM-13B, und erreicht 55,0%, 50,92% und 42,7% bei den Klassifizierungs-, Bildunterschriftungs- und VQA-Aufgaben. Unsere Ergebnisse zeigen, dass die Encoder-freie Architektur äußerst vielversprechend ist, um Encoder-basierte Architekturen im Bereich des 3D-Verständnisses zu ersetzen. Der Code ist unter https://github.com/Ivan-Tang-3D/ENEL verfügbar.
Mit dem Aufkommen fortschrittlicher Argumentationsmodelle wie OpenAI o3 und DeepSeek-R1 haben große Sprachmodelle (LLMs) bemerkenswerte Argumentationsfähigkeiten gezeigt. Die Fähigkeit, strenge logische Argumentation durchzuführen, bleibt jedoch eine offene Frage. Diese Übersicht fasst die neuesten Fortschritte in der logischen Argumentation innerhalb von LLMs zusammen, einem entscheidenden Bereich der KI-Forschung. Sie skizziert den Umfang der logischen Argumentation in LLMs, ihre theoretischen Grundlagen und die Benchmarks, die zur Bewertung der Argumentationsfähigkeit verwendet werden. Wir analysieren bestehende Fähigkeiten in verschiedenen Argumentationsparadigmen - deduktiv, induktiv, abduktiv und analog - und bewerten Strategien zur Verbesserung der Argumentationsleistung, einschließlich datenzentrierter Abstimmung, Verstärkungslernen, Decodierungsstrategien und neuro-symbolischer Ansätze. Die Übersicht schließt mit zukünftigen Richtungen ab und betont die Notwendigkeit weiterer Explorationen zur Stärkung der logischen Argumentation in KI-Systemen.
Im schnelllebigen Bereich der natürlichen Sprachverarbeitung sind Große Sprachmodelle (LLMs) mit zunehmend komplexen Denkaufgaben betraut. Traditionelle Methoden wie Ketten-des-Denkens-Aufforderungen haben vielversprechende Ergebnisse gezeigt, scheitern jedoch oft daran, die Denkfähigkeiten eines Modells voll auszuschöpfen. Dieser Artikel stellt SQuARE (Sequential Question Answering Reasoning Engine) vor, eine neuartige Aufforderungstechnik, die entwickelt wurde, um das Denken durch ein Selbstbefragungsparadigma zu verbessern. Aufbauend auf CoT-Frameworks fordert SQuARE Modelle auf, mehrere Hilfsfragen zu generieren und zu lösen, bevor sie die Hauptanfrage angehen, was eine gründlichere Erkundung verschiedener Aspekte eines Themas fördert. Unsere umfangreichen Bewertungen, durchgeführt mit den Modellen Llama 3 und GPT-4o über mehrere Frage-Antwort-Datensätze hinweg, zeigen, dass SQuARE traditionelle CoT-Aufforderungen und bestehende Umformulierungs-und-Antwort-Methoden signifikant übertrifft. Durch systematische Zerlegung von Anfragen fördert SQuARE die Fähigkeiten von LLMs bei Denkaufgaben. Der Code ist öffentlich verfügbar unter https://github.com/IntelLabs/RAG-FiT/tree/square.
Dieses Paper stellt Typhoon T1 vor, einen offenen Versuch zur Entwicklung eines offenen thailändischen Schlussfolgerungsmodells. Ein Schlussfolgerungsmodell ist ein relativ neuer Typ eines generativen Modells, das auf großen Sprachmodellen (LLMs) aufbaut. Ein Schlussfolgerungsmodell generiert eine lange Gedankenkette, bevor es zu einer endgültigen Antwort gelangt, ein Ansatz, der sich als leistungssteigernd bei komplexen Aufgaben erwiesen hat. Allerdings sind die Details zur Entwicklung eines solchen Modells begrenzt, insbesondere für Schlussfolgerungsmodelle, die Spuren in einer ressourcenarmen Sprache generieren können. Typhoon T1 präsentiert einen offenen Versuch, der sich eingehend mit den Details der Entwicklung eines Schlussfolgerungsmodells auf eine kostengünstigere Weise befasst, indem er überwachtes Feintuning unter Verwendung offener Datensätze anstelle von Verstärkungslernen nutzt. Dieses Paper teilt die Details zur Generierung und Schulung synthetischer Daten sowie unseres Datensatzes und Modellgewichte mit. Darüber hinaus bieten wir Einblicke, die wir aus der Entwicklung eines Schlussfolgerungsmodells gewonnen haben, das über Domänen hinweg generalisiert und in der Lage ist, Schlussfolgerungsspuren in einer ressourcenarmen Sprache zu generieren, wobei Thailändisch als Beispiel dient. Wir hoffen, dass dieser offene Versuch eine Grundlage für weitere Forschung in diesem Bereich bietet.
Die Chain-of-Thought verbessert signifikant die Argumentationsfähigkeit eines Modells, geht jedoch auch mit erheblich höheren Inferenzkosten aufgrund langer Ketten einher. Mit der Beobachtung, dass der Argumentationspfad unter einfachen Aufgaben leicht komprimiert werden kann, jedoch bei schwierigen Aufgaben Schwierigkeiten auftreten, untersuchen wir die Machbarkeit, die Länge der Argumentationspfade elastisch mit nur einem Modell zu kontrollieren, um somit die Inferenzüberlastung von Argumentationsmodellen dynamisch basierend auf der Aufgabenschwierigkeit zu reduzieren. Wir stellen eine neue Abstimmungs- und Inferenzstrategie namens CoT-Valve vor, die es Modellen ermöglicht, Argumentationsketten unterschiedlicher Länge zu generieren. Um dies zu erreichen, schlagen wir vor, eine Richtung im Parameterbereich zu identifizieren, die, wenn manipuliert, die Länge des generierten CoT effektiv kontrollieren kann. Darüber hinaus zeigen wir, dass diese Eigenschaft wertvoll ist, um die Argumentationskette zu komprimieren. Wir erstellen Datensätze mit Ketten von lang bis kurz für dieselben Fragen und untersuchen zwei verbesserte Strategien für CoT-Valve: (1) eine präzise längenkomprimierbare CoT-Abstimmungsmethode und (2) einen progressiven Ansatz zur Längenkompression der Kette. Unsere Experimente zeigen, dass CoT-Valve erfolgreich die Steuerbarkeit und Komprimierbarkeit der Kette ermöglicht und eine bessere Leistung als die aufgabenbasierte Steuerung zeigt. Wir haben diese Methode auf QwQ-32B-Preview angewendet, wodurch die Argumentationsketten auf GSM8K von 741 auf 225 Tokens mit einem geringfügigen Leistungsabfall (95,07 % auf 94,92 %) und auf AIME von 6827 auf 4629 Tokens reduziert wurden, wobei nur eine zusätzliche falsche Antwort erfolgte.
Multimodale Einbettungsmodelle haben erhebliche Aufmerksamkeit erlangt, da sie in der Lage sind, Daten aus verschiedenen Modalitäten wie Text und Bilder in einen vereinheitlichten Darstellungsraum abzubilden. Allerdings behindert die begrenzte beschriftete multimodale Datenmenge oft die Einbettungsleistung. Aktuelle Ansätze haben die Datensynthese genutzt, um dieses Problem anzugehen, doch die Qualität synthetischer Daten bleibt ein kritischer Engpass. In dieser Arbeit identifizieren wir drei Kriterien für hochwertige synthetische multimodale Daten. Erstens gewährleistet ein breiter Anwendungsbereich, dass die generierten Daten verschiedene Aufgaben und Modalitäten abdecken und somit für verschiedene nachgelagerte Szenarien anwendbar sind. Zweitens sorgt eine robuste kreuzmodale Ausrichtung dafür, dass verschiedene Modalitäten semantisch konsistent sind. Drittens gewährleistet eine hohe Treue, dass die synthetischen Daten realistische Details beibehalten, um ihre Zuverlässigkeit zu erhöhen. Geführt von diesen Prinzipien synthetisieren wir Datensätze, die: (1) eine Vielzahl von Aufgaben, Modalitätskombinationen und Sprachen abdecken, (2) durch einen tiefgreifenden Denkprozess innerhalb eines einzigen Durchlaufs eines multimodalen großen Sprachmodells generiert werden und (3) reale Bilder mit genauen und relevanten Texten integrieren, um die Treue durch Selbstbewertung und Verfeinerung sicherzustellen. Durch die Nutzung dieser hochwertigen synthetischen und beschrifteten Datensätze trainieren wir ein multimodales mehrsprachiges E5-Modell mmE5. Umfangreiche Experimente zeigen, dass mmE5 eine Spitzenleistung auf dem MMEB-Benchmark erzielt und eine überlegene mehrsprachige Leistung auf dem XTD-Benchmark aufweist. Unsere Codes, Datensätze und Modelle sind unter https://github.com/haon-chen/mmE5 veröffentlicht.
Wir adressieren die Herausforderung, einen generalisierbaren neuronalen Tracking-Regler für geschickte Manipulationen aus menschlichen Referenzen zu entwickeln. Dieser Regler zielt darauf ab, eine geschickte Roboterhand zu verwalten, um diverse Objekte für verschiedene Zwecke zu manipulieren, die durch kinematische Mensch-Objekt-Interaktionen definiert sind. Die Entwicklung eines solchen Reglers wird durch die komplexen Kontaktmechanismen geschickter Manipulationen und die Notwendigkeit von Anpassungsfähigkeit, Generalisierbarkeit und Robustheit erschwert. Aktuelle Methoden des verstärkenden Lernens und der Trajektorienoptimierung stoßen oft an ihre Grenzen, da sie von aufgabenspezifischen Belohnungen oder präzisen Systemmodellen abhängig sind. Wir stellen einen Ansatz vor, der eine Vielzahl erfolgreicher Roboter-Tracking-Demonstrationen kuratiert, bestehend aus Paaren von menschlichen Referenzen und Roboteraktionen, um einen neuronalen Regler zu trainieren. Durch die Nutzung eines Datenfließrades verbessern wir iterativ die Leistung des Reglers sowie die Anzahl und Qualität erfolgreicher Tracking-Demonstrationen. Wir nutzen verfügbare Tracking-Demonstrationen aus und integrieren sorgfältig Verstärkendes Lernen und Imitationslernen, um die Leistung des Reglers in dynamischen Umgebungen zu steigern. Gleichzeitig optimieren wir die Verfolgung pro Trajektorie individuell, indem wir den gelernten Tracking-Regler in einer Homotopie-Optimierungsmethode nutzen. Die Homotopie-Optimierung, die dem Denkprozess ähnelt, hilft dabei, herausfordernde Trajektorienverfolgungsprobleme zu lösen, um die Diversität der Demonstrationen zu erhöhen. Wir präsentieren unseren Erfolg durch das Training eines generalisierbaren neuronalen Reglers und evaluieren ihn sowohl in der Simulation als auch in der realen Welt. Unsere Methode erzielt eine Erfolgsrate von über 10% im Vergleich zu führenden Baselines. Die Projektwebsite mit animierten Ergebnissen ist unter https://meowuu7.github.io/DexTrack/ verfügbar.
Die mathematische Argumentation in Large Language Models (LLMs) wird oft anhand von Benchmarks mit begrenzten numerischen Bereichen bewertet, die es versäumen, Problemlösungen in verschiedenen Maßstäben der realen Welt widerzuspiegeln. Darüber hinaus vergleichen die meisten bestehenden Bewertungsmethoden nur die Modellausgaben mit den richtigen Antworten, was Einblicke in die Argumentationsprozesse verschleiert. Um diese Einschränkungen zu überwinden, stellen wir GSM-Ranges vor, einen Datensatzgenerator, der aus GSM8K abgeleitet ist und systematisch numerische Werte in mathematischen Problemen verändert, um die Modellrobustheit über verschiedene numerische Skalen hinweg zu bewerten. Darüber hinaus schlagen wir eine neue Bewertungsmethodik vor, die zwischen logischen und nicht-logischen Fehlern unterscheidet und so eine präzisere Bewertung der Argumentationsprozesse jenseits der Rechenrichtigkeit ermöglicht. Unsere Experimente mit verschiedenen Modellen zeigen eine signifikante Zunahme der logischen Fehlerquoten um bis zu 14 Prozentpunkte, wenn die numerische Komplexität steigt, was eine allgemeine Schwäche im Argumentieren mit numerischen Werten außerhalb der Verteilung zeigt. Darüber hinaus, während Modelle eine hohe Genauigkeit bei eigenständigen arithmetischen Aufgaben aufweisen, verschlechtert sich ihre Leistung erheblich, wenn Berechnungen in Wortprobleme eingebettet sind. Diese Ergebnisse bieten eine umfassende Bewertung der mathematischen Argumentationsfähigkeiten von LLMs und geben Hinweise auf zukünftige Forschungsrichtungen zur Verbesserung der numerischen Verallgemeinerung in Sprachmodellen.
Das Gestalten von Magie und Illusionen ist einer der faszinierendsten Aspekte der Filmproduktion, wobei visuelle Effekte (VFX) als treibende Kraft hinter unvergesslichen Kinoerlebnissen dienen. Während jüngste Fortschritte in der generativen künstlichen Intelligenz Fortschritte bei der generischen Bild- und Videosynthese vorangetrieben haben, bleibt das Gebiet der steuerbaren VFX-Erzeugung relativ unerforscht. In dieser Arbeit schlagen wir ein neuartiges Paradigma für animierte VFX-Erzeugung als Bildanimation vor, bei der dynamische Effekte aus benutzerfreundlichen textuellen Beschreibungen und statischen Referenzbildern generiert werden. Unsere Arbeit leistet zwei Hauptbeiträge: (i) Open-VFX, den ersten hochwertigen VFX-Video-Datensatz, der 15 verschiedene Effektkategorien umfasst, annotiert mit textuellen Beschreibungen, Instanzsegmentierungsmasken für räumliche Konditionierung und Start-End-Zeitstempeln für zeitliche Steuerung. (ii) VFX Creator, ein einfaches, aber effektives steuerbares VFX-Erzeugungsframework basierend auf einem Video Diffusion Transformer. Das Modell integriert einen räumlichen und zeitlichen steuerbaren LoRA-Adapter, der nur minimale Trainingsvideos erfordert. Insbesondere ermöglicht ein Plug-and-Play-Maskensteuermodul eine räumliche Manipulation auf Instanzebene, während tokenisierte Start-End-Bewegungszeitstempel in den Diffusionsprozess eingebettet sind, zusammen mit dem Text-Encoder, um eine präzise zeitliche Steuerung über Effektzeitpunkt und -tempo zu ermöglichen. Umfangreiche Experimente am Open-VFX-Testset zeigen die Überlegenheit des vorgeschlagenen Systems bei der Erzeugung realistischer und dynamischer Effekte, wodurch eine Spitzenleistung und Generalisierungsfähigkeit sowohl in räumlicher als auch zeitlicher Steuerbarkeit erreicht wird. Darüber hinaus führen wir eine spezialisierte Metrik ein, um die Präzision der zeitlichen Steuerung zu bewerten. Indem wir traditionelle VFX-Techniken mit generativen Ansätzen verbinden, eröffnet VFX Creator neue Möglichkeiten für eine effiziente und hochwertige Videoeffekterzeugung und macht fortschrittliche VFX einem breiteren Publikum zugänglich.
Die latente 3D-Rekonstruktion hat großes Potenzial gezeigt, um das semantische Verständnis von 3D und die 3D-Generierung zu verbessern, indem 2D-Merkmale in den 3D-Raum destilliert werden. Allerdings haben bestehende Ansätze Schwierigkeiten mit der Domänenlücke zwischen dem 2D-Merkmalraum und den 3D-Repräsentationen, was zu einer beeinträchtigten Rendering-Performance führt. Um diese Herausforderung anzugehen, schlagen wir ein neuartiges Framework vor, das 3D-Bewusstsein in den 2D-latenten Raum integriert. Das Framework besteht aus drei Phasen: (1) einer korrespondenzbewussten Autoencoding-Methode, die die 3D-Konsistenz der 2D-latenten Repräsentationen verbessert, (2) einem latenten Strahlungsfeld (LRF), das diese 3D-bewussten 2D-Repräsentationen in den 3D-Raum überführt, und (3) einer VAE-Strahlungsfeld (VAE-RF)-Ausrichtungsstrategie, die die Bilddecodierung aus den gerenderten 2D-Repräsentationen verbessert. Umfangreiche Experimente zeigen, dass unsere Methode die latenten 3D-Rekonstruktionsansätze auf dem neuesten Stand der Technik in Bezug auf Syntheseprofessionalität und die Generalisierbarkeit über verschiedene Innen- und Außenszenen hinweg übertrifft. Unseres Wissens nach ist dies die erste Arbeit, die zeigt, dass die Strahlungsfeld-Repräsentationen, die aus 2D-latenten Repräsentationen konstruiert wurden, eine fotorealistische 3D-Rekonstruktionsleistung erbringen können.
Die industrielle Anomalieerkennung erzielt Fortschritte dank Datensätzen wie MVTec-AD und VisA. Allerdings leiden sie unter Einschränkungen hinsichtlich der Anzahl von defekten Proben, den Arten von Defekten und der Verfügbarkeit von realen Szenen. Diese Beschränkungen hindern Forscher daran, die Leistung der industriellen Erkennung mit höherer Genauigkeit weiter zu erforschen. Zu diesem Zweck schlagen wir einen neuen groß angelegten Anomalieerkennungsdatensatz namens 3CAD vor, der von realen 3C-Produktionslinien abgeleitet ist. Speziell umfasst das vorgeschlagene 3CAD acht verschiedene Arten von hergestellten Teilen, insgesamt 27.039 hochauflösende Bilder, die mit Pixel-Ebene Anomalien gekennzeichnet sind. Die wichtigsten Merkmale von 3CAD sind, dass es anomale Regionen unterschiedlicher Größen, mehrere Anomalietypen und die Möglichkeit mehrerer anomaler Regionen sowie mehrerer Anomalietypen pro anomalem Bild abdeckt. Dies ist der größte und erste Anomalieerkennungsdatensatz, der der Qualitätskontrolle von 3C-Produkten gewidmet ist, um die Erkundung und Entwicklung der Gemeinschaft zu fördern. Gleichzeitig stellen wir ein einfaches, aber effektives Rahmenwerk für die unüberwachte Anomalieerkennung vor: ein Grob-zu-Fein-Erkennungsparadigma mit Wiederherstellungsanleitung (CFRG). Um kleine Defektanomalien zu erkennen, nutzt das vorgeschlagene CFRG ein Grob-zu-Fein-Erkennungsparadigma. Speziell verwenden wir ein heterogenes Destillationsmodell für die grobe Lokalisierung und dann die Feinlokalisierung durch ein Segmentierungsmodell. Darüber hinaus führen wir zur besseren Erfassung normaler Muster Wiederherstellungsmerkmale als Anleitung ein. Abschließend berichten wir über die Ergebnisse unseres CFRG-Rahmens und beliebter Anomalieerkennungsmethoden auf dem 3CAD-Datensatz, die eine starke Wettbewerbsfähigkeit zeigen und einen hoch anspruchsvollen Benchmark zur Förderung der Entwicklung des Anomalieerkennungsfeldes bieten. Daten und Code sind verfügbar unter: https://github.com/EnquanYang2022/3CAD.