Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos a série MiniMax-01, que inclui o MiniMax-Text-01 e o MiniMax-VL-01, comparáveis aos modelos de primeira linha, oferecendo capacidades superiores no processamento de contextos mais longos. O cerne reside na atenção relâmpago e sua escalabilidade eficiente. Para maximizar a capacidade computacional, integramos o Modelo de Especialistas (MoE), criando um modelo com 32 especialistas e 456 bilhões de parâmetros totais, dos quais 45,9 bilhões são ativados para cada token. Desenvolvemos uma estratégia paralela otimizada e técnicas de sobreposição de computação-comunicação altamente eficientes para MoE e atenção relâmpago. Essa abordagem nos permite realizar treinamento e inferência eficientes em modelos com centenas de bilhões de parâmetros em contextos que abrangem milhões de tokens. A janela de contexto do MiniMax-Text-01 pode atingir até 1 milhão de tokens durante o treinamento e se estender para 4 milhões de tokens durante a inferência a um custo acessível. Nosso modelo visão-linguagem, MiniMax-VL-01, é construído por meio de treinamento contínuo com 512 bilhões de tokens visão-linguagem. Experimentos em benchmarks padrão e internos mostram que nossos modelos igualam o desempenho de modelos de última geração como GPT-4o e Claude-3.5-Sonnet, oferecendo uma janela de contexto 20-32 vezes mais longa. Lançamos publicamente o MiniMax-01 em https://github.com/MiniMax-AI.
Derivado de modelos de difusão, o MangaNinjia especializa-se na tarefa de colorização de arte de linha guiada por referência. Incorporamos dois projetos cuidadosos para garantir a transcrição precisa de detalhes de personagens, incluindo um módulo de embaralhamento de patches para facilitar a aprendizagem de correspondência entre a imagem de cor de referência e a arte de linha alvo, e um esquema de controle orientado por pontos para permitir o ajuste de cores detalhado. Experimentos em um benchmark auto-coletado demonstram a superioridade de nosso modelo em relação às soluções atuais em termos de colorização precisa. Mostramos ainda o potencial do proposto controle interativo de pontos no tratamento de casos desafiadores, colorização entre personagens, harmonização multi-referência, além do alcance dos algoritmos existentes.
A crescente demanda por saídas controláveis na geração de texto para imagem tem impulsionado avanços significativos na geração multi-instantânea (MIG), permitindo aos usuários definir tanto layouts de instâncias quanto atributos. Atualmente, os métodos de ponta em MIG são principalmente baseados em adaptadores. No entanto, esses métodos exigem o retreinamento de um novo adaptador cada vez que um modelo mais avançado é lançado, resultando em um consumo significativo de recursos. Foi introduzida uma metodologia chamada Síntese de Instâncias Desacoplada Dirigida pela Profundidade (3DIS), que desacopla a MIG em duas fases distintas: 1) construção de cena baseada em profundidade e 2) renderização de detalhes com modelos de controle de profundidade amplamente pré-treinados. O método 3DIS requer treinamento de adaptador apenas durante a fase de construção de cena, permitindo que vários modelos realizem a renderização de detalhes sem necessidade de treinamento. Inicialmente, o 3DIS focou em técnicas de renderização utilizando arquiteturas U-Net como SD1.5, SD2 e SDXL, sem explorar o potencial de modelos recentes baseados em DiT como o FLUX. Neste artigo, apresentamos o 3DIS-FLUX, uma extensão do framework 3DIS que integra o modelo FLUX para capacidades de renderização aprimoradas. Especificamente, empregamos o modelo FLUX.1-Depth-dev para geração de imagem controlada por mapa de profundidade e introduzimos um renderizador de detalhes que manipula a Máscara de Atenção no mecanismo de Atenção Conjunta do FLUX com base em informações de layout. Essa abordagem permite a renderização precisa de atributos detalhados de cada instância. Nossos resultados experimentais indicam que o 3DIS-FLUX, aproveitando o modelo FLUX, supera o método original 3DIS, que utilizava SD2 e SDXL, e ultrapassa os métodos de ponta baseados em adaptadores atuais em termos de desempenho e qualidade de imagem. Página do Projeto: https://limuloo.github.io/3DIS/.
Apresentamos o Omni-RGPT, um grande modelo de linguagem multimodal projetado para facilitar a compreensão em nível de região tanto para imagens quanto para vídeos. Para alcançar uma representação consistente da região em dimensões espaço-temporais, introduzimos o Token Mark, um conjunto de tokens que destacam as regiões-alvo dentro do espaço de características visuais. Esses tokens são incorporados diretamente em regiões espaciais usando prompts de região (por exemplo, caixas ou máscaras) e simultaneamente incorporados no prompt de texto para especificar o alvo, estabelecendo uma conexão direta entre os tokens visuais e de texto. Para apoiar ainda mais a compreensão robusta de vídeos sem exigir trilhas, introduzimos uma tarefa auxiliar que orienta o Token Mark aproveitando a consistência dos tokens, permitindo uma interpretação estável da região em todo o vídeo. Além disso, introduzimos um conjunto de dados de instruções de vídeo em nível de região em grande escala (RegVID-300k). O Omni-RGPT alcança resultados de ponta em benchmarks de raciocínio comum baseados em imagens e vídeos, mostrando forte desempenho em tarefas de legenda e compreensão de expressões de referência.
Os modelos de difusão são amplamente utilizados para geração de imagens e vídeos, mas seu processo iterativo de geração é lento e dispendioso. Embora abordagens de destilação existentes tenham demonstrado o potencial para geração em um único passo no domínio de imagens, ainda sofrem de degradação significativa na qualidade. Neste trabalho, propomos o Pós-Treinamento Adversarial (APT) contra dados reais seguindo o pré-treinamento de difusão para geração de vídeo em um único passo. Para melhorar a estabilidade e qualidade do treinamento, introduzimos várias melhorias na arquitetura do modelo e nos procedimentos de treinamento, juntamente com um objetivo de regularização R1 aproximado. Empiricamente, nossos experimentos mostram que nosso modelo pós-treinado adversarial, Seaweed-APT, pode gerar vídeos de 2 segundos, 1280x720, 24fps em tempo real usando uma única etapa de avaliação direta. Além disso, nosso modelo é capaz de gerar imagens de 1024px em um único passo, alcançando qualidade comparável aos métodos de ponta.
Os modelos de difusão texto-para-imagem (T2I) dependem de prompts codificados para orientar o processo de geração de imagens. Tipicamente, esses prompts são estendidos para um comprimento fixo adicionando tokens de preenchimento antes da codificação do texto. Apesar de ser uma prática padrão, a influência dos tokens de preenchimento no processo de geração de imagens não foi investigada. Neste trabalho, realizamos a primeira análise aprofundada do papel que os tokens de preenchimento desempenham nos modelos T2I. Desenvolvemos duas técnicas causais para analisar como a informação é codificada na representação dos tokens em diferentes componentes do pipeline T2I. Utilizando essas técnicas, investigamos quando e como os tokens de preenchimento impactam o processo de geração de imagens. Nossas descobertas revelam três cenários distintos: os tokens de preenchimento podem afetar a saída do modelo durante a codificação de texto, durante o processo de difusão, ou serem efetivamente ignorados. Além disso, identificamos relações-chave entre esses cenários e a arquitetura do modelo (atenção cruzada ou autoatenção) e seu processo de treinamento (codificador de texto congelado ou treinado). Essas percepções contribuem para uma compreensão mais profunda dos mecanismos dos tokens de preenchimento, potencialmente informando o design de modelos futuros e práticas de treinamento em sistemas T2I.
Grandes modelos de linguagem destacam-se na interpretação de instruções complexas em linguagem natural, permitindo-lhes realizar uma ampla gama de tarefas. Nas ciências da vida, os dados de sequenciamento de RNA de células únicas (scRNA-seq) servem como a "linguagem da biologia celular", capturando padrões intrincados de expressão gênica no nível de células individuais. No entanto, interagir com essa "linguagem" por meio de ferramentas convencionais frequentemente é ineficiente e pouco intuitivo, apresentando desafios para os pesquisadores. Para lidar com essas limitações, apresentamos o InstructCell, um copiloto de IA multimodal que utiliza linguagem natural como meio para análises de células individuais mais diretas e flexíveis. Construímos um conjunto de dados de instruções multimodais abrangente que associa instruções baseadas em texto com perfis de scRNA-seq de diversos tecidos e espécies. Com base nisso, desenvolvemos uma arquitetura de linguagem celular multimodal capaz de interpretar e processar simultaneamente ambas as modalidades. O InstructCell capacita os pesquisadores a realizar tarefas críticas - como anotação de tipo celular, geração condicional de pseudo-células e previsão de sensibilidade a drogas - usando comandos simples em linguagem natural. Avaliações extensivas demonstram que o InstructCell consistentemente atende ou supera o desempenho de modelos de base de células únicas existentes, adaptando-se a diversas condições experimentais. Mais importante ainda, o InstructCell fornece uma ferramenta acessível e intuitiva para explorar dados complexos de células individuais, reduzindo barreiras técnicas e possibilitando insights biológicos mais profundos.
A edição interativa de imagens permite aos usuários modificar imagens por meio de operações de interação visual, como desenho, clique e arrastar. Métodos existentes constroem esses sinais de supervisão a partir de vídeos, pois capturam como os objetos mudam com várias interações físicas. No entanto, esses modelos geralmente são construídos com base em modelos de difusão de texto para imagem, o que requer (i) enormes amostras de treinamento e (ii) um codificador de referência adicional para aprender dinâmicas do mundo real e consistência visual. Neste artigo, reformulamos essa tarefa como um problema de geração de imagem para vídeo, para herdar poderosos conhecimentos prévios de difusão de vídeo a fim de reduzir custos de treinamento e garantir consistência temporal. Especificamente, apresentamos o FramePainter como uma instância eficiente dessa formulação. Inicializado com Difusão de Vídeo Estável, ele utiliza apenas um codificador de controle esparsamente leve para injetar sinais de edição. Considerando as limitações da atenção temporal em lidar com grandes movimentos entre dois quadros, propomos ainda uma atenção correspondente para ampliar o campo receptivo, ao mesmo tempo que incentivamos uma correspondência densa entre tokens de imagem editados e de origem. Destacamos a eficácia e eficiência do FramePainter em vários sinais de edição: supera significativamente métodos anteriores de ponta com muito menos dados de treinamento, alcançando uma edição altamente contínua e coerente de imagens, como ajustar automaticamente o reflexo da xícara. Além disso, o FramePainter também demonstra uma generalização excepcional em cenários não presentes em vídeos do mundo real, como transformar o peixe-palhaço em uma forma semelhante a um tubarão. Nosso código estará disponível em https://github.com/YBYBZhang/FramePainter.
Apresentamos o PokerBench - um benchmark para avaliar as habilidades de jogo de poker de grandes modelos de linguagem (LLMs). Como os LLMs se destacam em tarefas tradicionais de PNL, sua aplicação a jogos complexos e estratégicos como o poker representa um novo desafio. O poker, um jogo de informação incompleta, exige uma variedade de habilidades como matemática, raciocínio, planejamento, estratégia e uma compreensão profunda da teoria dos jogos e da psicologia humana. Isso torna o poker a próxima fronteira ideal para grandes modelos de linguagem. O PokerBench consiste em uma compilação abrangente de 11.000 cenários mais importantes, divididos entre jogadas pré-flop e pós-flop, desenvolvidos em colaboração com jogadores de poker treinados. Avaliamos modelos proeminentes, incluindo GPT-4, ChatGPT 3.5 e vários modelos das séries Llama e Gemma, constatando que todos os LLMs de última geração têm desempenho inferior ao jogar poker de forma ótima. No entanto, após ajustes finos, esses modelos mostram melhorias significativas. Validamos o PokerBench fazendo com que modelos com diferentes pontuações compitam entre si, demonstrando que pontuações mais altas no PokerBench levam a taxas de vitória mais altas em jogos de poker reais. Através do jogo entre nosso modelo ajustado e o GPT-4, também identificamos limitações do simples ajuste fino supervisionado para aprender estratégias de jogo ótimas, sugerindo a necessidade de metodologias mais avançadas para treinar efetivamente modelos de linguagem para se destacarem em jogos. O PokerBench apresenta assim um benchmark único para uma avaliação rápida e confiável da capacidade de jogar poker dos LLMs, bem como um benchmark abrangente para estudar o progresso dos LLMs em cenários complexos de jogos. O conjunto de dados e o código estarão disponíveis em: https://github.com/pokerllm/pokerbench.
Apesar de sua impressionante capacidade de gerar texto de alta qualidade e fluente, os grandes modelos de linguagem generativos (LLMs) também produzem alucinações: declarações que não estão alinhadas com o conhecimento mundial estabelecido ou com o contexto de entrada fornecido. No entanto, medir a alucinação pode ser desafiador, uma vez que ter humanos verificando as gerações do modelo em tempo real é caro e demorado. Neste trabalho, lançamos o HALoGEN, um amplo benchmark de alucinação composto por: (1) 10.923 prompts para modelos generativos abrangendo nove domínios, incluindo programação, atribuição científica e sumarização, e (2) verificadores automáticos de alta precisão para cada caso de uso que decomponham as gerações do LLM em unidades atômicas e verifiquem cada unidade em relação a uma fonte de conhecimento de alta qualidade. Utilizamos este framework para avaliar ~150.000 gerações de 14 modelos de linguagem, descobrindo que mesmo os modelos com melhor desempenho estão repletos de alucinações (às vezes até 86% dos fatos atômicos gerados, dependendo do domínio). Definimos ainda uma nova classificação de erro para alucinações de LLM com base em se provavelmente derivam de uma recordação incorreta dos dados de treinamento (erros do Tipo A), conhecimento incorreto nos dados de treinamento (erros do Tipo B) ou são fabricações (erros do Tipo C). Esperamos que nosso framework forneça uma base para possibilitar o estudo fundamentado do motivo pelo qual os modelos generativos alucinam e avance no desenvolvimento de grandes modelos de linguagem confiáveis.
Os tokenizadores de imagem formam a base dos modelos generativos modernos de texto para imagem, mas são notoriamente difíceis de treinar. Além disso, a maioria dos modelos existentes de texto para imagem dependem de conjuntos de dados privados em grande escala e de alta qualidade, tornando-os desafiadores de replicar. Neste trabalho, apresentamos o Tokenizador 1-Dimensional Baseado em Transformer Consciente de Texto (TA-TiTok), um tokenizador de imagem eficiente e poderoso que pode utilizar tokens 1-dimensionais discretos ou contínuos. O TA-TiTok integra de forma única informações textuais durante a etapa de decodificação do tokenizador (ou seja, de-tokenização), acelerando a convergência e aprimorando o desempenho. O TA-TiTok também se beneficia de um processo de treinamento simplificado, porém eficaz, de um estágio único, eliminando a necessidade da complexa destilação em dois estágios usada nos tokenizadores 1-dimensionais anteriores. Esse design permite uma escalabilidade perfeita para grandes conjuntos de dados. Com base nisso, apresentamos uma família de Modelos Generativos Mascaramentos de Texto para Imagem (MaskGen), treinados exclusivamente em dados abertos, enquanto alcançam desempenho comparável aos modelos treinados em dados privados. Nosso objetivo é disponibilizar tanto os tokenizadores TA-TiTok eficientes e robustos quanto os modelos MaskGen de dados abertos e pesos abertos para promover um acesso mais amplo e democratizar o campo dos modelos generativos mascarados de texto para imagem.
Apresentamos o Tarsier2, um modelo de linguagem visual de última geração (LVLM) projetado para gerar descrições detalhadas e precisas de vídeos, ao mesmo tempo que demonstra capacidades superiores de compreensão geral de vídeos. O Tarsier2 alcança avanços significativos por meio de três atualizações-chave: (1) Escalonamento dos dados de pré-treinamento de 11M para 40M pares de vídeo-texto, enriquecendo tanto o volume quanto a diversidade; (2) Realização de alinhamento temporal refinado durante o ajuste fino supervisionado; (3) Utilização de amostragem baseada em modelo para construir automaticamente dados de preferência e aplicação de treinamento DPO para otimização. Experimentos extensivos mostram que o Tarsier2-7B supera consistentemente os principais modelos proprietários, incluindo o GPT-4o e o Gemini 1.5 Pro, em tarefas de descrição detalhada de vídeos. No benchmark DREAM-1K, o Tarsier2-7B melhora o F1 em 2,8\% em relação ao GPT-4o e 5,8\% em relação ao Gemini-1.5-Pro. Em avaliações humanas lado a lado, o Tarsier2-7B mostra uma vantagem de desempenho de +8,6\% sobre o GPT-4o e +24,9\% sobre o Gemini-1.5-Pro. O Tarsier2-7B também estabelece novos resultados de última geração em 15 benchmarks públicos, abrangendo tarefas como questionamento-resposta de vídeo, ancoragem de vídeo, teste de alucinação e questionamento-resposta incorporado, demonstrando sua versatilidade como um modelo robusto de linguagem visual generalista.
Os pipelines de interpretabilidade automatizada geram descrições em linguagem natural para os conceitos representados por características em grandes modelos de linguagem (LLMs), como plantas ou a primeira palavra em uma frase. Essas descrições são derivadas usando entradas que ativam a característica, que pode ser uma dimensão ou uma direção no espaço de representação do modelo. No entanto, identificar as entradas ativadoras é custoso, e o papel mecanicista de uma característica no comportamento do modelo é determinado tanto pelo modo como as entradas causam a ativação de uma característica quanto pelo modo como a ativação da característica afeta as saídas. Usando avaliações de direcionamento, revelamos que os pipelines atuais fornecem descrições que não capturam o efeito causal da característica nas saídas. Para corrigir isso, propomos métodos eficientes e centrados nas saídas para gerar automaticamente descrições de características. Esses métodos utilizam os tokens ponderados mais altos após a estimulação da característica ou os tokens de maior peso após a aplicação direta da cabeça de "desincorporação" do vocabulário à característica. Nossas descrições centradas nas saídas capturam melhor o efeito causal de uma característica nas saídas do modelo do que as descrições centradas nas entradas, mas a combinação das duas leva ao melhor desempenho em ambas as avaliações de entrada e saída. Por fim, demonstramos que as descrições centradas nas saídas podem ser usadas para encontrar entradas que ativam características anteriormente consideradas "inativas".
Os modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades notáveis, mas seu sucesso depende fortemente da qualidade dos corpora de pré-treinamento. Para os LLMs chineses, a escassez de conjuntos de dados chineses de alta qualidade representa um desafio significativo, frequentemente limitando seu desempenho. Para lidar com essa questão, propomos o Corpus Chinês OpenCSG, uma série de conjuntos de dados de alta qualidade especificamente projetados para pré-treinamento, pós-treinamento e ajuste fino de LLMs. Este corpus inclui Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese e Smoltalk-chinese, cada um com características distintas: os conjuntos de dados Fineweb-edu focam em conteúdo filtrado e de alta qualidade derivado de diversas fontes da web chinesa; Cosmopedia-chinese fornece dados sintéticos no estilo de livros didáticos para treinamento intensivo em conhecimento; e Smoltalk-chinese enfatiza dados estilísticos e diversos em formato de bate-papo. O Corpus Chinês OpenCSG é caracterizado por seu texto de alta qualidade, cobertura diversificada em diferentes domínios e processos de curadoria de dados escaláveis e reproduzíveis. Além disso, realizamos extensas análises experimentais, incluindo avaliações em modelos com parâmetros menores, que demonstraram melhorias significativas de desempenho em tarefas como C-Eval, destacando a eficácia do corpus para treinar LLMs chineses.
Discursos de ódio e linguagem abusiva são fenômenos globais que necessitam de conhecimento de contexto sociocultural para serem compreendidos, identificados e moderados. No entanto, em muitas regiões do Sul Global, têm sido documentadas várias ocorrências de (1) ausência de moderação e (2) censura devido à dependência da identificação de palavras-chave fora de contexto. Além disso, indivíduos de alto perfil frequentemente estiveram no centro do processo de moderação, enquanto campanhas de discurso de ódio direcionadas a minorias foram negligenciadas. Essas limitações são principalmente devido à falta de dados de alta qualidade nos idiomas locais e à falha em incluir as comunidades locais nos processos de coleta, anotação e moderação. Para abordar esse problema, apresentamos o AfriHate: uma coleção multilíngue de conjuntos de dados de discurso de ódio e linguagem abusiva em 15 idiomas africanos. Cada instância no AfriHate é anotada por falantes nativos familiarizados com a cultura local. Relatamos os desafios relacionados à construção dos conjuntos de dados e apresentamos vários resultados de linha de base de classificação com e sem o uso de LLMs. Os conjuntos de dados, as anotações individuais e os léxicos de discurso de ódio e linguagem ofensiva estão disponíveis em https://github.com/AfriHate/AfriHate
Os avanços rápidos em grandes modelos de linguagem desbloquearam capacidades notáveis quando se trata de processar e resumir dados de texto não estruturados. Isso tem implicações para a análise de conjuntos de dados ricos e abertos, como respostas de pesquisas, onde os LLMs prometem destilar eficientemente temas e sentimentos-chave. No entanto, à medida que as organizações recorrem cada vez mais a esses poderosos sistemas de IA para dar sentido ao feedback textual, surge uma questão crítica: podemos confiar que os LLMs representem com precisão as perspectivas contidas nesses conjuntos de dados baseados em texto? Embora os LLMs se destaquem na geração de resumos semelhantes aos humanos, há o risco de que suas saídas possam inadvertidamente se afastar da verdadeira substância das respostas originais. Discrepâncias entre as saídas geradas pelos LLMs e os temas reais presentes nos dados poderiam levar a tomadas de decisão falhas, com consequências de longo alcance para as organizações. Esta pesquisa investiga a eficácia dos LLMs como modelos de juízes para avaliar o alinhamento temático dos resumos gerados por outros LLMs. Utilizamos um modelo Claude Antropocêntrico para gerar resumos temáticos a partir de respostas de pesquisas abertas, com o Titan Express da Amazon, o Nova Pro e o Llama da Meta atuando como juízes LLM. A abordagem de LLM como juiz foi comparada a avaliações humanas usando o kappa de Cohen, o rho de Spearman e o alfa de Krippendorff, validando uma alternativa escalável aos métodos tradicionais de avaliação centrados no humano. Nossas descobertas revelam que, embora os LLMs como juízes ofereçam uma solução escalável comparável aos avaliadores humanos, os humanos ainda podem se destacar na detecção de nuances sutis e específicas do contexto. Esta pesquisa contribui para o crescente corpo de conhecimento sobre análise de texto assistida por IA. Discutimos limitações e fornecemos recomendações para pesquisas futuras, enfatizando a necessidade de consideração cuidadosa ao generalizar modelos de juízes LLM em vários contextos e casos de uso.
A correspondência de imagens, que tem como objetivo identificar locais de pixels correspondentes entre imagens, é crucial em uma ampla gama de disciplinas científicas, auxiliando no registro, fusão e análise de imagens. Nos últimos anos, os algoritmos de correspondência de imagens baseados em aprendizado profundo superaram drasticamente os humanos na rápida e precisa identificação de grandes quantidades de correspondências. No entanto, ao lidar com imagens capturadas sob diferentes modalidades de imagem que resultam em mudanças significativas de aparência, o desempenho desses algoritmos frequentemente se deteriora devido à escassez de dados de treinamento anotados entre modalidades. Essa limitação prejudica aplicações em diversos campos que dependem de múltiplas modalidades de imagem para obter informações complementares. Para enfrentar esse desafio, propomos um framework de pré-treinamento em larga escala que utiliza sinais de treinamento sintéticos entre modalidades, incorporando dados diversos de várias fontes, para treinar modelos a reconhecer e corresponder estruturas fundamentais entre imagens. Essa capacidade é transferível para tarefas de correspondência de imagens entre modalidades reais e não vistas. Nossa descoberta chave é que o modelo de correspondência treinado com nosso framework alcança uma notável generalização em mais de oito tarefas de registro entre modalidades não vistas usando o mesmo peso de rede, superando substancialmente os métodos existentes, seja projetados para generalização ou adaptados para tarefas específicas. Esse avanço melhora significativamente a aplicabilidade das tecnologias de correspondência de imagens em diversas disciplinas científicas e abre caminho para novas aplicações na análise de inteligência humana e artificial multimodal e além.
A busca pela descoberta científica automatizada tem impulsionado o progresso desde a lógica simbólica até a IA moderna, abrindo novas fronteiras em raciocínio e reconhecimento de padrões. Os Transformers funcionam como sistemas potenciais, nos quais cada relação possível permanece como uma potencialidade latente até que as tarefas imponham restrições, semelhante à medição. No entanto, aprimorar sua amostragem requer mais do que uma seleção probabilística: as soluções devem se conformar a estruturas ou regras específicas, garantindo consistência e a invocação de princípios gerais. Apresentamos o Graph-PReFLexOR (Modelagem de Linguagem Recursiva Baseada em Preferência de Grafo para Otimização Exploratória de Raciocínio), um framework que combina raciocínio em grafo com abstração simbólica para expandir dinamicamente o conhecimento de domínio. Inspirado no aprendizado por reforço, o Graph-PReFLexOR define o raciocínio como um mapeamento estruturado, no qual as tarefas resultam em grafos de conhecimento, padrões abstratos e, por fim, respostas finais. Inspirado na teoria das categorias, ele codifica conceitos como nós e suas relações como arestas, suportando inferência hierárquica e aprendizado adaptativo por meio de representações isomórficas. As demonstrações incluem geração de hipóteses, design de materiais e raciocínio criativo, como descobrir relações entre conceitos mitológicos como 'lugares finos' com ciência de materiais. Propomos uma estratégia de 'crescimento de jardim de conhecimento' que integra insights entre domínios, promovendo conexões interdisciplinares. Resultados com um modelo Graph-PReFLexOR de 3 bilhões de parâmetros mostram maior profundidade e adaptabilidade de raciocínio, destacando o potencial para descobertas transparentes e multidisciplinares impulsionadas por IA. Ele estabelece as bases para soluções gerais de raciocínio autônomo.