Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos um framework full-stack que amplia a capacidade de raciocínio em modelos de visão e linguagem (VLMs) para vídeos longos, utilizando aprendizado por reforço. Abordamos os desafios únicos do raciocínio em vídeos longos ao integrar três componentes críticos: (1) um conjunto de dados em larga escala, LongVideo-Reason, composto por 52K pares de perguntas e respostas de vídeos longos com anotações de raciocínio de alta qualidade em diversos domínios, como esportes, jogos e vlogs; (2) um pipeline de treinamento em duas etapas que estende os VLMs com ajuste fino supervisionado de cadeia de pensamento (CoT-SFT) e aprendizado por reforço (RL); e (3) uma infraestrutura de treinamento para RL em vídeos longos, denominada Multi-modal Reinforcement Sequence Parallelism (MR-SP), que incorpora paralelismo de sequência e um mecanismo baseado em vLLM adaptado para vídeos longos, utilizando embeddings de vídeo em cache para rollouts e preenchimentos eficientes. Nos experimentos, o LongVILA-R1-7B alcança um desempenho robusto em benchmarks de perguntas e respostas de vídeos longos, como o VideoMME. Ele também supera o Video-R1-7B e até iguala o Gemini-1.5-Pro em raciocínio temporal, raciocínio de objetivo e propósito, raciocínio espacial e raciocínio de enredo em nosso benchmark LongVideo-Reason-eval. Notavelmente, nosso sistema MR-SP alcança uma aceleração de até 2,1x no treinamento de RL para vídeos longos. O LongVILA-R1 demonstra ganhos consistentes de desempenho à medida que o número de quadros de vídeo de entrada aumenta. O LongVILA-R1 representa um passo firme em direção ao raciocínio em vídeos longos em VLMs. Além disso, disponibilizamos publicamente nosso sistema de treinamento, que suporta treinamento de RL em várias modalidades (vídeo, texto e áudio), vários modelos (série VILA e Qwen) e até modelos de geração de imagens e vídeos. Em um único nó A100 (8 GPUs), ele suporta treinamento de RL em vídeos de uma hora de duração (por exemplo, 3.600 quadros / cerca de 256k tokens).
Embora o ajuste fino de modelos de difusão ofereça uma abordagem poderosa para personalizar modelos pré-treinados na geração de objetos específicos, ele frequentemente sofre de sobreajuste quando as amostras de treinamento são limitadas, comprometendo tanto a capacidade de generalização quanto a diversidade das saídas. Este artigo aborda a tarefa desafiadora, porém de maior impacto, de adaptar um modelo de difusão utilizando apenas uma única imagem de conceito, uma vez que a personalização com uma única imagem possui o maior potencial prático. Introduzimos o T-LoRA, uma estrutura de Adaptação de Baixa Ordem Dependente do Timestep, projetada especificamente para a personalização de modelos de difusão. Em nosso trabalho, mostramos que timesteps mais altos na difusão são mais propensos ao sobreajuste do que os mais baixos, exigindo uma estratégia de ajuste fino sensível ao timestep. O T-LoRA incorpora duas inovações principais: (1) uma estratégia de ajuste fino dinâmico que ajusta as atualizações com restrição de ordem com base nos timesteps de difusão, e (2) uma técnica de parametrização de pesos que garante a independência entre os componentes do adaptador por meio de inicialização ortogonal. Experimentos extensivos mostram que o T-LoRA e seus componentes individuais superam o LoRA padrão e outras técnicas de personalização de modelos de difusão. Eles alcançam um equilíbrio superior entre fidelidade ao conceito e alinhamento textual, destacando o potencial do T-LoRA em cenários com dados limitados e recursos restritos. O código está disponível em https://github.com/ControlGenAI/T-LoRA.
Modelos como o OpenAI-o3 pioneiram o raciocínio visual fundamentado ao referenciar dinamicamente regiões visuais, assim como os humanos "pensam com imagens". No entanto, não existe um benchmark para avaliar essas capacidades de forma holística. Para preencher essa lacuna, propomos o TreeBench (Traceable Evidence Evaluation Benchmark), um benchmark diagnóstico construído sobre três princípios: (1) percepção visual focada em alvos sutis em cenas complexas, (2) evidência rastreável via avaliação de caixas delimitadoras, e (3) raciocínio de segunda ordem para testar interações entre objetos e hierarquias espaciais além da simples localização de objetos. Priorizando imagens com objetos densos, inicialmente amostramos 1K imagens de alta qualidade do SA-1B e incorporamos oito especialistas em LMM para anotar manualmente perguntas, opções candidatas e respostas para cada imagem. Após três etapas de controle de qualidade, o TreeBench consiste em 405 pares desafiadores de perguntas e respostas visuais, onde até os modelos mais avançados lutam para superar este benchmark, com nenhum deles atingindo 60% de precisão, por exemplo, o OpenAI-o3 pontua apenas 54,87. Além disso, introduzimos o TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning), um paradigma de treinamento para supervisionar localização e raciocínio conjuntamente com aprendizado por reforço, permitindo localizações precisas e caminhos de raciocínio explicáveis. Inicializado a partir do Qwen2.5-VL-7B, ele melhora o V* Bench (+16,8), o MME-RealWorld (+12,6) e o TreeBench (+13,4), provando que a rastreabilidade é fundamental para avançar o raciocínio fundamentado em visão. O código está disponível em https://github.com/Haochen-Wang409/TreeVGR.
Modelos de linguagem de grande escala (LLMs) para vídeo alcançam uma forte compreensão de vídeo ao aproveitar um grande número de tokens espaço-temporais, mas sofrem com o escalonamento quadrático de computação em relação à contagem de tokens. Para resolver isso, propomos um método de fusão de tokens espaço-temporais sem necessidade de treinamento, denominado STTM. Nossa principal percepção é explorar a redundância local espacial e temporal em dados de vídeo que foi negligenciada em trabalhos anteriores. O STTM primeiro transforma cada quadro em tokens espaciais multi-granulares usando uma busca de grosseiro para refinado sobre uma estrutura de quadtree, em seguida, realiza uma fusão direcionada de pares ao longo da dimensão temporal. Essa abordagem de fusão decomposta supera os métodos existentes de redução de tokens em seis benchmarks de Q&A de vídeo. Notavelmente, o STTM alcança uma aceleração de 2 vezes com apenas uma queda de 0,5% na precisão sob um orçamento de 50% de tokens, e uma aceleração de 3 vezes com apenas uma queda de 2% sob um orçamento de 30%. Além disso, o STTM é agnóstico a consultas, permitindo a reutilização do cache KV em diferentes perguntas para o mesmo vídeo. A página do projeto está disponível em https://www.jshyun.me/projects/sttm.
Os recentes avanços em modelos de linguagem multimodal de grande escala (MLLMs) têm demonstrado capacidades notáveis na integração de visão e linguagem para raciocínios complexos. Enquanto a maioria dos benchmarks existentes avalia modelos em configurações offline com um conjunto fixo de entradas pré-gravadas, apresentamos o OST-Bench, um benchmark projetado para avaliar a compreensão Espaço-Temporal Online a partir da perspectiva de um agente que explora ativamente uma cena. O aspecto Online enfatiza a necessidade de processar e raciocinar sobre observações adquiridas incrementalmente, enquanto o componente Espaço-Temporal requer a integração de entradas visuais atuais com memória histórica para suportar o raciocínio espacial dinâmico. O OST-Bench reflete melhor os desafios da percepção incorporada no mundo real. Construído com base em um pipeline eficiente de coleta de dados, o OST-Bench consiste em 1,4 mil cenas e 10 mil pares de perguntas e respostas coletados do ScanNet, Matterport3D e ARKitScenes. Avaliamos vários MLLMs líderes no OST-Bench e observamos que eles têm desempenho insuficiente em tarefas que exigem raciocínio espaço-temporal complexo. Na configuração online, sua precisão diminui à medida que o horizonte de exploração se estende e a memória cresce. Por meio de análises experimentais adicionais, identificamos padrões comuns de erros entre os modelos e descobrimos que tanto as demandas de raciocínio espacial baseado em pistas complexas quanto os requisitos de recuperação de memória de longo prazo reduzem significativamente o desempenho dos modelos ao longo de dois eixos separados, destacando os principais desafios que devem ser abordados para melhorar o raciocínio incorporado online. Para promover mais pesquisas e desenvolvimentos na área, nossos códigos, conjunto de dados e benchmark estão disponíveis. Nossa página do projeto é: https://rbler1234.github.io/OSTBench.github.io/
Neste artigo, apresentamos o LangSplatV2, que realiza a projeção de características de alta dimensão a 476,2 FPS e consultas de texto de vocabulário aberto em 3D a 384,6 FPS para imagens de alta resolução, proporcionando um aumento de velocidade 42 vezes maior e um ganho de 47 vezes em relação ao LangSplat, juntamente com uma precisão de consulta aprimorada. O LangSplat emprega a técnica de projeção Gaussiana para incorporar características de linguagem 2D do CLIP em 3D, melhorando significativamente a velocidade e aprendendo um campo de linguagem 3D preciso com semântica SAM. Tais avanços nos campos de linguagem 3D são cruciais para aplicações que exigem interação linguística em cenas complexas. No entanto, o LangSplat ainda não alcança desempenho de inferência em tempo real (8,2 FPS), mesmo com GPUs A100 avançadas, limitando severamente sua aplicação mais ampla. Neste artigo, primeiro realizamos uma análise detalhada do tempo do LangSplat, identificando o decodificador pesado como o principal gargalo de velocidade. Nossa solução, o LangSplatV2, assume que cada Gaussiana atua como um código esparso dentro de um dicionário global, levando à aprendizagem de um campo de coeficientes esparsos 3D que elimina completamente a necessidade de um decodificador pesado. Ao aproveitar essa esparsidade, propomos ainda um método eficiente de projeção de coeficientes esparsos com otimização CUDA, renderizando mapas de características de alta dimensão com alta qualidade enquanto incorre apenas no custo de tempo de projeção de uma característica de dimensão ultrabaixa. Nossos resultados experimentais demonstram que o LangSplatV2 não apenas alcança uma precisão de consulta melhor ou competitiva, mas também é significativamente mais rápido. Códigos e demonstrações estão disponíveis em nossa página do projeto: https://langsplat-v2.github.io.
Os vídeos representam inerentemente projeções 2D de um mundo 3D dinâmico. No entanto, nossa análise sugere que os modelos de difusão de vídeo treinados exclusivamente em dados brutos de vídeo frequentemente falham em capturar uma estrutura significativa e geometricamente consciente em suas representações aprendidas. Para preencher essa lacuna entre os modelos de difusão de vídeo e a natureza 3D subjacente do mundo físico, propomos o Geometry Forcing, um método simples, porém eficaz, que incentiva os modelos de difusão de vídeo a internalizar representações latentes 3D. Nossa principal percepção é guiar as representações intermediárias do modelo em direção a uma estrutura geometricamente consciente, alinhando-as com as características de um modelo geométrico de fundo pré-treinado. Para isso, introduzimos dois objetivos de alinhamento complementares: o Alinhamento Angular, que impõe consistência direcional por meio da similaridade de cosseno, e o Alinhamento de Escala, que preserva informações relacionadas à escala ao regredir características geométricas não normalizadas a partir da representação de difusão normalizada. Avaliamos o Geometry Forcing em tarefas de geração de vídeo condicionadas à visão da câmera e à ação. Os resultados experimentais demonstram que nosso método melhora substancialmente a qualidade visual e a consistência 3D em relação aos métodos de linha de base. Página do projeto: https://GeometryForcing.github.io.
Os LLMs estão sendo cada vez mais implantados como agentes, sistemas capazes de planejar, raciocinar e chamar dinamicamente ferramentas externas. No entanto, no raciocínio visual, as abordagens anteriores permanecem amplamente limitadas por fluxos de trabalho predefinidos e conjuntos de ferramentas estáticos. Neste relatório, apresentamos o PyVision, uma estrutura interativa e multi-turn que permite que os MLLMs gerem, executem e refinem de forma autônoma ferramentas baseadas em Python, adaptadas à tarefa em questão, desbloqueando uma resolução de problemas flexível e interpretável. Desenvolvemos uma taxonomia das ferramentas criadas pelo PyVision e analisamos seu uso em um conjunto diversificado de benchmarks. Quantitativamente, o PyVision alcança ganhos consistentes de desempenho, aumentando o GPT-4.1 em +7,8% no V* e o Claude-4.0-Sonnet em +31,1% no VLMsAreBlind-mini. Esses resultados apontam para uma mudança mais ampla: a ferramentaria dinâmica permite que os modelos não apenas usem ferramentas, mas as inventem, avançando em direção a um raciocínio visual mais agentivo.
Uma rede neural pré-treinada pode adaptar sua arquitetura para diferentes entradas sem qualquer ajuste fino? Precisamos de todas as camadas para tarefas simples, e elas são adequadas para tarefas desafiadoras? Descobrimos que as camadas de um modelo de linguagem grande (LLM) pré-treinado podem ser manipuladas como módulos separados para construir um modelo melhor e até mais raso, personalizado para cada amostra de teste. Em particular, cada camada do modelo pré-treinado pode ser ignorada/podada ou repetida várias vezes como redes neurais recorrentes (RNN), e empilhada com outras em ordens arbitrárias, resultando em uma cadeia de camadas (CoLa) por amostra. Este espaço composicional expande consideravelmente o escopo dos trabalhos existentes sobre módulos pré-treinados em loop/recorrentes, poda de camadas ou redes de saída antecipada. Desenvolvemos um protocolo de Monte Carlo Tree Search (MCTS) para explorar e identificar a CoLa ótima para cada amostra de benchmarks de raciocínio matemático e de senso comum. Comparado a um modelo estático de profundidade fixa, a CoLa permite caminhos curtos (pensamento rápido), recorrência da(s) mesma(s) camada(s) (pensamento lento) e a combinação de ambos, oferecendo arquiteturas mais flexíveis e dinâmicas para diferentes entradas. Realizamos uma análise extensa da CoLa otimizada por MCTS, que leva a duas descobertas principais: (1) Para >75% das amostras com previsões corretas pelo LLM original, podemos encontrar CoLa mais curtas, sugerindo um grande espaço para melhorar a eficiência de inferência; (2) Para >60% das amostras com previsões originalmente incorretas, podemos identificar CoLa que alcançam previsões corretas, sugerindo um grande espaço de melhoria de desempenho. Nossos resultados destacam as deficiências de usar uma arquitetura fixa de LLMs pré-treinados para inferência em diferentes amostras e abrem caminho para desbloquear o poder de generalização da adaptação de profundidade no momento do teste.
Apesar dos avanços significativos alcançados nos modelos generativos de vídeo, os métodos atuais de ponta só conseguem produzir vídeos com duração de 5 a 16 segundos, frequentemente rotulados como "vídeos de longa duração". Além disso, vídeos que excedem 16 segundos enfrentam dificuldades para manter aparências consistentes de personagens e layouts de cena ao longo da narrativa. Em particular, vídeos longos com múltiplos sujeitos ainda não conseguem preservar a consistência dos personagens e a coerência dos movimentos. Embora alguns métodos possam gerar vídeos de até 150 segundos, eles frequentemente sofrem com redundância de quadros e baixa diversidade temporal. Trabalhos recentes têm tentado produzir vídeos de longa duração com múltiplos personagens, coerência narrativa e detalhes de alta fidelidade. Estudamos detalhadamente 32 artigos sobre geração de vídeo para identificar componentes arquitetônicos e estratégias de treinamento que consistentemente produzem essas qualidades. Também construímos uma taxonomia abrangente e inovadora dos métodos existentes e apresentamos tabelas comparativas que categorizam os artigos por seus designs arquitetônicos e características de desempenho.
Apesar do progresso incrível nos modelos de linguagem (LMs) nos últimos anos, em grande parte resultante da mudança de modelos especializados projetados para tarefas específicas para modelos gerais baseados em arquiteturas poderosas (por exemplo, o Transformer) que aprendem tudo a partir de dados brutos, etapas de pré-processamento, como tokenização, continuam sendo uma barreira para verdadeiros modelos de base de ponta a ponta. Introduzimos uma coleção de novas técnicas que permitem um mecanismo de segmentação dinâmica que aprende automaticamente estratégias de segmentação dependentes do conteúdo e do contexto, aprendidas em conjunto com o restante do modelo. Incorporar isso em uma rede hierárquica explícita (H-Net) permite substituir o pipeline (implicitamente hierárquico) de tokenização-LM-detokenização por um único modelo aprendido completamente de ponta a ponta. Quando equiparados em termos de computação e dados, uma H-Net com um estágio de hierarquia operando no nível de byte supera um forte modelo de linguagem Transformer operando sobre tokens BPE. Iterar a hierarquia para múltiplos estágios aumenta ainda mais seu desempenho ao modelar múltiplos níveis de abstração, demonstrando uma escalabilidade significativamente melhor com os dados e igualando um Transformer baseado em tokens com o dobro de seu tamanho. H-Nets pré-treinadas em inglês mostram uma robustez significativamente maior no nível de caracteres e aprendem qualitativamente estratégias de segmentação dependentes de dados sem heurísticas ou supervisão explícita. Finalmente, a melhoria da H-Net sobre pipelines tokenizados é ainda maior em idiomas e modalidades com heurísticas de tokenização mais fracas, como chinês e código, ou sequências de DNA (quase 4x de melhoria na eficiência de dados em relação às linhas de base), mostrando o potencial de verdadeiros modelos de ponta a ponta que aprendem e escalam melhor a partir de dados não processados.
Derivar representações visuais compactas e temporalmente conscientes de cenas dinâmicas é essencial para a execução bem-sucedida de tarefas sequenciais de compreensão de cenas, como rastreamento visual e manipulação robótica. Neste artigo, apresentamos o Token Bottleneck (ToBo), um pipeline de aprendizado auto-supervisionado simples, porém intuitivo, que comprime uma cena em um token de gargalo e prevê a cena subsequente usando patches mínimos como dicas. O pipeline ToBo facilita o aprendizado de representações sequenciais de cenas ao codificar de forma conservadora a cena de referência em um token de gargalo compacto durante a etapa de compressão. Na etapa de expansão, guiamos o modelo para capturar a dinâmica temporal ao prever a cena alvo usando o token de gargalo junto com alguns patches alvo como dicas. Esse design incentiva o backbone de visão a incorporar dependências temporais, permitindo assim a compreensão de transições dinâmicas entre cenas. Experimentos extensos em diversas tarefas sequenciais, incluindo propagação de rótulos em vídeo e manipulação robótica em ambientes simulados, demonstram a superioridade do ToBo em relação às baselines. Além disso, a implantação do nosso modelo pré-treinado em robôs físicos confirma sua robustez e eficácia em ambientes do mundo real. Validamos ainda a escalabilidade do ToBo em diferentes escalas de modelos.
Bullshit, conforme conceituado pelo filósofo Harry Frankfurt, refere-se a declarações feitas sem consideração ao seu valor de verdade. Embora trabalhos anteriores tenham explorado alucinações e bajulação em modelos de linguagem de grande escala (LLMs), propomos o bullshit de máquina como um framework conceitual abrangente que pode permitir que pesquisadores caracterizem o fenômeno mais amplo da perda emergente de veracidade em LLMs e esclareçam seus mecanismos subjacentes. Introduzimos o Índice de Bullshit, uma nova métrica que quantifica a indiferença dos LLMs à verdade, e propomos uma taxonomia complementar que analisa quatro formas qualitativas de bullshit: retórica vazia, tergiversação, palavras evasivas e afirmações não verificadas. Realizamos avaliações empíricas no conjunto de dados Marketplace, no conjunto de dados Neutralidade Política e em nosso novo benchmark BullshitEval (2.400 cenários abrangendo 100 assistentes de IA) explicitamente projetado para avaliar o bullshit de máquina. Nossos resultados demonstram que o ajuste fino de modelos com aprendizado por reforço a partir de feedback humano (RLHF) exacerba significativamente o bullshit, e o prompting de cadeia de pensamento (CoT) no momento da inferência amplifica notavelmente formas específicas de bullshit, particularmente retórica vazia e tergiversação. Também observamos bullshit de máquina prevalente em contextos políticos, com palavras evasivas como a estratégia dominante. Nossas descobertas destacam desafios sistemáticos no alinhamento de IA e fornecem novos insights para um comportamento mais veraz em LLMs.
A maioria dos modelos estado da arte de Visão e Linguagem (VLMs) parecem ser limitados pela separabilidade linear de seus embeddings visuais em tarefas de raciocínio abstrato. Este trabalho investiga esse "gargalo de raciocínio linear" introduzindo o Teto de Separabilidade Linear (LSC), o desempenho de um classificador linear simples sobre os embeddings visuais de um VLM. Descobrimos que esse gargalo é generalizado e não decorre de uma percepção deficiente, mas de falhas nos caminhos de raciocínio do modelo de linguagem. Demonstramos que se trata de um problema de alinhamento solucionável. A intervenção necessária, no entanto, depende da tarefa: ativar caminhos existentes é suficiente para conceitos semânticos, enquanto o raciocínio relacional complexo requer a adaptação dos pesos centrais do modelo. Usando o ajuste pós-fixo como controle metodológico, encontramos fortes evidências de poderosos caminhos de raciocínio dormentes dentro dos VLMs. No entanto, para tarefas relacionais complexas que exigem uma adaptação mais profunda, melhorar explicitamente a qualidade da representação faz com que o modelo falhe em novos formatos de prompt, apesar de seus embeddings permanecerem bem separados. Em última análise, este trabalho fornece uma nova perspectiva para a análise de VLMs, mostrando que o raciocínio robusto é uma questão de alinhamento direcionado, e não simplesmente de aprendizado de representação aprimorado.
Os rápidos avanços dos agentes de IA reacenderam a ambição de longa data de utilizá-los para acelerar a descoberta científica. Alcançar esse objetivo requer um profundo entendimento das fronteiras do conhecimento humano. Nesse contexto, o "Exame Final da Humanidade" (HLE, na sigla em inglês) fornece um marco excepcionalmente desafiador para avaliar agentes de IA científicos. Neste trabalho, buscamos construir a arquitetura fundamental para agentes de propósito geral e validar suas capacidades por meio de um desempenho líder no HLE. Para isso, introduzimos o X-Master, um agente de raciocínio aumentado por ferramentas projetado para emular pesquisadores humanos, interagindo de forma flexível com ferramentas externas durante seu processo de raciocínio. Esse agente, guiado pela conceituação do código como uma linguagem de interação, pode aproveitar de forma flexível bibliotecas Python integradas e nossas ferramentas personalizadas para aprimorar o raciocínio. Além disso, escalamos suas capacidades por meio dos X-Masters, um fluxo de trabalho agentivo disperso e empilhado que melhora sistematicamente a amplitude e a profundidade do raciocínio. Nossa solução de código aberto, X-Masters, estabelece um novo recorde de estado da arte no HLE com uma pontuação de 32,1%, superando as pesquisas profundas da OpenAI e do Google (26,6% e 26,9%) e tornando-se a primeira a ultrapassar o limite de 30%. Este trabalho nos permite obter um entendimento mais profundo da resolução de tarefas complexas e acumular experiências valiosas que podem informar avanços futuros, orientando o treinamento subsequente de modelos.
Codecs neurais de áudio e autoencoders surgiram como modelos versáteis para compressão de áudio, transmissão, extração de características e geração de espaços latentes. No entanto, uma limitação fundamental é que a maioria é treinada para maximizar a fidelidade de reconstrução, muitas vezes negligenciando a estrutura latente específica necessária para um desempenho ideal em diversas aplicações subsequentes. Propomos uma estrutura simples e pós-treinamento para abordar isso, modificando o gargalo de um autoencoder pré-treinado. Nosso método introduz um "Re-Gargalo", um gargalo interno treinado exclusivamente por meio de perdas no espaço latente para instilar uma estrutura definida pelo usuário. Demonstramos a eficácia da estrutura em três experimentos. Primeiro, impomos uma ordenação nos canais latentes sem sacrificar a qualidade de reconstrução. Segundo, alinhamos os latentes com embeddings semânticos, analisando o impacto na modelagem de difusão subsequente. Terceiro, introduzimos equivariância, garantindo que uma operação de filtragem no sinal de entrada corresponda diretamente a uma transformação específica no espaço latente. Por fim, nossa estrutura Re-Gargalo oferece uma maneira flexível e eficiente de adaptar as representações de modelos neurais de áudio, permitindo que eles atendam perfeitamente às diversas demandas de diferentes aplicações com um treinamento adicional mínimo.
O paradigma predominante para escalar modelos de linguagem de grande escala (LLMs) envolve treinamento monolítico de ponta a ponta, um processo intensivo em recursos que carece de flexibilidade. Este artigo explora uma abordagem alternativa e construtiva para o desenvolvimento de modelos, baseada na fundação de embeddings de entrada determinísticos e não treináveis. Em trabalhos anteriores [1], estabelecemos que o raciocínio semântico de alto nível pode emergir em Transformers usando embeddings congelados derivados da estrutura visual de glifos Unicode. Aqui, demonstramos que esse substrato representacional fixo atua como uma "porta de acoplamento" universal, permitindo dois paradigmas poderosos e eficientes de escalonamento: composição modular contínua e crescimento progressivo camada por camada. Primeiro, mostramos que modelos especialistas treinados em conjuntos de dados distintos (por exemplo, textos em russo e chinês) podem ser combinados em um único modelo mais capaz de Mistura de Especialistas (MoE), após o treinamento, sem nenhuma modificação arquitetônica. Isso é alcançado simplesmente pela média de seus logits de saída. O modelo MoE resultante exibe melhorias imediatas de desempenho em benchmarks de raciocínio como o MMLU, superando seus especialistas constituintes sem sofrer esquecimento catastrófico. Segundo, introduzimos uma metodologia de treinamento construtivo camada por camada, onde um Transformer profundo é "crescido" pela adição e treinamento progressivo de uma camada por vez. Esse método demonstra convergência estável e uma clara correlação entre a profundidade do modelo e a emergência de habilidades de raciocínio complexo, como as necessárias para o SQuAD. Nossas descobertas sugerem uma mudança de paradigma da otimização monolítica para um modelo mais biológico ou construtivo de desenvolvimento de IA, onde a complexidade é construída incrementalmente e os módulos podem ser compostos livremente. Isso abre novas vias para escalonamento eficiente em termos de recursos, aprendizado contínuo e um ecossistema mais democratizado para a construção de sistemas de IA poderosos. Disponibilizamos todo o código e modelos para facilitar pesquisas futuras.
Compreender o locus da representação semântica em modelos de linguagem de grande escala (LLMs) é crucial para a interpretabilidade e inovação arquitetônica. O paradigma dominante postula que os embeddings de entrada treináveis servem como "vetores de significado" fundamentais. Este artigo desafia essa visão. Construímos modelos Transformer onde a camada de embedding é completamente congelada, com vetores derivados não de dados, mas da estrutura visual dos glifos Unicode. Esses embeddings visuais pré-computados e não semânticos são fixos durante todo o treinamento. Nosso método é compatível com qualquer tokenizador, incluindo um novo tokenizador centrado em Unicode que introduzimos para garantir cobertura universal de texto. Apesar da ausência de embeddings treináveis e semanticamente inicializados, nossos modelos convergem, geram texto coerente e, crucialmente, superam modelos arquitetonicamente idênticos com embeddings treináveis no benchmark de raciocínio MMLU. Atribuímos isso à "interferência representacional" em modelos convencionais, onde a camada de embedding é sobrecarregada com a aprendizagem de características estruturais e semânticas. Nossos resultados indicam que a semântica de alto nível não é inerente aos embeddings de entrada, mas uma propriedade emergente da arquitetura composicional do Transformer e da escala de dados. Isso redefine o papel dos embeddings de contêineres de significado para primitivos estruturais. Disponibilizamos todo o código e modelos para fomentar pesquisas adicionais.