Artigos de pesquisa em IA selecionados diariamente com traduções
A Escala de Tempo de Teste (ETT) é um método importante para melhorar o desempenho de Modelos de Linguagem Grandes (MLGs) através do uso de computação adicional durante a fase de inferência. No entanto, os estudos atuais não analisam sistematicamente como os modelos de política, Modelos de Recompensa de Processo (MRPs) e a dificuldade do problema influenciam a ETT. Essa falta de análise limita a compreensão e o uso prático dos métodos de ETT. Neste artigo, focamos em duas questões principais: (1) Qual é a abordagem ideal para escalar a computação de tempo de teste entre diferentes modelos de política, MRPs e níveis de dificuldade do problema? (2) Até que ponto a computação estendida pode melhorar o desempenho dos MLGs em tarefas complexas, e os modelos de linguagem menores podem superar os maiores por meio dessa abordagem? Através de experimentos abrangentes em MATH-500 e desafiadoras tarefas AIME24, temos as seguintes observações: (1) A estratégia de ETT otimizada para computação depende fortemente da escolha do modelo de política, MRP e dificuldade do problema. (2) Com nossa estratégia de ETT otimizada para computação, modelos de política extremamente pequenos podem superar modelos maiores. Por exemplo, um MLG de 1B pode superar um MLG de 405B em MATH-500. Além disso, tanto em MATH-500 quanto em AIME24, um MLG de 0.5B supera o GPT-4o, um MLG de 3B supera um MLG de 405B, e um MLG de 7B vence o1 e DeepSeek-R1, com maior eficiência de inferência. Essas descobertas mostram a importância de adaptar estratégias de ETT às características específicas de cada tarefa e modelo, e indicam que a ETT é uma abordagem promissora para aprimorar as habilidades de raciocínio dos MLGs.
As abordagens existentes para a desintoxicação de texto multilíngue são prejudicadas pela escassez de conjuntos de dados multilíngues paralelos. Neste trabalho, apresentamos um pipeline para a geração de dados de desintoxicação de texto paralelo multilíngue. Também introduzimos o SynthDetoxM, um conjunto de dados de desintoxicação de texto paralelo multilíngue coletado manualmente e gerado sinteticamente, composto por 16.000 pares de frases de desintoxicação de alta qualidade em alemão, francês, espanhol e russo. Os dados foram obtidos de diferentes conjuntos de dados de avaliação de toxicidade e depois reescritos com nove LLMs de código aberto modernos em um ambiente de poucas amostras. Nossos experimentos demonstram que os modelos treinados nos conjuntos de dados sintéticos produzidos têm desempenho superior aos treinados no conjunto de dados MultiParaDetox anotado por humanos, mesmo em um ambiente com poucos dados. Os modelos treinados no SynthDetoxM superam todos os LLMs avaliados em um ambiente de poucas amostras. Disponibilizamos nosso conjunto de dados e código para auxiliar em pesquisas futuras sobre desintoxicação de texto multilíngue.
As habilidades de raciocínio, especialmente aquelas para resolver problemas matemáticos complexos, são componentes cruciais da inteligência geral. Avanços recentes por empresas proprietárias, como os modelos da série o da OpenAI, têm feito progressos notáveis em tarefas de raciocínio. No entanto, os detalhes técnicos completos permanecem não revelados, e as técnicas que se acredita terem sido adotadas são apenas o aprendizado por reforço (RL) e a longa cadeia de pensamentos. Este artigo propõe um novo framework de RL, denominado OREAL, para buscar o limite de desempenho que pode ser alcançado por meio do Aprendizado por Reforço baseado em Resultados para tarefas de raciocínio matemático, onde apenas recompensas de resultado binário são facilmente acessíveis. Demonstramos teoricamente que a clonagem de comportamento em trajetórias positivas a partir da amostragem do melhor de N (BoN) é suficiente para aprender a política ótima regularizada por KL em ambientes de feedback binário. Essa formulação também implica que as recompensas de amostras negativas devem ser remodeladas para garantir a consistência do gradiente entre amostras positivas e negativas. Para aliviar as dificuldades de longa data trazidas pelas recompensas esparsas no RL, que são ainda exacerbadas pela parcial correção da longa cadeia de pensamento em tarefas de raciocínio, aplicamos ainda um modelo de recompensa ao nível de token para amostrar tokens importantes em trajetórias de raciocínio para aprendizado. Com o OREAL, pela primeira vez, um modelo de 7B pode obter uma precisão de 94,0 pass@1 no MATH-500 por meio de RL, estando em pé de igualdade com modelos de 32B. O OREAL-32B também supera os modelos anteriores de 32B treinados por destilação com uma precisão de 95,0 pass@1 no MATH-500. Nossa investigação também indica a importância dos modelos de política inicial e das consultas de treinamento para o RL. O código, modelos e dados serão disponibilizados para beneficiar pesquisas futuras em https://github.com/InternLM/OREAL.
Neste artigo, introduzimos a Maldição da Profundidade, um conceito que destaca, explica e aborda a observação recente em Modelos de Linguagem Grandes (LLMs) modernos, onde quase metade das camadas são menos eficazes do que o esperado. Primeiramente, confirmamos a ampla existência desse fenômeno nas famílias mais populares de LLMs, como Llama, Mistral, DeepSeek e Qwen. Nossa análise, teórica e empiricamente, identifica que a razão subjacente para a ineficácia das camadas profundas em LLMs é o uso generalizado da Normalização Pré-Camada (Pre-LN). Enquanto a Pre-LN estabiliza o treinamento dos LLMs do tipo Transformer, sua variância de saída cresce exponencialmente com a profundidade do modelo, o que causa indesejavelmente que o derivado dos blocos Transformer profundos seja uma matriz identidade e, portanto, contribua pouco para o treinamento. Para resolver essa armadilha de treinamento, propomos o Dimensionamento da Normalização de Camada, que dimensiona a variância da saída da normalização da camada inversamente pela raiz quadrada de sua profundidade. Essa modificação simples mitiga a explosão da variância de saída das camadas Transformer mais profundas, melhorando sua contribuição. Nossos resultados experimentais, abrangendo tamanhos de modelo de 130M a 1B, demonstram que o Dimensionamento da Normalização de Camada melhora significativamente o desempenho de pré-treinamento de LLMs em comparação com a Pre-LN. Além disso, essa melhoria é transferida de forma transparente para o ajuste fino supervisionado. Todos esses ganhos podem ser atribuídos ao fato de que o Dimensionamento da Normalização de Camada permite que as camadas mais profundas contribuam de forma mais eficaz durante o treinamento.
Comunicar em linguagem natural é uma ferramenta poderosa em cenários multiagentes, pois permite que agentes independentes compartilhem informações em ambientes parcialmente observáveis e possibilita a coordenação sem treinamento prévio com humanos. No entanto, a maioria dos trabalhos anteriores é limitada, pois ou dependem de treinamento com grandes quantidades de demonstrações humanas ou carecem da capacidade de gerar estratégias de comunicação naturais e úteis. Neste trabalho, treinamos modelos de linguagem para terem discussões produtivas sobre seu ambiente em linguagem natural sem qualquer demonstração humana. Decomponemos o problema de comunicação em escuta e fala. Nossa ideia principal é aproveitar o objetivo do agente para prever informações úteis sobre o mundo como um sinal de recompensa denso que guia a comunicação. Especificamente, melhoramos as habilidades de escuta de um modelo treinando-o para prever informações sobre o ambiente com base em discussões, e simultaneamente melhoramos as habilidades de fala de um modelo com aprendizado por reforço multiagente, recompensando mensagens com base em sua influência sobre outros agentes. Para investigar o papel e a necessidade da comunicação em ambientes sociais complexos, estudamos um jogo de dedução social incorporado baseado em Among Us, onde a questão chave a responder é a identidade de um impostor adversário. Analisamos comportamentos emergentes devido à nossa técnica, como acusar suspeitos e fornecer evidências, e descobrimos que ela possibilita discussões fortes, dobrando as taxas de vitória em comparação com o RL padrão. Disponibilizamos nosso código e modelos em https://socialdeductionllm.github.io/
A quantização dos pesos do modelo é fundamental para reduzir os custos de comunicação e inferência de modelos grandes. No entanto, quantizar modelos - especialmente para baixas precisões como int4 ou int2 - requer um compromisso na qualidade do modelo; o int2, em particular, é conhecido por degradar severamente a qualidade do modelo. Consequentemente, os profissionais muitas vezes são obrigados a manter múltiplos modelos com diferentes níveis de quantização ou a disponibilizar um único modelo que melhor satisfaça o compromisso entre qualidade e latência. Por outro lado, tipos de dados inteiros, como int8, possuem inerentemente uma estrutura aninhada (Matryoshka) onde inteiros de menor largura de bits, como int4 ou int2, estão aninhados nos bits mais significativos. Este artigo propõe a Quantização Matryoshka (MatQuant), uma técnica de quantização multi-escala inovadora que aborda o desafio de necessitar de múltiplos modelos quantizados. Ela permite treinar e manter apenas um modelo, que pode então ser disponibilizado em diferentes níveis de precisão. Além disso, devido à regularização de co-treinamento e co-destilação fornecida pelo MatQuant, os modelos de precisão int2 extraídos pelo MatQuant podem ser até 10% mais precisos do que a quantização int2 padrão (usando técnicas como QAT ou OmniQuant). Isso representa um progresso significativo na quantização de modelos, demonstrado pelo fato de que, com a mesma receita, um modelo Gemma-2 9B FFN-quantizado em int2 é mais preciso do que um modelo Gemma-2 2B FFN-quantizado em int8.
Este artigo apresenta o Modelo de Memória Ampliada (LM2), uma arquitetura Transformer somente de decodificador aprimorada com um módulo de memória auxiliar que visa abordar as limitações dos Transformers padrão em raciocínio de múltiplas etapas, argumentação relacional e síntese de informações distribuídas em contextos longos. O LM2 proposto incorpora um módulo de memória que atua como um repositório de representações contextuais, interagindo com tokens de entrada por meio de atenção cruzada e atualizando-se por meio de mecanismos de portão. Para preservar as capacidades gerais dos Transformers, o LM2 mantém o fluxo de informações original ao mesmo tempo que integra um caminho de memória complementar. Resultados experimentais no benchmark BABILong demonstram que o modelo LM2 supera tanto o modelo RMT com memória aumentada em 37,1% quanto o modelo de referência Llama-3.2 em 86,3% em média em todas as tarefas. O LM2 exibe capacidades excepcionais em inferência de múltiplos saltos, raciocínio numérico e perguntas e respostas em contextos extensos. No conjunto de dados MMLU, ele alcança uma melhoria de 5,0% em relação a um modelo vanilla pré-treinado, demonstrando que seu módulo de memória não degrada o desempenho em tarefas gerais. Além disso, em nossa análise, exploramos a interpretabilidade da memória, a eficácia dos módulos de memória e o comportamento no tempo de teste. Nossas descobertas enfatizam a importância da memória explícita na melhoria das arquiteturas Transformer.
Os Modelos de Linguagem de Grande Escala (LLMs) avançaram significativamente na geração de código e resolução de problemas. As abordagens atuais empregam depuradores iterativos baseados em ferramentas externas que utilizam feedback em tempo de execução baseado em compilador ou outras ferramentas para refinar programas iniciais gerados por vários métodos. No entanto, a eficácia dessas abordagens depende fortemente da qualidade da geração inicial de código, o que ainda é um desafio em aberto. Neste artigo, apresentamos o CodeSim, um novo framework de geração de código multiagente que aborda de forma abrangente as etapas de síntese de programas - planejamento, codificação e depuração - por meio de uma abordagem de percepção semelhante à humana. Assim como os humanos verificam sua compreensão de algoritmos por meio de simulação visual, o CodeSim apresenta de forma única um método de verificação de plano e depuração interna por meio da simulação passo a passo de entrada/saída. Experimentos extensivos em sete desafiantes benchmarks de resolução de problemas e síntese de programas demonstram as notáveis capacidades de geração de código do CodeSim. Nosso framework alcança novos resultados de estado da arte (pass@1) - (Avaliação Humana 95,1%, MBPP 90,7%, APPS 22% e Concursos de Código 29,1%). Além disso, nosso método mostra potencial para ainda maior aprimoramento quando combinado com depuradores externos. Para facilitar pesquisas e desenvolvimentos adicionais nessa área, disponibilizamos nosso framework de código aberto neste link (https://kagnlp.github.io/codesim.github.io/).
Tem havido um aumento do interesse de pesquisa na construção de modelos unificados de compreensão e geração multimodal, entre os quais o Show-o se destaca como um representante notável, demonstrando grande promessa tanto para a geração de texto para imagem quanto de imagem para texto. A inferência do Show-o envolve progressivamente a remoção de ruídos nos tokens de imagem e a decodificação autoregressiva dos tokens de texto, e, portanto, infelizmente, sofre de problemas de ineficiência de ambos os lados. Este artigo apresenta o Show-o Turbo para preencher essa lacuna. Primeiramente, identificamos uma perspectiva unificada de remoção de ruídos para a geração de imagens e texto no Show-o com base na decodificação paralela dos tokens de texto. Em seguida, propomos estender a destilação de consistência (CD), uma abordagem qualificada para encurtar o processo de remoção de ruídos de modelos de difusão, para as trajetórias multimodais de remoção de ruídos do Show-o. Introduzimos uma estratégia de segmentação de trajetória e um procedimento de aprendizado em currículo para melhorar a convergência do treinamento. Empiricamente, na geração de texto para imagem, o Show-o Turbo exibe uma pontuação de GenEval de 0.625 em 4 etapas de amostragem sem usar orientação livre de classificador (CFG), superando a do Show-o original com 8 etapas e CFG; na geração de imagem para texto, o Show-o Turbo apresenta um aumento de velocidade de 1,5x sem sacrificar significativamente o desempenho. O código está disponível em https://github.com/zhijie-group/Show-o-Turbo.
Apresentamos que o raciocínio hierárquico LLM por meio da escalonamento de modelos de pensamento pode otimizar efetivamente o espaço de busca de raciocínio e superar as capacidades de raciocínio matemático de LLMs poderosos como o OpenAI o1-preview e o DeepSeek V3. Treinamos nosso modelo ReasonFlux-32B com apenas 8 GPUs e introduzimos três inovações: (i) uma biblioteca de modelos de pensamento estruturada e genérica, contendo cerca de 500 modelos de pensamento de alto nível capazes de generalizar para problemas de raciocínio semelhantes ou relevantes; (ii) realizando aprendizado por reforço hierárquico em uma sequência de modelos de pensamento em vez de longos CoTs, otimizando um LLM base para planejar uma trajetória de modelo ideal para lidar gradualmente com problemas complexos; (iii) um novo sistema de escalonamento de inferência que permite o raciocínio hierárquico LLM escalonar adaptativamente modelos de pensamento no momento da inferência. Com uma trajetória de modelo contendo modelos de pensamento sequenciais, nosso ReasonFlux-32B avança significativamente as capacidades de raciocínio matemático para níveis de ponta. Notavelmente, no benchmark MATH, ele alcança uma precisão de 91,2% e supera o o1-preview em 6,7%. No benchmark da Olimpíada de Matemática dos EUA (AIME), o ReasonFlux-32B resolve em média 56,7% dos problemas, superando o o1-preview e o DeepSeek-V3 em 27% e 45%, respectivamente. Código: https://github.com/Gen-Verse/ReasonFlux
Acelerar a inferência em Modelos de Linguagem Grandes (LLMs) é crucial para interações em tempo real, uma vez que foram amplamente incorporados em serviços do mundo real. A decodificação especulativa, uma solução totalmente algorítmica, tem recebido atenção para melhorar a velocidade de inferência ao rascunhar e verificar tokens, gerando assim múltiplos tokens em uma única passagem direta. No entanto, as estratégias de rascunho atuais geralmente exigem ajustes significativos ou têm desempenho inconsistente em diferentes tarefas. Para enfrentar esses desafios, propomos o Rascunho Hierárquico (HD), uma abordagem de rascunho inédita e sem perdas que organiza várias fontes de tokens em múltiplos bancos de dados em um framework hierárquico com base na localidade temporal. Na etapa de rascunho, o HD acessa sequencialmente múltiplos bancos de dados para obter tokens de rascunho da localidade mais alta para a mais baixa, garantindo aceleração consistente em diversas tarefas e minimizando a latência de rascunho. Nossos experimentos no Spec-Bench usando LLMs com 7B e 13B de parâmetros demonstram que o HD supera os métodos de rascunho de bancos de dados existentes, alcançando melhorias robustas na velocidade de inferência em diferentes tamanhos de modelo, tarefas e temperaturas.
Os Agentes de Modelos de Linguagem Grandes (LLM) demonstraram capacidades notáveis em automação de tarefas e tomada de decisões inteligentes, impulsionando a ampla adoção de frameworks de desenvolvimento de agentes como LangChain e AutoGen. No entanto, esses frameworks atendem predominantemente a desenvolvedores com ampla expertise técnica - uma limitação significativa considerando que apenas 0,03% da população global possui as habilidades de programação necessárias. Essa grande lacuna de acessibilidade levanta uma questão fundamental: Podemos capacitar todos, independentemente do conhecimento técnico, a construir seus próprios agentes LLM usando apenas linguagem natural? Para enfrentar esse desafio, apresentamos o MetaChain - um framework Totalmente Automatizado e Altamente Autodesenvolvente que permite aos usuários criar e implantar agentes LLM apenas por meio de Linguagem Natural. Funcionando como um Sistema Operacional de Agente autônomo, o MetaChain é composto por quatro componentes-chave: i) Utilitários do Sistema Agente, ii) Motor de Ação com Potência LLM, iii) Sistema de Arquivos Autogerenciável e iv) Módulo de Customização de Agente Autoplay. Esse sistema leve, porém poderoso, possibilita a criação e modificação eficientes e dinâmicas de ferramentas, agentes e fluxos de trabalho sem requisitos de codificação ou intervenção manual. Além de suas capacidades de desenvolvimento de agentes sem código, o MetaChain também atua como um sistema multiagente versátil para Assistentes de IA Geral. Avaliações abrangentes no benchmark GAIA demonstram a eficácia do MetaChain em tarefas multiagentes generalistas, superando os métodos state-of-the-art existentes. Além disso, as capacidades relacionadas ao Retrieval-Augmented Generation (RAG) do MetaChain têm mostrado consistentemente desempenho superior em comparação com muitas soluções alternativas baseadas em LLM.
Avanços recentes estabeleceram os Transformadores de Difusão (DiTs) como um framework dominante em modelagem generativa. Construindo sobre esse sucesso, o Lumina-Next alcança um desempenho excepcional na geração de imagens fotorrealistas com o Next-DiT. No entanto, seu potencial para geração de vídeos permanece amplamente inexplorado, com desafios significativos na modelagem da complexidade espaço-temporal inerente aos dados de vídeo. Para abordar isso, apresentamos o Lumina-Video, um framework que aproveita os pontos fortes do Next-DiT enquanto introduz soluções personalizadas para síntese de vídeo. O Lumina-Video incorpora uma arquitetura Multi-escala Next-DiT, que aprende conjuntamente múltiplas patchificações para aprimorar tanto a eficiência quanto a flexibilidade. Ao incorporar o escore de movimento como uma condição explícita, o Lumina-Video também possibilita o controle direto do grau dinâmico dos vídeos gerados. Combinado com um esquema de treinamento progressivo com resoluções e FPS cada vez mais altos, e um esquema de treinamento de múltiplas fontes com dados naturais e sintéticos misturados, o Lumina-Video alcança uma notável qualidade estética e suavidade de movimento com alta eficiência de treinamento e inferência. Adicionalmente, propomos o Lumina-V2A, um modelo de vídeo-para-áudio baseado no Next-DiT, para criar sons sincronizados para os vídeos gerados. Os códigos estão disponíveis em https://www.github.com/Alpha-VLLM/Lumina-Video.
Os modelos de visão-linguagem sem codificador existentes (VLMs) estão rapidamente reduzindo a diferença de desempenho com seus equivalentes baseados em codificador, destacando o potencial promissor para sistemas multimodais unificados com simplicidade estrutural e implantação eficiente. Esclarecemos sistematicamente a diferença de desempenho entre os VLMs que utilizam codificadores de visão pré-treinados, tokenizadores discretos e camadas visuais minimalistas a partir do zero, explorando profundamente as características pouco examinadas dos VLMs sem codificador. Desenvolvemos estratégias eficientes para os VLMs sem codificador que rivalizam com os baseados em codificador mainstream. Após uma investigação aprofundada, lançamos o EVEv2.0, uma nova e aprimorada família de VLMs sem codificador. Mostramos que: (i) Decompor adequadamente e associar hierarquicamente visão e linguagem dentro de um modelo unificado reduz a interferência entre modalidades. (ii) Uma estratégia de treinamento bem projetada permite a otimização eficaz para os VLMs sem codificador. Através de uma avaliação extensiva, nosso EVEv2.0 representa um estudo abrangente para o desenvolvimento de uma arquitetura apenas de decodificador entre modalidades, demonstrando eficiência de dados superior e forte capacidade de raciocínio visual. O código está disponível publicamente em: https://github.com/baaivision/EVE.
A orientação sem classificador (CFG) é uma técnica fundamental para melhorar a geração condicional em modelos de difusão, possibilitando um controle mais preciso enquanto aprimora a qualidade das amostras. É natural estender essa técnica para a difusão de vídeo, que gera vídeo condicionado a um número variável de quadros de contexto, referidos coletivamente como histórico. No entanto, encontramos dois desafios-chave ao guiar com histórico de comprimento variável: arquiteturas que suportam apenas condicionamento de tamanho fixo e a observação empírica de que a desistência de histórico no estilo CFG tem um desempenho ruim. Para lidar com isso, propomos o Transformador de Forçamento de Difusão (DFoT), uma arquitetura de difusão de vídeo e um objetivo de treinamento fundamentado teoricamente que permitem condicionar de forma conjunta um número flexível de quadros de histórico. Em seguida, introduzimos a Orientação de Histórico, uma família de métodos de orientação exclusivamente habilitados pelo DFoT. Mostramos que sua forma mais simples, a orientação de histórico baunilha, já melhora significativamente a qualidade de geração de vídeo e a consistência temporal. Um método mais avançado, a orientação de histórico ao longo do tempo e da frequência, aprimora ainda mais a dinâmica do movimento, possibilita generalização composicional para históricos fora da distribuição e pode gerar vídeos extremamente longos de forma estável. Website: https://boyuan.space/history-guidance
Os Modelos de Grande Escala de Visão e Linguagem (LVLMs) conseguem raciocinar de forma eficaz tanto sobre entradas textuais quanto visuais, mas tendem a criar conteúdos sintaticamente coerentes, porém visualmente desconexos. Neste artigo, investigamos a dinâmica interna da alucinação examinando as classificações dos logitos dos tokens ao longo do processo de geração, revelando três padrões-chave na forma como os LVLMs processam informações: (1) perda gradual de informação visual - tokens visualmente fundamentados gradualmente perdem preferência ao longo da geração, e (2) excitação precoce - tokens semanticamente significativos atingem pico de ativação em camadas anteriores do que na camada final. (3) informação genuína oculta - tokens visualmente fundamentados, embora não sejam decididos no final, mantêm classificações relativamente altas na inferência. Com base nessas percepções, propomos o VISTA (Direcionamento de Informação Visual com Augmentação de Logito de Token), um framework de intervenção no tempo de inferência sem necessidade de treinamento que reduz a alucinação enquanto promove informações genuínas. O VISTA funciona combinando duas abordagens complementares: reforçando a informação visual no espaço de ativação e aproveitando ativações em camadas iniciais para promover uma decodificação semanticamente significativa. Comparado aos métodos existentes, o VISTA não requer supervisão externa e é aplicável a várias estratégias de decodificação. Experimentos extensos mostram que o VISTA, em média, reduz a alucinação em cerca de 40% na tarefa de geração aberta avaliada, e consistentemente supera os métodos existentes em quatro benchmarks em quatro arquiteturas sob três estratégias de decodificação.
A geração personalizada alcançou progressos significativos na síntese de imagens, no entanto, a geração de vídeos personalizados ainda é desafiadora devido a inconsistências temporais e degradação de qualidade. Neste artigo, apresentamos o CustomVideoX, um framework inovador que utiliza o transformador de difusão de vídeo para a geração de vídeos personalizados a partir de uma imagem de referência. O CustomVideoX se baseia em redes de vídeo pré-treinadas, treinando exclusivamente os parâmetros LoRA para extrair características de referência, garantindo eficiência e adaptabilidade. Para facilitar a interação contínua entre a imagem de referência e o conteúdo de vídeo, propomos a Atenção de Referência 3D, que permite o envolvimento direto e simultâneo das características da imagem de referência com todos os quadros de vídeo em dimensões espaciais e temporais. Para mitigar a influência excessiva das características da imagem de referência e orientação textual no conteúdo de vídeo gerado durante a inferência, implementamos a estratégia de Viés de Atenção de Referência Consciente do Tempo (TAB), modulando dinamicamente o viés de referência em diferentes etapas temporais. Além disso, introduzimos o módulo de Aprimoramento Consciente da Região da Entidade (ERAE), alinhando regiões altamente ativadas de tokens de entidades-chave com a injeção de características de referência ajustando o viés de atenção. Para avaliar minuciosamente a geração de vídeos personalizados, estabelecemos um novo benchmark, VideoBench, composto por mais de 50 objetos e 100 sugestões para uma avaliação extensiva. Os resultados experimentais mostram que o CustomVideoX supera significativamente os métodos existentes em termos de consistência e qualidade de vídeo.
Apesar da promessa de sintetizar vídeos de alta fidelidade, os Transformadores de Difusão (DiTs) com atenção total em 3D sofrem de inferência dispendiosa devido à complexidade do cálculo de atenção e aos inúmeros passos de amostragem. Por exemplo, o modelo Open-Sora-Plan popular consome mais de 9 minutos para gerar um único vídeo de 29 frames. Este artigo aborda a questão da ineficiência a partir de dois aspectos: 1) Podar a atenção total em 3D com base na redundância nos dados de vídeo; Identificamos um padrão repetitivo em estilo de mosaico prevalente nos mapas de atenção em 3D para dados de vídeo, e defendemos uma nova família de atenção esparsa em 3D que mantém uma complexidade linear em relação ao número de frames de vídeo. 2) Reduzir o processo de amostragem ao adotar a destilação de consistência multi-passos existente; Dividimos toda a trajetória de amostragem em vários segmentos e realizamos a destilação de consistência em cada um para ativar capacidades de geração em poucos passos. Além disso, elaboramos um pipeline de treinamento de três estágios para combinar a atenção de baixa complexidade e as capacidades de geração em poucos passos. Notavelmente, com 0,1% dos dados de pré-treinamento, transformamos o modelo Open-Sora-Plan-1.2 em um eficiente que é de 7,4x a 7,8x mais rápido para geração de vídeo de 29 e 93 frames em 720p com uma compensação de desempenho marginal no VBench. Além disso, demonstramos que nossa abordagem é adequada para inferência distribuída, alcançando um aumento adicional de velocidade de 3,91x ao ser executada em 4 GPUs com paralelismo de sequência.
A abordagem predominante para treinar agentes de navegação na web reúne demonstrações humanas para um conjunto de sites populares e tarefas escritas manualmente, mas está ficando claro que os dados humanos são um recurso ineficiente. Desenvolvemos um pipeline para facilitar o treinamento em escala da Internet para agentes sem anotações humanas trabalhosas. Na primeira etapa, um LLM gera tarefas para 150 mil sites diversos. Na próxima etapa, agentes LLM completam as tarefas e produzem trajetórias. Na etapa final, um LLM revisa as trajetórias e avalia seu sucesso. Modelos de linguagem são competitivos com anotadores humanos, detectando e filtrando conteúdo prejudicial com uma precisão de 97%, gerando tarefas viáveis com uma taxa de 89% e avaliando trajetórias bem-sucedidas com uma precisão de 82,6%. Escalando o pipeline, agentes baseados em Llama 3.1 70B resolvem 16,7% das tarefas para 150 mil sites. O treinamento nos dados gerados por nosso pipeline é competitivo com o treinamento em demonstrações humanas. Em configurações limitadas de dados derivadas do Mind2Web e WebLINX, melhoramos a Precisão do Passo em até +89,5% e +122,1%, respectivamente, para agentes treinados em misturas de dados de nosso pipeline e dados humanos. Ao treinar agentes com todos os dados humanos disponíveis dessas referências, os agentes falham em generalizar para diversos sites reais, e adicionar nossos dados melhora sua generalização em +149,0% para WebLINX e +156,3% para Mind2Web. O código estará disponível em: data-for-agents.github.io.
Avanços recentes na otimização de preferências humanas, originalmente desenvolvidos para Modelos de Linguagem de Grande Escala (LLMs), têm mostrado um potencial significativo em melhorar os modelos de difusão texto-imagem. Esses métodos visam aprender a distribuição de amostras preferidas enquanto as distinguem das menos preferidas. No entanto, conjuntos de dados de preferência existentes frequentemente apresentam sobreposição entre essas distribuições, resultando em uma distribuição conflitante. Além disso, identificamos que as entradas contêm informações irrelevantes para imagens menos preferidas, limitando a capacidade da rede de remoção de ruído de prever com precisão o ruído nos métodos de otimização de preferência, conhecido como o problema do prompt irrelevante. Para enfrentar esses desafios, propomos a Otimização de Preferência de Dupla Legenda (DCPO), uma abordagem inovadora que utiliza duas legendas distintas para mitigar prompts irrelevantes. Para lidar com a distribuição conflitante, introduzimos o conjunto de dados Pick-Double Caption, uma versão modificada do Pick-a-Pic v2 com legendas separadas para imagens preferidas e menos preferidas. Além disso, propomos três estratégias diferentes para gerar legendas distintas: legendagem, perturbação e métodos híbridos. Nossos experimentos mostram que o DCPO melhora significativamente a qualidade e relevância das imagens para os prompts, superando o Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO e MaPO em várias métricas, incluindo Pickscore, HPSv2.1, GenEval, CLIPscore e ImageReward, ajustados com base no SD 2.1 como espinha dorsal.
A geração de texto para 3D automatiza a criação de conteúdo 3D a partir de descrições textuais, o que oferece um potencial transformador em diversos campos. No entanto, os métodos existentes frequentemente enfrentam dificuldades para alinhar o conteúdo gerado com as preferências humanas, limitando sua aplicabilidade e flexibilidade. Para lidar com essas limitações, neste artigo, propomos o DreamDPO, um framework baseado em otimização que integra as preferências humanas no processo de geração 3D, por meio da otimização direta de preferências. Na prática, o DreamDPO primeiro constrói exemplos em pares, em seguida compara seu alinhamento com as preferências humanas usando recompensas ou modelos multimodais extensos e, por fim, otimiza a representação 3D com uma função de perda orientada por preferências. Ao aproveitar a comparação em pares para refletir preferências, o DreamDPO reduz a dependência de avaliações de qualidade pontuais precisas, ao mesmo tempo que possibilita uma controlabilidade refinada por meio da otimização orientada por preferências. Experimentos demonstram que o DreamDPO alcança resultados competitivos e fornece conteúdo 3D de maior qualidade e mais controlável em comparação com os métodos existentes. O código e os modelos serão disponibilizados em código aberto.
O Steel-LLM é um modelo de linguagem centrado na língua chinesa desenvolvido do zero com o objetivo de criar um modelo de alta qualidade e de código aberto, apesar dos recursos computacionais limitados. Lançado em março de 2024, o projeto visava treinar um modelo de 1 bilhão de parâmetros em um conjunto de dados em larga escala, priorizando a transparência e o compartilhamento de insights práticos para auxiliar outros na comunidade. O processo de treinamento concentrou-se principalmente em dados chineses, com uma pequena proporção de dados em inglês incluída, abordando lacunas nos LLMs de código aberto existentes ao fornecer um relato mais detalhado e prático da jornada de construção do modelo. O Steel-LLM demonstrou um desempenho competitivo em benchmarks como CEVAL e CMMLU, superando modelos iniciais de instituições maiores. Este artigo fornece um resumo abrangente das principais contribuições do projeto, incluindo coleta de dados, design do modelo, metodologias de treinamento e os desafios encontrados ao longo do caminho, oferecendo um recurso valioso para pesquisadores e profissionais que buscam desenvolver seus próprios LLMs. Os pontos de verificação do modelo e o script de treinamento estão disponíveis em https://github.com/zhanshijinwat/Steel-LLM.
As técnicas de geração aumentada por contexto (CAG), incluindo RAG e ICL, requerem a combinação eficiente de múltiplos contextos para gerar respostas às consultas dos usuários. Inserir diretamente esses contextos como uma sequência introduz uma considerável carga computacional ao recodificar a seleção combinada de contextos para cada solicitação. Para lidar com isso, exploramos o potencial promissor da codificação paralela para pré-calcular e armazenar em cache independentemente os estados KV de cada contexto. Esse método possibilita o carregamento direto dos estados em cache durante a inferência, ao mesmo tempo que acomoda mais contextos por meio da reutilização de posições entre contextos. No entanto, devido a desalinhamentos na distribuição de atenção, a aplicação direta da codificação paralela resulta em uma queda significativa de desempenho. Para viabilizar a CAG eficaz e eficiente, propomos a Codificação Paralela Adaptativa (APE), que incorpora prefixo compartilhado, temperatura de atenção e fator de escala para alinhar a distribuição da codificação paralela com a codificação sequencial. Resultados em tarefas de RAG e ICL demonstram que o APE pode preservar 98% e 93% do desempenho de codificação sequencial usando as mesmas entradas, superando a codificação paralela em 3,6% e 7,9%, respectivamente. Além disso, ele se adapta à geração de CAG com muitos contextos, codificando efetivamente centenas de contextos em paralelo. A avaliação de eficiência mostra que o APE pode alcançar uma aceleração de 4,5 vezes no processo completo, reduzindo em 28 vezes o tempo de pré-preenchimento para um contexto de 128 mil caracteres.
A descodificação especulativa (SD) acelera a inferência de grandes modelos de linguagem usando um modelo preliminar menor para prever múltiplos tokens, que são então verificados em paralelo pelo modelo alvo maior. No entanto, a capacidade limitada do modelo preliminar muitas vezes requer amostragem baseada em árvore para melhorar a precisão da previsão, onde múltiplos candidatos são gerados em cada etapa. Identificamos uma limitação chave nessa abordagem: os candidatos na mesma etapa são derivados da mesma representação, limitando a diversidade e reduzindo a eficácia geral. Para lidar com isso, propomos o Jakiro, aproveitando a Mistura de Especialistas (MoE), onde especialistas independentes geram previsões diversas, desacoplando efetivamente as correlações entre os candidatos. Além disso, introduzimos uma estratégia de inferência híbrida, combinando descodificação autoregressiva para tokens iniciais com descodificação paralela para estágios subsequentes, e aprimoramos esta última com mecanismo contrastivo em características para melhorar a precisão. Nosso método aumenta significativamente a precisão da previsão e alcança maiores acelerações na inferência. Experimentos extensos em diversos modelos validam a eficácia e robustez de nossa abordagem, estabelecendo um novo estado da arte na descodificação especulativa. Nosso código está disponível em https://github.com/haiduo/Jakiro.
Modelos de robô condicionados à linguagem têm o potencial de permitir que os robôs realizem uma ampla gama de tarefas com base em instruções em linguagem natural. No entanto, avaliar sua segurança e eficácia continua sendo desafiador, pois é difícil testar todas as diferentes maneiras como uma única tarefa pode ser formulada. Os benchmarks atuais têm duas limitações principais: eles dependem de um conjunto limitado de instruções geradas por humanos, deixando de fora muitos casos desafiadores, e focam apenas no desempenho da tarefa sem avaliar a segurança, como evitar danos. Para abordar essas lacunas, introduzimos o Embodied Red Teaming (ERT), um novo método de avaliação que gera instruções diversas e desafiadoras para testar esses modelos. O ERT utiliza técnicas automatizadas de red teaming com Modelos de Linguagem Visual (VLMs) para criar instruções contextualmente fundamentadas e difíceis. Os resultados experimentais mostram que os modelos de robô condicionados à linguagem de última geração falham ou se comportam de forma insegura em instruções geradas pelo ERT, destacando as deficiências dos benchmarks atuais na avaliação do desempenho e da segurança do mundo real. O código e os vídeos estão disponíveis em: https://s-karnik.github.io/embodied-red-team-project-page.
O desenvolvimento de benchmarks de segurança robustos para grandes modelos de linguagem requer conjuntos de dados abertos e reproduzíveis que possam medir tanto a recusa apropriada de conteúdo prejudicial quanto o potencial de super restrição de discurso científico legítimo. Apresentamos um conjunto de dados e estrutura de testes de código aberto para avaliar mecanismos de segurança de LLM principalmente em consultas de substâncias controladas, analisando as respostas de quatro modelos principais a prompts variados de forma sistemática. Nossos resultados revelam perfis de segurança distintos: Claude-3.5-sonnet demonstrou a abordagem mais conservadora com 73% de recusas e 27% de permissões, enquanto Mistral tentou responder a 100% das consultas. GPT-3.5-turbo mostrou restrição moderada com 10% de recusas e 90% de permissões, e Grok-2 registrou 20% de recusas e 80% de permissões. Estratégias de variação de prompts de teste revelaram uma diminuição na consistência de resposta, de 85% com prompts únicos para 65% com cinco variações. Este benchmark publicamente disponível possibilita a avaliação sistemática do equilíbrio crítico entre restrições de segurança necessárias e potencial supercensura de investigação científica legítima, ao mesmo tempo em que fornece uma base para medir o progresso na implementação de segurança em IA. A análise de cadeia de pensamento revela vulnerabilidades potenciais nos mecanismos de segurança, destacando a complexidade de implementar salvaguardas robustas sem restringir indevidamente o discurso científico desejável e válido.