Artigos de pesquisa em IA selecionados diariamente com traduções
Propomos um novo referencial financeiro de longo contexto, FailSafeQA, projetado para testar a robustez e a consciência contextual de LLMs contra seis variações nas interações de interface humana em sistemas de perguntas e respostas baseados em LLMs dentro da área financeira. Concentramo-nos em dois estudos de caso: Falha na Pergunta e Falha no Contexto. No cenário de Falha na Pergunta, perturbamos a pergunta original para variar em expertise de domínio, completude e precisão linguística. No caso de Falha no Contexto, simulamos o envio de documentos degradados, irrelevantes e vazios. Empregamos a metodologia LLM-como-Juíz com Qwen2.5-72B-Instruct e utilizamos critérios de avaliação detalhados para definir e calcular pontuações de Robustez, Fundamentação de Contexto e Conformidade para 24 modelos prontos para uso. Os resultados sugerem que, embora alguns modelos se destaquem em mitigar perturbações de entrada, eles devem equilibrar respostas robustas com a capacidade de se abster de alucinações. Notavelmente, o Palmyra-Fin-128k-Instruct, reconhecido como o modelo mais conforme, manteve um desempenho de referência sólido, mas enfrentou desafios em manter previsões robustas em 17% dos casos de teste. Por outro lado, o modelo mais robusto, OpenAI o3-mini, fabricou informações em 41% dos casos testados. Os resultados demonstram que mesmo os modelos de alto desempenho têm um espaço significativo para melhorias e destacam o papel do FailSafeQA como uma ferramenta para desenvolver LLMs otimizados para confiabilidade em aplicações financeiras. O conjunto de dados está disponível em: https://huggingface.co/datasets/Writer/FailSafeQA
Demonstramos que a aprendizagem por reforço aplicada a grandes modelos de linguagem (LLMs) melhora significativamente o desempenho em tarefas complexas de codificação e raciocínio. Além disso, comparamos dois modelos de raciocínio de propósito geral - OpenAI o1 e um checkpoint inicial de o3 - com um sistema específico de domínio, o1-ioi, que utiliza estratégias de inferência projetadas manualmente para competir na Olimpíada Internacional de Informática (IOI) de 2024. Competimos ao vivo na IOI 2024 com o o1-ioi e, utilizando estratégias de teste elaboradas manualmente, ficamos no 49º percentil. Sob condições de competição mais flexíveis, o o1-ioi conquistou uma medalha de ouro. No entanto, ao avaliar modelos posteriores como o o3, observamos que o o3 alcança a medalha de ouro sem estratégias específicas de domínio elaboradas manualmente ou restrições flexíveis. Nossas descobertas mostram que, embora pipelines especializados como o o1-ioi proporcionem melhorias sólidas, o modelo de propósito geral em escala o3 supera esses resultados sem depender de heurísticas de inferência elaboradas manualmente. Notavelmente, o o3 conquista uma medalha de ouro na IOI de 2024 e obtém uma classificação no Codeforces equivalente à de competidores humanos de elite. No geral, esses resultados indicam que a escalabilidade da aprendizagem por reforço de propósito geral, em vez de depender de técnicas específicas de domínio, oferece um caminho robusto em direção à IA de ponta em domínios de raciocínio, como programação competitiva.
O raciocínio é uma capacidade fundamental dos Modelos de Linguagem de Grande Escala. Enquanto pesquisas anteriores se concentram predominantemente em aprimorar habilidades específicas como matemática ou geração de código, melhorar o desempenho em muitas outras tarefas de raciocínio continua sendo desafiador devido à escassez e fragmentação dos dados de treinamento. Para lidar com esse problema, propomos CodeI/O, uma abordagem inovadora que condensa sistematicamente diversos padrões de raciocínio intrinsecamente incorporados em códigos contextualmente fundamentados, transformando o código original em um formato de previsão de entrada e saída de código. Ao treinar modelos para prever entradas/saídas dadas as instruções de código e casos de teste inteiramente em linguagem natural como justificativas de Cadeia de Pensamento (CoT), os expomos a primitivas de raciocínio universais -- como planejamento de fluxo lógico, busca de espaço de estados, travessia de árvore de decisão e decomposição modular -- ao desvincular o raciocínio estruturado da sintaxe específica do código e preservar o rigor procedural. Resultados experimentais demonstram que o CodeI/O leva a melhorias consistentes em tarefas de raciocínio simbólico, científico, lógico, matemático e numérico, e de senso comum. Ao corresponder às saídas de referência existentes ou reexecutar o código com as entradas previstas, podemos verificar cada previsão e aprimorar ainda mais as CoTs por meio de revisões de múltiplas etapas, resultando no CodeI/O++ e alcançando um desempenho superior. Nossos dados e modelos estão disponíveis em https://github.com/hkust-nlp/CodeIO.
A previsão do movimento de ações, uma tarefa fundamental na previsão de séries temporais financeiras, requer a identificação e recuperação de fatores influentes críticos a partir de vastas quantidades de dados de séries temporais. No entanto, os métodos de recuperação existentes baseados em texto ou similaridade numérica não conseguem lidar adequadamente com a análise financeira complexa. Para lidar com isso, propomos o primeiro framework de geração com recuperação (RAG) para previsão de séries temporais financeiras, apresentando três inovações-chave: um modelo de linguagem grande com 1B de parâmetros ajustado finamente (StockLLM) como base, um método de seleção de candidatos inovador que aproveita o feedback do LLM, e um objetivo de treinamento que maximiza a similaridade entre consultas e sequências historicamente significativas. Isso permite que nosso recuperador, FinSeer, descubra padrões significativos enquanto minimiza o ruído em dados financeiros complexos. Também construímos novos conjuntos de dados integrando indicadores financeiros e preços históricos de ações para treinar o FinSeer e garantir uma avaliação robusta. Resultados experimentais demonstram que nosso framework RAG supera o StockLLM básico e a recuperação aleatória, destacando sua eficácia, enquanto o FinSeer supera os métodos de recuperação existentes, alcançando uma precisão 8% maior no BIGDATA22 e recuperando sequências mais impactantes. Este trabalho destaca a importância de modelos de recuperação personalizados na previsão financeira e fornece um framework inovador para pesquisas futuras.
Modelos de raciocínio extenso (LRMs) lidam com problemas complexos de raciocínio seguindo longas cadeias de pensamento (Long CoT) que incorporam reflexão, retrocesso e autovalidação. No entanto, as técnicas de treinamento e os requisitos de dados para evocar o Long CoT permanecem pouco compreendidos. Neste trabalho, descobrimos que um modelo de linguagem extenso (LLM) pode aprender efetivamente o raciocínio Long CoT por meio de ajustes finos supervisionados eficientes em dados (SFT) e adaptação eficiente de baixa patente (LoRA). Com apenas 17 mil amostras de treinamento de Long CoT, o modelo Qwen2.5-32B-Instruct alcança melhorias significativas em uma ampla gama de benchmarks de matemática e codificação, incluindo 56,7% (+40,0%) no AIME 2024 e 57,0% (+8,1%) no LiveCodeBench, competitivo com a pontuação do modelo proprietário o1-preview de 44,6% e 59,1%. Mais importante ainda, descobrimos que a estrutura do Long CoT é fundamental para o processo de aprendizagem, enquanto o conteúdo das etapas individuais de raciocínio tem impacto mínimo. Perturbações que afetam o conteúdo, como treinar em amostras incorretas ou remover palavras-chave de raciocínio, têm pouco impacto no desempenho. Em contraste, modificações estruturais que perturbam a consistência lógica no Long CoT, como embaralhar ou excluir etapas de raciocínio, degradam significativamente a precisão. Por exemplo, um modelo treinado em amostras de Long CoT com respostas incorretas ainda alcança apenas 3,2% a menos de precisão em comparação com o treinamento com amostras totalmente corretas. Essas percepções aprofundam nossa compreensão de como evocar capacidades de raciocínio em LLMs e destacam considerações-chave para treinar eficientemente a próxima geração de modelos de raciocínio. Este é o artigo acadêmico de nosso modelo Sky-T1-32B-Preview lançado anteriormente. Os códigos estão disponíveis em https://github.com/NovaSky-AI/SkyThought.
Neste relatório técnico, apresentamos o Magic 1-For-1 (Magic141), um modelo eficiente de geração de vídeo com consumo de memória otimizado e latência de inferência. A ideia chave é simples: fatorizar a tarefa de geração de texto para vídeo em duas tarefas separadas mais simples para destilação de etapa de difusão, nomeadamente geração de texto para imagem e geração de imagem para vídeo. Verificamos que, com o mesmo algoritmo de otimização, a tarefa de imagem para vídeo é de fato mais fácil de convergir do que a tarefa de texto para vídeo. Também exploramos um conjunto de truques de otimização para reduzir o custo computacional do treinamento dos modelos de imagem para vídeo (I2V) a partir de três aspectos: 1) aceleração da convergência do modelo usando injeção de condição de prior multimodal; 2) aceleração da latência de inferência aplicando uma destilação de etapa adversarial e 3) otimização do custo de memória de inferência com esparsificação de parâmetros. Com essas técnicas, somos capazes de gerar clipes de vídeo de 5 segundos em 3 segundos. Ao aplicar uma janela deslizante de tempo de teste, somos capazes de gerar um vídeo de um minuto em um minuto com qualidade visual e dinâmica de movimento significativamente melhoradas, gastando menos de 1 segundo para gerar clipes de vídeo de 1 segundo em média. Realizamos uma série de explorações preliminares para descobrir o compromisso ideal entre custo computacional e qualidade de vídeo durante a destilação da etapa de difusão e esperamos que este possa ser um bom modelo de base para explorações de código aberto. O código e os pesos do modelo estão disponíveis em https://github.com/DA-Group-PKU/Magic-1-For-1.
Realizamos uma investigação empírica do potencial de pré-treinamento de modelos visão-linguagem em uma escala sem precedentes: 100 bilhões de exemplos. Descobrimos que o desempenho do modelo tende a saturar nessa escala em muitos benchmarks comuns de classificação e recuperação centrados no Ocidente, como COCO Captions. No entanto, tarefas de diversidade cultural obtêm ganhos mais substanciais a partir dos dados da web em escala de 100 bilhões, graças à sua cobertura de conceitos de cauda longa. Além disso, analisamos a multilinguismo do modelo e mostramos ganhos em idiomas de recursos limitados também. Além disso, observamos que a redução do tamanho do conjunto de dados de pré-treinamento por meio de filtros de qualidade, como o uso do CLIP, geralmente utilizado para melhorar o desempenho, pode inadvertidamente reduzir a diversidade cultural representada, mesmo em conjuntos de dados em grande escala. Nossos resultados destacam que, embora benchmarks tradicionais possam não se beneficiar significativamente da escalabilidade de dados brutos e ruidosos da web para 100 bilhões de exemplos, essa escala de dados é vital para a construção de sistemas multimodais verdadeiramente inclusivos.
As leis de escala são tipicamente ajustadas usando uma família de modelos com uma faixa estreita de escolhas de hiperparâmetros fixos. Neste trabalho, estudamos as leis de escala usando uma ampla gama de arquiteturas e escolhas de hiperparâmetros, e destacamos seu impacto nas prescrições resultantes. Como principal artefato de nossa pesquisa, lançamos as Gemstones: o conjunto de dados de leis de escala de código aberto mais abrangente até o momento, composto por mais de 4000 pontos de verificação de transformers com até 2 bilhões de parâmetros; esses modelos foram treinados com diferentes taxas de aprendizado, cronogramas de resfriamento e formatos arquiteturais. Nossos pontos de verificação permitem estudos mais complexos de escalonamento, como uma lei que prevê o desempenho de modelagem de linguagem como uma função da largura e profundidade do modelo. Ao examinar os vários aspectos de nosso conjunto de modelos, descobrimos que as prescrições das leis de escala podem ser altamente sensíveis ao processo de design experimental e aos pontos de verificação de modelo específicos usados durante o ajuste. Código: https://github.com/mcleish7/gemstone-scaling-laws
Ensinar modelos de linguagem grandes (LLMs) a criticar e refinar suas saídas é crucial para construir sistemas que possam melhorar de forma iterativa, no entanto, é fundamentalmente limitado pela capacidade de fornecer julgamentos precisos e sugestões acionáveis. Neste trabalho, estudamos críticos de LLM para geração de código e propomos CTRL, um framework para Treinamento de Crítico via Aprendizado por Reforço, que treina um modelo crítico para gerar feedback que maximize o desempenho de correção para um modelo gerador fixo sem supervisão humana. Nossos resultados demonstram que críticos treinados com CTRL melhoram significativamente as taxas de aprovação e mitigam erros cumulativos em ambos os modelos geradores base e mais fortes. Além disso, mostramos que esses modelos críticos atuam como modelos de recompensa generativos precisos e possibilitam a escalabilidade no momento do teste por meio de crítica-revisão iterativa, alcançando melhorias relativas de até 106,1% em benchmarks desafiadores de geração de código.
A geração de vídeos baseada em DiT tem alcançado resultados notáveis, mas a pesquisa para aprimorar os modelos existentes ainda é relativamente inexplorada. Neste trabalho, apresentamos uma abordagem sem treinamento para aprimorar a coerência e qualidade de vídeos gerados com base em DiT, chamada de Aprimorar-Um-Vídeo. A ideia central é aprimorar as correlações entre quadros com base em distribuições de atenção temporal não diagonais. Graças ao seu design simples, nossa abordagem pode ser facilmente aplicada à maioria dos frameworks de geração de vídeos baseados em DiT sem a necessidade de retrabalho ou ajustes finos. Em diversos modelos de geração de vídeos baseados em DiT, nossa abordagem demonstra melhorias promissoras tanto na consistência temporal quanto na qualidade visual. Esperamos que esta pesquisa possa inspirar futuras explorações no aprimoramento da geração de vídeos.
Os modelos fundamentais revolucionaram o processamento de linguagem natural e a inteligência artificial, aprimorando significativamente a capacidade das máquinas de compreender e gerar idiomas humanos. Inspirados pelo sucesso desses modelos fundamentais, os pesquisadores desenvolveram modelos fundamentais para domínios científicos individuais, incluindo moléculas pequenas, materiais, proteínas, DNA e RNA. No entanto, esses modelos geralmente são treinados de forma isolada, sem a capacidade de integração entre diferentes domínios científicos. Reconhecendo que entidades dentro desses domínios podem ser representadas como sequências, que juntas formam a "linguagem da natureza", apresentamos o Modelo de Linguagem da Natureza (ou NatureLM, em resumo), um modelo fundamental científico baseado em sequências projetado para descobertas científicas. Pré-treinado com dados de múltiplos domínios científicos, o NatureLM oferece um modelo unificado e versátil que possibilita diversas aplicações, incluindo: (i) geração e otimização de moléculas pequenas, proteínas, RNA e materiais usando instruções de texto; (ii) geração/design entre domínios, como proteína para molécula e proteína para RNA; e (iii) alcançando desempenho de ponta em tarefas como tradução de SMILES para IUPAC e retrosíntese em USPTO-50k. O NatureLM oferece uma abordagem generalista promissora para várias tarefas científicas, incluindo descoberta de medicamentos (geração/otimização de hits, otimização de ADMET, síntese), design de novos materiais e desenvolvimento de proteínas ou nucleotídeos terapêuticos. Desenvolvemos modelos NatureLM em diferentes tamanhos (1 bilhão, 8 bilhões e 46,7 bilhões de parâmetros) e observamos uma clara melhoria no desempenho à medida que o tamanho do modelo aumenta.
Devido à escassez de dados de pré-treinamento orientados a agentes, agentes autônomos baseados em LLM geralmente dependem de prompts complexos ou ajustes extensivos, o que frequentemente falha em introduzir novas capacidades mantendo uma forte capacidade de generalização. Apresentamos o Hephaestus-Forge, o primeiro corpus de pré-treinamento em larga escala projetado para aprimorar as capacidades fundamentais de agentes LLM na chamada de funções de API, raciocínio intrínseco e planejamento, e adaptação ao feedback ambiental. O Hephaestus-Forge é composto por 103B de dados específicos do agente abrangendo 76.537 APIs, incluindo documentação de ferramentas para introduzir conhecimento das funções de API e trajetórias de chamada de funções para fortalecer o raciocínio intrínseco. Para explorar protocolos de treinamento eficazes, investigamos leis de escala para identificar a receita ideal em termos de proporções de mistura de dados. Ao continuar o pré-treinamento no Hephaestus-Forge, o Hephaestus supera LLMs de código aberto de pequena a média escala e rivaliza com LLMs comerciais em três benchmarks de agentes, demonstrando a eficácia de nosso corpus de pré-treinamento em aprimorar as capacidades agentes fundamentais e a generalização de LLMs para novas tarefas ou ambientes.
Métodos recentes de geração de imagem para vídeo têm demonstrado sucesso ao permitir o controle sobre um ou dois elementos visuais, como trajetória da câmera ou movimento do objeto. No entanto, esses métodos não conseguem oferecer controle sobre múltiplos elementos visuais devido a limitações nos dados e eficácia da rede. Neste artigo, apresentamos o VidCRAFT3, um novo framework para geração precisa de imagem para vídeo que possibilita o controle simultâneo sobre o movimento da câmera, movimento do objeto e direção da iluminação. Para melhor desacoplar o controle sobre cada elemento visual, propomos o Transformador de Atenção Tripla Espacial, que integra direção da iluminação, texto e imagem de forma simétrica. Como a maioria dos conjuntos de dados de vídeo do mundo real não possui anotações de iluminação, construímos um conjunto de dados de vídeo sintético de alta qualidade, o conjunto de dados VideoLightingDirection (VLD). Este conjunto de dados inclui anotações de direção da iluminação e objetos com aparências diversas, permitindo que o VidCRAFT3 lide eficazmente com fortes efeitos de transmissão e reflexão de luz. Além disso, propomos uma estratégia de treinamento em três etapas que elimina a necessidade de dados de treinamento anotados com múltiplos elementos visuais (movimento da câmera, movimento do objeto e direção da iluminação) simultaneamente. Experimentos extensivos em conjuntos de dados de referência demonstram a eficácia do VidCRAFT3 na produção de conteúdo de vídeo de alta qualidade, superando os métodos existentes de última geração em termos de granularidade de controle e coerência visual. Todo o código e dados estarão disponíveis publicamente. Página do projeto: https://sixiaozheng.github.io/VidCRAFT3/.
Apresentamos Pippo, um modelo generativo capaz de produzir vídeos de rotação densa em resolução 1K de uma pessoa a partir de uma única foto tirada casualmente. Pippo é um transformador de difusão multi-visão e não requer entradas adicionais — por exemplo, um modelo paramétrico ajustado ou parâmetros de câmera da imagem de entrada. Pré-treinamos Pippo em 3 bilhões de imagens humanas sem legendas e realizamos treinamentos intermediário e pós-treinamento em humanos capturados em estúdio. Durante o treinamento intermediário, para absorver rapidamente o conjunto de dados do estúdio, reduzimos o ruído de várias (até 48) visões em baixa resolução e codificamos as câmeras-alvo de forma grosseira usando uma MLP rasa. Durante o pós-treinamento, reduzimos o ruído de menos visões em alta resolução e utilizamos controles alinhados por pixel (por exemplo, âncora espacial e raios de Plucker) para permitir gerações 3D consistentes. Na inferência, propomos uma técnica de viés de atenção que permite ao Pippo gerar simultaneamente mais de 5 vezes o número de visões observadas durante o treinamento. Por fim, também introduzimos uma métrica aprimorada para avaliar a consistência 3D de gerações multi-visão e demonstramos que o Pippo supera os trabalhos existentes na geração de humanos multi-visão a partir de uma única imagem.
Grandes modelos de linguagem (LLMs) frequentemente parecem se destacar em benchmarks públicos, mas essas altas pontuações podem mascarar uma superdependência em pistas superficiais específicas do conjunto de dados, em vez de um verdadeiro entendimento da linguagem. Apresentamos o Detector de Overfitting do Benchmark Camaleão (C-BOD), um framework de meta-avaliação que distorce sistematicamente prompts de benchmarks por meio de uma transformação paramétrica e detecta o overfitting de LLMs. Ao reformular entradas enquanto preserva seu conteúdo semântico e rótulos, o C-BOD expõe se o desempenho de um modelo é impulsionado por padrões memorizados. Avaliado no benchmark MMLU usando 26 principais LLMs, nosso método revela uma degradação média de desempenho de 2,15% sob perturbações modestas, com 20 dos 26 modelos exibindo diferenças estatisticamente significativas. Notavelmente, modelos com maior acurácia de referência exibem maiores diferenças de desempenho sob perturbação, e LLMs maiores tendem a ser mais sensíveis a reformulações, indicando que ambos os casos podem depender excessivamente de padrões fixos de prompts. Em contraste, a família Llama e modelos com menor acurácia de referência mostram degradação insignificante, sugerindo uma dependência reduzida em pistas superficiais. Além disso, o design do C-BOD, que é agnóstico em relação a conjuntos de dados e modelos, permite uma integração fácil em pipelines de treinamento para promover um entendimento mais robusto da linguagem. Nossas descobertas desafiam a comunidade a olhar além das pontuações do ranking e priorizar a resiliência e generalização na avaliação de LLMs.
A grande maioria dos modelos de recuperação depende de produtos internos vetoriais para produzir uma pontuação de relevância entre uma consulta e um documento. Isso naturalmente limita a expressividade da pontuação de relevância que pode ser empregada. Propomos um novo paradigma: em vez de produzir um vetor para representar a consulta, produzimos uma pequena rede neural que atua como uma função de relevância aprendida. Essa pequena rede neural recebe uma representação do documento, neste trabalho usamos um único vetor, e produz uma pontuação de relevância escalar. Para produzir a pequena rede neural, usamos uma hiper-rede, uma rede que produz os pesos de outras redes, como nosso codificador de consulta ou, como chamamos, um Hypencoder. Experimentos em tarefas de busca dentro do domínio mostram que o Hypencoder é capaz de superar significativamente modelos de recuperação densa e tem métricas mais altas do que modelos de reclassificação e modelos uma ordem de grandeza maiores. O Hypencoder também demonstra generalizar bem para tarefas de busca fora do domínio. Para avaliar a extensão das capacidades do Hypencoder, avaliamos um conjunto de tarefas de recuperação difíceis, incluindo recuperação de "ponta da língua" e tarefas de recuperação de instruções, e descobrimos que a lacuna de desempenho aumenta substancialmente em comparação com tarefas de recuperação padrão. Além disso, para demonstrar a praticidade do nosso método, implementamos um algoritmo de busca aproximada e mostramos que nosso modelo é capaz de pesquisar 8,8 milhões de documentos em menos de 60ms.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) enfrentam dificuldades com vídeos longos devido à necessidade de tokens visuais excessivos. Esses tokens excedem massivamente o comprimento de contexto dos MLLMs, resultando em preenchimento por cenas redundantes e irrelevantes para a tarefa. A seleção de cenas é um problema crítico não resolvido: a amostragem esparsa corre o risco de perder detalhes importantes, enquanto a amostragem exaustiva sobrecarrega o modelo com conteúdo irrelevante, levando a uma má compreensão do vídeo. Para resolver esse problema, propomos o prompting em cadeia de cenas (CoS). A ideia principal é enquadrar a seleção de cenas como otimização de prompt visual em tempo de teste, escolhendo cenas adaptativas à compreensão do vídeo pela tarefa semântica, otimizando o alinhamento entre cenas e tarefa. O CoS possui duas partes principais: (1) um mecanismo de resumo de vídeo binário que realiza ancoragem temporal pseudo, descobrindo uma codificação binária para identificar cenas relevantes para a tarefa, e (2) um módulo de co-raciocínio de vídeo que utiliza a codificação binária para associar (aprendendo a alinhar) cenas positivas relevantes para a tarefa com cenas negativas irrelevantes. Ele incorpora as seleções de cenas otimizadas no vídeo original, facilitando o foco no contexto relevante para otimizar a compreensão de vídeos longos. Experimentos em três bases e cinco conjuntos de dados demonstram a eficácia e adaptabilidade do CoS. Código disponível em https://lwpyh.github.io/CoS.
A tecnologia de Reconhecimento Óptico de Caracteres (OCR) é amplamente utilizada para extrair texto de imagens de documentos, facilitando a digitalização eficiente e a recuperação de dados. No entanto, simplesmente extrair texto é insuficiente ao lidar com documentos complexos. Compreender plenamente tais documentos requer uma compreensão de sua estrutura -- incluindo formatação, fórmulas, tabelas e a ordem de leitura de múltiplos blocos e colunas em várias páginas --, bem como informações semânticas para detectar elementos como notas de rodapé e legendas de imagens. Essa compreensão abrangente é crucial para tarefas subsequentes, como recuperação, resposta a perguntas de documentos e curadoria de dados para treinar Modelos de Linguagem Grandes (LLMs) e Modelos de Linguagem Visual (VLMs). Para abordar isso, apresentamos o \'Eclair, uma ferramenta de extração de texto de uso geral projetada especificamente para processar uma ampla gama de tipos de documentos. Dada uma imagem, o \'Eclair é capaz de extrair texto formatado na ordem de leitura, juntamente com caixas delimitadoras e suas classes semânticas correspondentes. Para avaliar minuciosamente essas novas capacidades, apresentamos nosso diversificado benchmark anotado por humanos para OCR em nível de documento e classificação semântica. O \'Eclair alcança precisão de ponta neste benchmark, superando outros métodos em métricas-chave. Além disso, avaliamos o \'Eclair em benchmarks estabelecidos, demonstrando sua versatilidade e robustez em vários padrões de avaliação.
Apresentamos o Goedel-Prover, um modelo de linguagem de grande escala (LLM) de código aberto que alcança o desempenho de ponta (SOTA) na geração automatizada de provas formais para problemas matemáticos. O principal desafio nessa área é a escassez de enunciados e provas matemáticas formalizados, que abordamos das seguintes maneiras. Treinamos formalizadores de enunciados para traduzir problemas matemáticos em linguagem natural do Numina para linguagem formal (Lean 4), criando um conjunto de dados com 1,64 milhão de enunciados formais. LLMs são usados para verificar se os enunciados formais preservam com precisão o conteúdo dos problemas originais em linguagem natural. Em seguida, construímos iterativamente um grande conjunto de dados de provas formais treinando uma série de provadores. Cada provador consegue demonstrar muitos enunciados que os anteriores não conseguiram, e essas novas provas são adicionadas ao conjunto de treinamento para o próximo provador. O provador final supera todos os modelos de código aberto existentes na geração de provas completas. No benchmark miniF2F, ele alcança uma taxa de sucesso de 57,6% (Pass@32), superando o melhor modelo de código aberto anterior em 7,6%. No PutnamBench, o Goedel-Prover resolve com sucesso 7 problemas (Pass@512), ocupando o primeiro lugar no ranking. Além disso, ele gera 29,7 mil provas formais para problemas do Lean Workbook, quase dobrando as 15,7 mil produzidas por trabalhos anteriores.
Os Modelos de Linguagem de Grande Escala (LLMs) são descobertos como sofrendo para recuperar com precisão informações-chave. Para lidar com isso, propomos a Predição Autoregressiva Aprimorada por Máscara (MEAP), um paradigma de treinamento simples, porém eficaz, que integra perfeitamente a Modelagem de Linguagem Mascara (MLM) na Predição do Próximo Token (NTP) para aprimorar as capacidades de recuperação no contexto deste último. Especificamente, o MEAP primeiro mascara aleatoriamente uma pequena fração dos tokens de entrada e em seguida realiza diretamente a predição do próximo token padrão autoregressiva usando um Transformer apenas com decodificador. O MEAP elimina a necessidade de atenção bidirecional ou arquiteturas codificador-decodificador para o MLM, sem acarretar custos computacionais adicionais durante o pré-treinamento ou inferência. Experimentos intensivos demonstram que o MEAP supera substancialmente o NTP em tarefas de recuperação de informações-chave e raciocínio de longo contexto, enquanto se mantém no mesmo nível ou melhor em tarefas de raciocínio de senso comum. Os benefícios do MEAP também se estendem ao ajuste fino supervisionado, onde ele mostra notáveis vantagens em cenários de perda no meio, superando o NTP em 11,77 pontos percentuais. Nossa análise indica que a eficácia do MEAP decorre de sua capacidade de promover pontuações de atenção mais distinguíveis concentrando-se em um conjunto reduzido de tokens não mascarados. Esse mecanismo melhora o foco do modelo em sinais relevantes para a tarefa, ao mesmo tempo que mitiga a influência do contexto periférico. Essas descobertas posicionam o MEAP como um paradigma de treinamento promissor para grandes modelos de linguagem.
O Design Assistido por Computador (CAD) é indispensável em várias indústrias. A edição de CAD baseada em texto, que automatiza a modificação de modelos CAD com base em instruções textuais, possui grande potencial, mas ainda é pouco explorada. Os métodos existentes focam principalmente na geração de variações de design ou na geração de CAD baseada em texto, faltando suporte para controle baseado em texto ou negligenciando modelos CAD existentes como restrições. Apresentamos o CAD-Editor, o primeiro framework para edição de CAD baseada em texto. Para lidar com o desafio de dados de triplos exigentes com correspondência precisa para treinamento, propomos um pipeline automatizado de síntese de dados. Este pipeline utiliza modelos de variação de design para gerar pares de modelos CAD originais e editados e emprega Modelos de Linguagem de Visão Ampliada (LVLMs) para resumir suas diferenças em instruções de edição. Para lidar com a natureza composta da edição de CAD baseada em texto, propomos um framework de localização e preenchimento que decompõe a tarefa em duas sub-tarefas focadas: localizar regiões que requerem modificação e preencher essas regiões com edições apropriadas. Modelos de Linguagem Ampliada (LLMs) servem como a espinha dorsal para ambas as sub-tarefas, aproveitando suas capacidades em compreensão de linguagem natural e conhecimento de CAD. Experimentos mostram que o CAD-Editor alcança desempenho superior tanto quantitativamente quanto qualitativamente.
Para verdadeiramente compreender os modelos de visão, não devemos apenas interpretar as características aprendidas, mas também validar essas interpretações por meio de experimentos controlados. As abordagens atuais ou fornecem características interpretáveis sem a capacidade de testar sua influência causal, ou permitem a edição do modelo sem controles interpretáveis. Apresentamos um framework unificado que utiliza autoencoders esparsos (SAEs) para preencher essa lacuna, permitindo-nos descobrir características visuais interpretáveis por humanos e manipulá-las com precisão para testar hipóteses sobre o comportamento do modelo. Ao aplicar nosso método a modelos de visão de última geração, revelamos diferenças fundamentais nas abstrações semânticas aprendidas por modelos com diferentes objetivos de pré-treinamento. Em seguida, demonstramos o uso prático do nosso framework por meio de intervenções controladas em múltiplas tarefas de visão. Mostramos que os SAEs podem identificar e manipular de forma confiável características visuais interpretáveis sem a necessidade de retreinar o modelo, fornecendo uma ferramenta poderosa para entender e controlar o comportamento dos modelos de visão. Disponibilizamos código, demonstrações e modelos em nosso site do projeto: https://osu-nlp-group.github.io/SAE-V.
O armazenamento em cache de prompts em grandes modelos de linguagem (LLMs) resulta em variações de tempo dependentes dos dados: prompts armazenados em cache são processados mais rapidamente do que prompts não armazenados em cache. Essas diferenças de tempo introduzem o risco de ataques de temporização de canal lateral. Por exemplo, se o cache for compartilhado entre usuários, um atacante poderia identificar prompts em cache a partir de tempos de resposta de API rápidos para aprender informações sobre prompts de outros usuários. Como o armazenamento em cache de prompts pode causar vazamento de privacidade, a transparência em torno das políticas de armazenamento em cache dos provedores de API é importante. Para isso, desenvolvemos e realizamos auditorias estatísticas para detectar o armazenamento em cache de prompts em provedores de API de LLM do mundo real. Detectamos o compartilhamento global de cache entre usuários em sete provedores de API, incluindo a OpenAI, resultando em vazamento potencial de privacidade sobre os prompts dos usuários. Variações de tempo devido ao armazenamento em cache de prompts também podem resultar em vazamento de informações sobre a arquitetura do modelo. Em particular, encontramos evidências de que o modelo de incorporação da OpenAI é um Transformer apenas decodificador, o que anteriormente não era publicamente conhecido.
Os humanos destacam-se na reutilização de conhecimento prévio para enfrentar novos desafios e desenvolver habilidades enquanto resolvem problemas. Esse paradigma torna-se cada vez mais popular no desenvolvimento de agentes autônomos, pois cria sistemas que podem autoevoluir em resposta a novos desafios, como os seres humanos. No entanto, métodos anteriores sofrem com eficiência limitada de treinamento ao expandir novas habilidades e falham em aproveitar totalmente o conhecimento prévio para facilitar a aprendizagem de novas tarefas. Neste artigo, propomos a Expansão e Composição de Habilidades Paramétricas (PSEC), um novo framework projetado para evoluir iterativamente as capacidades dos agentes e abordar eficientemente novos desafios ao manter uma biblioteca de habilidades gerenciável. Esta biblioteca pode integrar progressivamente primitivas de habilidades como módulos de Adaptação de Baixo Rank (LoRA) plug-and-play em ajustes finos eficientes em parâmetros, facilitando a expansão eficiente e flexível de habilidades. Essa estrutura também permite composições diretas de habilidades no espaço de parâmetros, fundindo módulos LoRA que codificam diferentes habilidades, aproveitando informações compartilhadas entre habilidades para programar efetivamente novas habilidades. Com base nisso, propomos um módulo sensível ao contexto para ativar dinamicamente diferentes habilidades para lidar colaborativamente com novas tarefas. Capacitando diversas aplicações, incluindo composição multiobjetivo, mudança de dinâmica e mudança contínua de políticas, os resultados nos benchmarks D4RL, DSRL e DeepMind Control Suite mostram que o PSEC exibe capacidade superior de aproveitar o conhecimento prévio para enfrentar eficientemente novos desafios, além de expandir suas bibliotecas de habilidades para evoluir as capacidades. Website do projeto: https://ltlhuuu.github.io/PSEC/.
Grandes modelos de linguagem revolucionaram o processamento de linguagem natural por meio de pré-treinamento auto-supervisionado em conjuntos de dados massivos. Inspirados por esse sucesso, pesquisadores têm explorado a adaptação desses métodos para fala, discretizando áudio contínuo em tokens usando codecs neurais de áudio. No entanto, abordagens existentes enfrentam limitações, incluindo altas taxas de bits, a perda de informações semânticas ou acústicas, e a dependência de designs multi-codebook ao tentar capturar ambos, o que aumenta a complexidade arquitetônica para tarefas subsequentes. Para enfrentar esses desafios, apresentamos o FocalCodec, um codec eficiente de baixa taxa de bits baseado em modulação focal que utiliza um único codebook binário para comprimir fala entre 0,16 e 0,65 kbps. O FocalCodec oferece desempenho competitivo na ressíntese de fala e conversão de voz em taxas de bits mais baixas do que o estado da arte atual, enquanto lida efetivamente com fala multilíngue e ambientes ruidosos. A avaliação em tarefas subsequentes mostra que o FocalCodec preserva com sucesso informações semânticas e acústicas suficientes, sendo também adequado para modelagem generativa. Amostras de demonstração, código e checkpoints estão disponíveis em https://lucadellalib.github.io/focalcodec-web/.
Modelos de Linguagem de Grande Escala e Modelos de Visão-Linguagem (LLMs/VLMs) estão sendo cada vez mais utilizados em aplicações críticas para a segurança, mas sua tomada de decisão opaca complica a avaliação de riscos e a confiabilidade. A quantificação de incerteza (UQ) ajuda a avaliar a confiança das previsões e permite a abstenção quando a incerteza é alta. A previsão conformal (CP), um método líder em UQ, oferece garantias estatísticas, mas depende de limiares estáticos, que não se adaptam à complexidade da tarefa e às distribuições de dados em evolução, resultando em trade-offs subótimos em precisão, cobertura e informatividade. Para resolver isso, propomos a abstenção conformal aprendível, integrando aprendizado por reforço (RL) com CP para otimizar dinamicamente os limiares de abstenção. Ao tratar os limiares de CP como ações adaptativas, nossa abordagem equilibra múltiplos objetivos, minimizando o tamanho do conjunto de previsões enquanto mantém uma cobertura confiável. Avaliações extensas em diversos benchmarks de LLM/VLM mostram que nosso método supera os Classificadores Menos Ambíguos (LAC) e os Conjuntos de Previsão Adaptativos (APS), melhorando a precisão em até 3,2%, aumentando a AUROC para detecção de alucinações em 22,19%, aprimorando a geração seletiva guiada por incerteza (AUARC) em 21,17% e reduzindo o erro de calibração em 70%-85%. Essas melhorias são consistentes em múltiplos modelos e conjuntos de dados, mantendo consistentemente o objetivo de cobertura de 90%, estabelecendo nossa abordagem como uma solução mais eficaz e flexível para tomada de decisão confiável em aplicações críticas para a segurança. O código está disponível em: {https://github.com/sinatayebati/vlm-uncertainty}.