Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos métodos para quantificar como os Modelos de Linguagem de Grande Escala (LLMs) codificam e armazenam informações contextuais, revelando que tokens frequentemente considerados menores (por exemplo, determinantes, pontuação) carregam um contexto surpreendentemente alto. Notavelmente, a remoção desses tokens — especialmente stopwords, artigos e vírgulas — consistentemente degrada o desempenho em MMLU e BABILong-4k, mesmo que apenas tokens irrelevantes sejam removidos. Nossa análise também mostra uma forte correlação entre contextualização e linearidade, onde a linearidade mede o quão próxima a transformação dos embeddings de uma camada para a próxima pode ser aproximada por um mapeamento linear único. Essas descobertas destacam a importância oculta dos tokens de preenchimento na manutenção do contexto. Para exploração adicional, apresentamos o LLM-Microscope, um kit de ferramentas de código aberto que avalia a não linearidade em nível de token, avalia a memória contextual, visualiza as contribuições das camadas intermediárias (por meio de uma versão adaptada do Logit Lens) e mede a dimensionalidade intrínseca das representações. Esse kit de ferramentas ilumina como tokens aparentemente triviais podem ser críticos para o entendimento de longo alcance.
Os Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades excepcionais de compreensão e uma vasta base de conhecimento, sugerindo que os LLMs podem servir como ferramentas eficientes para a geração automatizada de pesquisas. No entanto, pesquisas recentes relacionadas à geração automatizada de pesquisas ainda são limitadas por algumas restrições críticas, como janela de contexto finita, falta de discussão aprofundada de conteúdo e ausência de frameworks de avaliação sistemáticos. Inspirados pelos processos de escrita humana, propomos o SurveyX, um sistema eficiente e organizado para geração automatizada de pesquisas que decompõe o processo de composição de pesquisas em duas fases: as fases de Preparação e Geração. Ao introduzir de forma inovadora a recuperação de referências online, um método de pré-processamento chamado AttributeTree e um processo de repolimento, o SurveyX melhora significativamente a eficácia da composição de pesquisas. Os resultados da avaliação experimental mostram que o SurveyX supera os sistemas existentes de geração automatizada de pesquisas em qualidade de conteúdo (melhoria de 0,259) e qualidade de citações (melhoria de 1,76), aproximando-se do desempenho de especialistas humanos em múltiplas dimensões de avaliação. Exemplos de pesquisas geradas pelo SurveyX estão disponíveis em www.surveyx.cn.
Compreender moléculas é fundamental para entender organismos e impulsionar avanços na descoberta de medicamentos, exigindo conhecimento interdisciplinar em química e biologia. Embora grandes modelos de linguagem molecular tenham alcançado sucesso notável na interpretação de estruturas moleculares, seus conjuntos de dados de instrução são limitados ao conhecimento específico de conjuntos de dados orientados por tarefas e não cobrem plenamente as características fundamentais das moléculas, prejudicando suas habilidades como assistentes moleculares de propósito geral. Para resolver essa questão, propomos o Mol-LLaMA, um grande modelo de linguagem molecular que compreende o conhecimento geral centrado em moléculas por meio de ajuste fino de instruções multimodais. Para isso, projetamos tipos de dados-chave que abrangem as características fundamentais das moléculas, incorporando conhecimento essencial de estruturas moleculares. Além disso, para melhorar a compreensão das características moleculares, introduzimos um módulo que integra informações complementares de diferentes codificadores moleculares, aproveitando as vantagens distintas de diferentes representações moleculares. Nossos resultados experimentais demonstram que o Mol-LLaMA é capaz de compreender as características gerais das moléculas e gerar respostas relevantes às consultas dos usuários com explicações detalhadas, indicando seu potencial como um assistente de propósito geral para análise molecular.
Apresentamos o PhotoDoodle, uma nova estrutura de edição de imagens projetada para facilitar o desenho em fotografias, permitindo que artistas sobreponham elementos decorativos em fotos. O desenho em fotos é desafiador porque os elementos inseridos devem parecer perfeitamente integrados ao fundo, exigindo uma mesclagem realista, alinhamento de perspectiva e coerência contextual. Além disso, o fundo deve ser preservado sem distorções, e o estilo único do artista deve ser capturado de forma eficiente a partir de dados de treinamento limitados. Esses requisitos não são abordados por métodos anteriores que se concentram principalmente na transferência de estilo global ou na restauração regional. O método proposto, PhotoDoodle, emprega uma estratégia de treinamento em duas etapas. Inicialmente, treinamos um modelo de edição de imagens de propósito geral, o OmniEditor, usando dados em larga escala. Posteriormente, ajustamos esse modelo com o EditLoRA utilizando um pequeno conjunto de dados curados pelo artista, composto por pares de imagens "antes e depois", para capturar estilos e técnicas de edição distintos. Para melhorar a consistência nos resultados gerados, introduzimos um mecanismo de reutilização de codificação posicional. Adicionalmente, disponibilizamos um conjunto de dados PhotoDoodle que apresenta seis estilos de alta qualidade. Experimentos extensivos demonstram o desempenho avançado e a robustez do nosso método na edição personalizada de imagens, abrindo novas possibilidades para a criação artística.
Modelos de mundo que preveem mudanças ambientais a partir de ações são essenciais para modelos de direção autônoma com forte generalização. O modelo de mundo de direção predominante é principalmente baseado em modelos de previsão de vídeo. Embora esses modelos possam produzir sequências de vídeo de alta fidelidade com geradores avançados baseados em difusão, eles são limitados por sua duração preditiva e capacidades gerais de generalização. Neste artigo, exploramos resolver esse problema combinando perda de geração com aprendizado de contexto em nível de características no estilo MAE. Em particular, instanciamos esse objetivo com três projetos principais: (1) Uma estrutura mais escalável de Transformador de Difusão (DiT) treinada com uma tarefa adicional de construção de máscaras. (2) Criamos tokens de máscara relacionados à difusão para lidar com as relações difusas entre a reconstrução de máscaras e o processo de difusão generativa. (3) Estendemos a tarefa de construção de máscaras para o domínio espaço-temporal utilizando máscaras em linha para auto-atenção deslocada, em vez de auto-atenção mascarada no MAE. Em seguida, adotamos um módulo de visão cruzada em linha para alinhar com esse design de máscara. Com base nas melhorias acima, propomos o MaskGWM: um Modelo de Mundo de Direção Generalizável incorporado com Reconstrução de Máscara de Vídeo. Nosso modelo contém duas variantes: MaskGWM-long, focada em previsão de longo prazo, e MaskGWM-mview, dedicada à geração multi-visão. Experimentos abrangentes em benchmarks padrão validam a eficácia do método proposto, que inclui validação normal do conjunto de dados Nuscene, rollouts de longo prazo do conjunto de dados OpenDV-2K e validação zero-shot do conjunto de dados Waymo. Métricas quantitativas nesses conjuntos de dados mostram que nosso método melhora significativamente o estado da arte em modelos de mundo de direção.
Este artigo identifica que a má interpretação do contexto pode ser um problema significativo durante o processo de raciocínio de modelos de linguagem de grande escala, desde modelos menores como o Llama3.2-3B-Instruct até os mais avançados, como o DeepSeek-R1. Por exemplo, na frase "10 dólares por quilo", os LLMs podem não reconhecer que "por" significa "para cada", levando a erros de cálculo. Introduzimos uma nova abordagem pós-treinamento chamada **Stick to the Facts (SIFT)** para lidar com isso. O SIFT aproveita o aumento do poder computacional no momento da inferência para fundamentar o raciocínio dos LLMs em contextos. No cerne do SIFT está o *Sticker*, que é gerado pelo próprio modelo para enfatizar explicitamente as informações-chave dentro do contexto. Dado o Sticker selecionado, o SIFT gera duas previsões — uma a partir da consulta original e outra a partir da consulta aumentada com o Sticker. Se elas diferirem, o Sticker é refinado sequencialmente por meio de otimização *forward* (para alinhar melhor os fatos extraídos com a consulta) e geração *inversa* (para se conformar com as tendências inerentes do modelo) para obter resultados de raciocínio mais fiéis. Estudos em diversos modelos (de 3B a 100B+) e benchmarks (por exemplo, GSM8K, MATH-500) revelam melhorias consistentes de desempenho. Notavelmente, o SIFT melhora a precisão pass@1 do DeepSeek-R1 no AIME2024 de 78,33% para **85,67%**, estabelecendo um novo estado da arte na comunidade de código aberto. O código está disponível em https://github.com/zhijie-group/SIFT.
Ligar visualmente pistas correspondentes é uma habilidade crucial no dia a dia, como identificar a mesma pessoa em várias fotos com base em suas pistas, mesmo sem saber quem ela é. Apesar do extenso conhecimento que os modelos visão-linguagem (VLMs) possuem, ainda é amplamente desconhecido se eles são capazes de realizar essa tarefa fundamental. Para abordar isso, introduzimos o VLM^2-Bench, um benchmark projetado para avaliar se os VLMs podem Ligar Visualmente Pistas Correspondentes, com 9 subtarefas e mais de 3.000 casos de teste. Uma avaliação abrangente em oito VLMs de código aberto e o GPT-4o, juntamente com uma análise adicional de vários métodos de prompt no lado da linguagem e no lado da visão, resulta em um total de oito descobertas-chave. Identificamos desafios críticos na capacidade dos modelos de vincular pistas visuais, destacando uma lacuna significativa de desempenho em que até mesmo o GPT-4o fica 34,80% atrás dos humanos. Com base nessas percepções, defendemos (i) aprimorar as capacidades visuais centrais para melhorar a adaptabilidade e reduzir a dependência de conhecimento prévio, (ii) estabelecer princípios mais claros para integrar o raciocínio baseado em linguagem em tarefas centradas na visão para evitar vieses desnecessários, e (iii) mudar os paradigmas de treinamento visão-texto para promover a capacidade dos modelos de estruturar e inferir relações entre pistas visuais de forma independente.
Modelos de linguagem de grande escala (LLMs) demonstraram desempenho notável em tarefas complexas de raciocínio, mas sua eficiência é prejudicada pelos custos substanciais de memória e computação associados à geração de tokens extensos. Neste artigo, propomos o LightThinker, um método inovador que permite que LLMs comprimam dinamicamente pensamentos intermediários durante o raciocínio. Inspirado pelos processos cognitivos humanos, o LightThinker comprime etapas verbosas de pensamento em representações compactas e descarta as cadeias de raciocínio originais, reduzindo significativamente o número de tokens armazenados na janela de contexto. Isso é alcançado ao treinar o modelo sobre quando e como realizar a compressão por meio da construção de dados, mapeamento de estados ocultos para tokens de resumo condensados e criação de máscaras de atenção especializadas. Além disso, introduzimos a métrica de Dependência (Dep) para quantificar o grau de compressão ao medir a dependência de tokens históricos durante a geração. Experimentos extensos em quatro conjuntos de dados e dois modelos mostram que o LightThinker reduz o uso máximo de memória e o tempo de inferência, mantendo uma precisão competitiva. Nosso trabalho fornece uma nova direção para melhorar a eficiência de LLMs em tarefas complexas de raciocínio sem sacrificar o desempenho. O código será disponibilizado em https://github.com/zjunlp/LightThinker.
Aumentar o comprimento efetivo do contexto é essencial para o avanço dos grandes modelos de linguagem (LLMs) em direção à inteligência artificial geral (AGI). No entanto, o aumento quadrático na complexidade computacional inerente aos mecanismos tradicionais de atenção representa uma sobrecarga proibitiva. As abordagens existentes ou impõem estruturas fortemente tendenciosas, como a atenção de sumidouro ou janela, que são específicas para tarefas, ou modificam radicalmente o mecanismo de atenção em aproximações lineares, cujo desempenho em tarefas complexas de raciocínio permanece insuficientemente explorado. Neste trabalho, propomos uma solução que adere ao princípio de "menos estrutura", permitindo que o modelo determine onde atender de forma autônoma, em vez de introduzir vieses predefinidos. Apresentamos a Mixture of Block Attention (MoBA), uma abordagem inovadora que aplica os princípios da Mixture of Experts (MoE) ao mecanismo de atenção. Essa nova arquitetura demonstra desempenho superior em tarefas de contexto longo, oferecendo uma vantagem crucial: a capacidade de transicionar de forma contínua entre atenção completa e esparsa, aumentando a eficiência sem o risco de comprometer o desempenho. A MoBA já foi implantada para atender às solicitações de contexto longo do Kimi e demonstra avanços significativos no cálculo eficiente de atenção para LLMs. Nosso código está disponível em https://github.com/MoonshotAI/MoBA.
À medida que o uso de agentes de modelos de linguagem grandes (LLM) continua a crescer, suas vulnerabilidades de segurança tornaram-se cada vez mais evidentes. Extensas avaliações avaliam vários aspectos da segurança de LLM ao definir a segurança baseando-se fortemente em padrões gerais, negligenciando padrões específicos do usuário. No entanto, os padrões de segurança para LLM podem variar com base em perfis específicos de usuários, em vez de serem universalmente consistentes entre todos os usuários. Isso levanta uma questão de pesquisa crítica: Os agentes de LLM agem de forma segura ao considerar padrões de segurança específicos do usuário? Apesar de sua importância para o uso seguro de LLM, atualmente não existem conjuntos de dados de referência para avaliar a segurança específica do usuário de LLMs. Para abordar essa lacuna, apresentamos o U-SAFEBENCH, o primeiro benchmark projetado para avaliar o aspecto específico do usuário da segurança de LLM. Nossa avaliação de 18 LLMs amplamente utilizados revela que os LLMs atuais falham em agir de forma segura ao considerar padrões de segurança específicos do usuário, marcando uma nova descoberta nesse campo. Para abordar essa vulnerabilidade, propomos um remédio simples baseado em encadeamento de pensamento, demonstrando sua eficácia na melhoria da segurança específica do usuário. Nosso benchmark e código estão disponíveis em https://github.com/yeonjun-in/U-SafeBench.
A capacidade de seguir instruções em múltiplos turnos constitui uma competência central dos grandes modelos de linguagem (LLMs) em aplicações do mundo real. Os benchmarks de avaliação existentes concentram-se predominantemente na satisfação de restrições detalhadas e na avaliação de capacidades específicas de domínio, mas negligenciam a crucial dependência estrutural entre os turnos do diálogo que distingue as interações de múltiplos turnos das de turno único. Essa dependência estrutural não apenas reflete a intenção do usuário, mas também estabelece uma segunda dimensão para a avaliação do seguimento de instruções, além da satisfação de restrições. Para abordar essa lacuna, propomos o StructFlowBench, um benchmark de seguimento de instruções em múltiplos turnos com modelagem de fluxo estrutural. O benchmark define de forma inovadora um framework de fluxo estrutural composto por seis relações fundamentais entre turnos, que não apenas introduzem novas restrições estruturais para a avaliação de modelos, mas também servem como parâmetros de geração para criar fluxos de diálogo personalizados adaptados a cenários específicos. Adotando metodologias estabelecidas de avaliação automática baseada em LLMs, realizamos avaliações sistemáticas de 13 LLMs líderes, tanto de código aberto quanto proprietários. Os resultados experimentais revelam deficiências significativas na compreensão das estruturas de diálogo de múltiplos turnos pelos modelos atuais. O código está disponível em https://github.com/MLGroupJLU/StructFlowBench.
A síntese de materiais é vital para inovações como armazenamento de energia, catálise, eletrônicos e dispositivos biomédicos. No entanto, o processo depende fortemente de métodos empíricos de tentativa e erro guiados pela intuição de especialistas. Nosso trabalho tem como objetivo apoiar a comunidade de ciência dos materiais, fornecendo um recurso prático e baseado em dados. Curamos um conjunto abrangente de dados de 17 mil receitas de síntese verificadas por especialistas na literatura de acesso aberto, que é a base de nosso novo benchmark, AlchemyBench. AlchemyBench oferece um framework de ponta a ponta que apoia a pesquisa em grandes modelos de linguagem aplicados à previsão de síntese. Ele abrange tarefas-chave, incluindo previsão de materiais brutos e equipamentos, geração de procedimentos de síntese e previsão de resultados de caracterização. Propomos um framework LLM-como-Juiz que aproveita grandes modelos de linguagem para avaliação automatizada, demonstrando forte concordância estatística com avaliações de especialistas. No geral, nossas contribuições oferecem uma base de apoio para explorar as capacidades de LLMs na previsão e orientação da síntese de materiais, abrindo caminho para um design experimental mais eficiente e inovação acelerada na ciência dos materiais.
Este artigo apresenta o Korean National Educational Test Benchmark (KoNET), um novo benchmark projetado para avaliar Sistemas de IA Generativa Multimodal usando testes educacionais nacionais coreanos. O KoNET é composto por quatro exames: o Teste de Desenvolvimento Educacional Geral Elementar Coreano (KoEGED), Médio (KoMGED), Superior (KoHGED) e Teste de Habilidade Escolástica Universitária Coreana (KoCSAT). Esses exames são conhecidos por seus padrões rigorosos e perguntas diversas, facilitando uma análise abrangente do desempenho da IA em diferentes níveis educacionais. Ao focar no coreano, o KoNET fornece insights sobre o desempenho do modelo em idiomas menos explorados. Avaliamos uma variedade de modelos - de código aberto, de acesso aberto e APIs fechadas - examinando dificuldades, diversidade de assuntos e taxas de erro humano. O código e o construtor de conjunto de dados serão totalmente disponibilizados em código aberto em https://github.com/naver-ai/KoNET.
Modelos de linguagem de grande escala demonstraram progressos notáveis no raciocínio matemático, aproveitando cadeias de pensamento e escalonamento de computação em tempo de teste. No entanto, muitas questões permanecem em aberto sobre a interação entre o uso de tokens de raciocínio e os ganhos de precisão. Em particular, ao comparar modelos de diferentes gerações, não está claro se o desempenho aprimorado resulta de cadeias de raciocínio mais longas ou de um raciocínio mais eficiente. Analisamos sistematicamente o comprimento das cadeias de pensamento nas variantes o1-mini e o3-mini no benchmark Omni-MATH, descobrindo que o o3-mini (m) alcança precisão superior sem exigir cadeias de raciocínio mais longas do que o o1-mini. Além disso, mostramos que a precisão geralmente diminui à medida que as cadeias de raciocínio aumentam em todos os modelos e configurações de computação, mesmo quando controlamos pela dificuldade das questões. Essa queda de precisão é significativamente menor em modelos mais proficientes, sugerindo que as novas gerações de modelos de raciocínio utilizam a computação em tempo de teste de forma mais eficaz. Por fim, destacamos que, embora o o3-mini (h) alcance um ganho marginal de precisão em relação ao o3-mini (m), ele o faz alocando substancialmente mais tokens de raciocínio em todos os problemas, mesmo naqueles que o o3-mini (m) já consegue resolver. Essas descobertas fornecem novos insights sobre a relação entre a capacidade do modelo e o comprimento do raciocínio, com implicações para eficiência, escalonamento e metodologias de avaliação.
A geração de esqueletos proteicos desempenha um papel central no design de novo de proteínas e é significativa para muitas aplicações biológicas e médicas. Embora modelos generativos baseados em difusão e fluxo ofereçam soluções potenciais para essa tarefa desafiadora, eles frequentemente geram proteínas com designabilidade indesejada e sofrem de ineficiência computacional. Neste estudo, propomos um novo método de correspondência de fluxo quaterniônico retificado (ReQFlow) para a geração rápida e de alta qualidade de esqueletos proteicos. Em particular, nosso método gera uma translação local e uma rotação 3D a partir de ruído aleatório para cada resíduo em uma cadeia proteica, representando cada rotação 3D como um quaternião unitário e construindo seu fluxo por interpolação linear esférica (SLERP) em um formato exponencial. Treinamos o modelo por correspondência de fluxo quaterniônico (QFlow) com estabilidade numérica garantida e retificamos o modelo QFlow para acelerar sua inferência e melhorar a designabilidade dos esqueletos proteicos gerados, resultando no modelo ReQFlow proposto. Experimentos mostram que o ReQFlow alcança desempenho de ponta na geração de esqueletos proteicos, exigindo muito menos etapas de amostragem e significativamente menos tempo de inferência (por exemplo, sendo 37x mais rápido que o RFDiffusion e 62x mais rápido que o Genie2 ao gerar um esqueleto de comprimento 300), demonstrando sua eficácia e eficiência. O código está disponível em https://github.com/AngxiaoYue/ReQFlow.
Os avanços em Modelos de Linguagem de Grande Escala (LLMs) e seu uso crescente em perguntas e respostas médicas exigem uma avaliação rigorosa de sua confiabilidade. Um desafio crítico reside na alucinação, onde os modelos geram saídas plausíveis, porém factualmente incorretas. No domínio médico, isso representa sérios riscos para a segurança do paciente e para a tomada de decisões clínicas. Para lidar com isso, apresentamos o MedHallu, o primeiro benchmark especificamente projetado para detecção de alucinação médica. O MedHallu é composto por 10.000 pares pergunta-resposta de alta qualidade derivados do PubMedQA, com respostas alucinadas geradas sistematicamente por meio de um pipeline controlado. Nossos experimentos mostram que os LLMs de última geração, incluindo o GPT-4o, Llama-3.1 e o UltraMedical, ajustado especificamente para a área médica, enfrentam dificuldades nessa tarefa de detecção binária de alucinação, com o melhor modelo alcançando um escore F1 tão baixo quanto 0,625 para detectar alucinações da categoria "difícil". Utilizando agrupamento de implicação bidirecional, mostramos que alucinações mais difíceis de detectar estão semanticamente mais próximas da verdade. Através de experimentos, também demonstramos que a incorporação de conhecimento específico do domínio e a introdução de uma categoria "não tenho certeza" como uma das categorias de resposta melhoram a precisão e os escores F1 em até 38% em relação aos resultados básicos.
Abordagens livres de ajustes que adaptam modelos de difusão de vídeo pré-treinados em larga escala para geração de texto para vídeo preservando identidade (IPT2V) têm ganhado popularidade recentemente devido à sua eficácia e escalabilidade. No entanto, desafios significativos ainda permanecem para alcançar dinâmicas faciais satisfatórias mantendo a identidade inalterada. Neste trabalho, apresentamos um novo framework IPT2V livre de ajustes, aprimorando o conhecimento facial do modelo de vídeo pré-treinado construído em transformadores de difusão (DiT), denominado FantasyID. Essencialmente, uma priori de geometria facial 3D é incorporado para garantir estruturas faciais plausíveis durante a síntese de vídeo. Para evitar que o modelo aprenda atalhos de copiar e colar que simplesmente replicam o rosto de referência em todos os frames, uma estratégia de aumento de face multi-visão é desenvolvida para capturar diversas características de aparência facial 2D, aumentando assim a dinâmica sobre as expressões faciais e poses de cabeça. Além disso, após mesclar as características 2D e 3D como orientação, em vez de empregar ingenuamente a atenção cruzada para injetar pistas de orientação nas camadas DiT, um mecanismo adaptativo aprendível consciente da camada é empregado para injetar seletivamente as características fundidas em cada camada individual de DiT, facilitando a modelagem equilibrada da preservação de identidade e dinâmicas de movimento. Resultados experimentais validam a superioridade de nosso modelo sobre os métodos atuais de IPT2V livres de ajustes.
Neste artigo, abordamos o desafio de impor a adesão estrita a esquemas na geração de modelos de linguagem de grande escala (LLM) ao aproveitar as capacidades de raciocínio desses modelos. Com base no framework de aprendizado por reforço DeepSeek R1, nossa abordagem treina habilidades de raciocínio estruturado de um modelo com 1,5 bilhão de parâmetros por meio de um pipeline inovador que combina a construção de um conjunto de dados sintético de raciocínio com funções de recompensa personalizadas sob a Otimização de Política Relativa de Grupo (GRPO). Especificamente, primeiro realizamos o aprendizado por reforço R1 em um conjunto de dados de 20 mil amostras não estruturadas para estruturadas, refletindo os métodos originais do DeepSeek R1, para estabelecer habilidades centrais de raciocínio. Em seguida, realizamos o ajuste fino supervisionado em um conjunto de dados separado de 10 mil amostras de raciocínio, com foco em refinar a adesão ao esquema para tarefas subsequentes. Apesar do escopo de treinamento relativamente modesto, exigindo aproximadamente 20 horas em um cluster de GPUs 8xH100 para o treinamento GRPO e 3 horas em 1xA100 para o ajuste fino supervisionado (SFT), nosso modelo demonstra um desempenho robusto na imposição da consistência de esquemas. Comparamos nossa abordagem ThinkJSON com o DeepSeek R1 original (671B), versões destiladas do DeepSeek R1 (Qwen-1.5B e Qwen-7B) e o Gemini 2.0 Flash (70B), destacando sua eficácia em aplicações do mundo real. Nossos resultados reforçam a utilidade prática de um framework eficiente em recursos para a geração de texto restrita a esquemas.
A amostragem de modelos de difusão envolve um processo iterativo lento que dificulta sua implantação prática, especialmente para aplicações interativas. Para acelerar a velocidade de geração, abordagens recentes destilam um modelo de difusão de múltiplos passos em um gerador estudante de passo único por meio de destilação de pontuação variacional, que iguala a distribuição das amostras geradas pelo estudante à distribuição do professor. No entanto, essas abordagens utilizam a divergência reversa de Kullback-Leibler (KL), que é conhecida por buscar modos. Neste artigo, generalizamos a abordagem de correspondência de distribuição usando uma nova estrutura de minimização de f-divergência, denominada f-distill, que abrange diferentes divergências com diferentes compensações em termos de cobertura de modos e variância de treinamento. Derivamos o gradiente da f-divergência entre as distribuições do professor e do estudante e mostramos que ele é expresso como o produto de suas diferenças de pontuação e uma função de ponderação determinada pela razão de suas densidades. Essa função de ponderação naturalmente enfatiza amostras com maior densidade na distribuição do professor ao usar uma divergência menos propensa a buscar modos. Observamos que a popular abordagem de destilação de pontuação variacional usando a divergência reversa de KL é um caso especial dentro de nossa estrutura. Empiricamente, demonstramos que f-divergências alternativas, como as divergências de KL direta e de Jensen-Shannon, superam os melhores métodos atuais de destilação de pontuação variacional em tarefas de geração de imagens. Em particular, ao usar a divergência de Jensen-Shannon, o f-distill alcança o melhor desempenho atual em geração de uma etapa no ImageNet64 e em geração de texto para imagem zero-shot no MS-COCO. Página do projeto: https://research.nvidia.com/labs/genair/f-distill
Com o crescente adoção da Geração Aumentada por Recuperação (RAG) no processamento de documentos, o reconhecimento robusto de texto tornou-se cada vez mais crítico para a extração de conhecimento. Embora o OCR (Reconhecimento Óptico de Caracteres) para o inglês e outros idiomas se beneficie de grandes conjuntos de dados e benchmarks bem estabelecidos, o OCR para árabe enfrenta desafios únicos devido à sua escrita cursiva, fluxo de texto da direita para a esquerda e características tipográficas e caligráficas complexas. Apresentamos o KITAB-Bench, um benchmark abrangente de OCR para árabe que preenche as lacunas nos sistemas de avaliação atuais. Nosso benchmark compreende 8.809 amostras em 9 domínios principais e 36 subdomínios, abrangendo diversos tipos de documentos, incluindo texto manuscrito, tabelas estruturadas e cobertura especializada de 21 tipos de gráficos para inteligência de negócios. Nossos resultados mostram que os modelos modernos de visão e linguagem (como GPT-4, Gemini e Qwen) superam as abordagens tradicionais de OCR (como EasyOCR, PaddleOCR e Surya) em uma média de 60% na Taxa de Erro de Caracteres (CER). Além disso, destacamos limitações significativas dos modelos atuais de OCR para árafe, particularmente na conversão de PDF para Markdown, onde o melhor modelo, Gemini-2.0-Flash, atinge apenas 65% de precisão. Isso ressalta os desafios no reconhecimento preciso de texto em árabe, incluindo problemas com fontes complexas, erros de reconhecimento de numerais, alongamento de palavras e detecção de estrutura de tabelas. Este trabalho estabelece um rigoroso framework de avaliação que pode impulsionar melhorias nos métodos de análise de documentos em árabe e reduzir a lacuna de desempenho em relação às tecnologias de OCR para inglês.
Os benchmarks existentes não testam os Modelos Multimodais de Grande Escala (LMMs) em sua inteligência interativa com usuários humanos, o que é crucial para o desenvolvimento de assistentes de IA de propósito geral. Projetamos o InterFeedback, uma estrutura interativa que pode ser aplicada a qualquer LMM e conjunto de dados para avaliar essa capacidade de forma autônoma. Além disso, introduzimos o InterFeedback-Bench, que avalia a inteligência interativa utilizando dois conjuntos de dados representativos, MMMU-Pro e MathVerse, para testar 10 diferentes LMMs de código aberto. Adicionalmente, apresentamos o InterFeedback-Human, um novo conjunto de dados coletado com 120 casos projetados para testar manualmente o desempenho interativo em modelos líderes, como o OpenAI-o1 e o Claude-3.5-Sonnet. Nossos resultados de avaliação mostram que mesmo os LMMs mais avançados (como o OpenAI-o1) conseguem corrigir seus resultados com base no feedback humano em menos de 50% dos casos. Nossas descobertas apontam para a necessidade de métodos que possam aprimorar a capacidade dos LMMs de interpretar e se beneficiar do feedback.
Com o crescimento exponencial da pesquisa facilitado pela tecnologia moderna e maior acessibilidade, as descobertas científicas tornaram-se cada vez mais fragmentadas dentro e entre os campos. Isso torna desafiador avaliar a importância, novidade, descobertas incrementais e ideias equivalentes entre os trabalhos relacionados, especialmente aqueles de diferentes comunidades de pesquisa. Modelos de linguagem grandes (LLMs) demonstraram recentemente fortes habilidades de raciocínio quantitativo e qualitativo, e debates multiagentes de LLM mostraram promessa no tratamento de tarefas de raciocínio complexas ao explorar perspectivas diversas e caminhos de raciocínio. Inspirados por isso, apresentamos a Árvore-de-Debate (ToD), um framework que converte artigos científicos em personas de LLM que debatem suas respectivas novidades. Para enfatizar o raciocínio estruturado e crítico em vez de focar apenas em resultados, o ToD constrói dinamicamente uma árvore de debate, permitindo a análise detalhada de argumentos de novidade independentes dentro de artigos acadêmicos. Através de experimentos na literatura científica em vários domínios, avaliados por pesquisadores especializados, demonstramos que o ToD gera argumentos informativos, contrasta efetivamente artigos e apoia os pesquisadores em suas revisões de literatura.
Prever quando iniciar a fala em ambientes do mundo real continua sendo um desafio fundamental para agentes conversacionais. Apresentamos o EgoSpeak, um novo framework para previsão em tempo real da iniciação da fala em vídeos de streaming egocêntricos. Ao modelar a conversa a partir do ponto de vista em primeira pessoa do falante, o EgoSpeak é adaptado para interações humanas em que um agente conversacional deve observar continuamente seu ambiente e decidir dinamicamente quando falar. Nossa abordagem preenche a lacuna entre configurações experimentais simplificadas e conversas naturais complexas, integrando quatro capacidades-chave: (1) perspectiva em primeira pessoa, (2) processamento RGB, (3) processamento online e (4) processamento de vídeo não editado. Também apresentamos o YT-Conversation, uma coleção diversificada de vídeos de conversas do mundo real do YouTube, como um recurso para pré-treinamento em larga escala. Experimentos em EasyCom e Ego4D demonstram que o EgoSpeak supera baselines aleatórios e baseados em silêncio em tempo real. Nossos resultados também destacam a importância de entrada multimodal e comprimento de contexto na decisão eficaz de quando falar.
As principais empresas de IA estão cada vez mais focadas na construção de agentes de IA generalistas — sistemas que podem planejar, agir e perseguir objetivos de forma autônoma em praticamente todas as tarefas que os humanos são capazes de realizar. Apesar da utilidade potencial desses sistemas, a agência descontrolada de IA representa riscos significativos para a segurança pública e a proteção, variando desde o uso indevido por atores maliciosos até uma potencial perda irreversível de controle humano. Discutimos como esses riscos surgem dos métodos atuais de treinamento de IA. De fato, diversos cenários e experimentos demonstraram a possibilidade de agentes de IA se envolverem em enganos ou perseguirem objetivos que não foram especificados por operadores humanos e que entram em conflito com os interesses humanos, como a autopreservação. Seguindo o princípio da precaução, vemos uma forte necessidade de alternativas mais seguras, mas ainda úteis, à trajetória atual centrada na agência. Assim, propomos como um bloco fundamental para avanços futuros o desenvolvimento de um sistema de IA não agencial que seja confiável e seguro por design, o qual chamamos de IA Cientista. Esse sistema é projetado para explicar o mundo a partir de observações, em vez de tomar ações nele para imitar ou agradar humanos. Ele compreende um modelo do mundo que gera teorias para explicar dados e uma máquina de inferência de respostas a perguntas. Ambos os componentes operam com uma noção explícita de incerteza para mitigar os riscos de previsões excessivamente confiantes. Diante dessas considerações, uma IA Cientista poderia ser usada para auxiliar pesquisadores humanos a acelerar o progresso científico, inclusive na segurança de IA. Em particular, nosso sistema pode ser empregado como uma barreira de proteção contra agentes de IA que possam ser criados, apesar dos riscos envolvidos. Por fim, o foco em IA não agencial pode permitir os benefícios da inovação em IA, evitando os riscos associados à trajetória atual. Esperamos que esses argumentos motivem pesquisadores, desenvolvedores e formuladores de políticas a favorecer esse caminho mais seguro.
As incrustações de estilo são úteis para análise estilística e transferência de estilo; no entanto, apenas as incrustações de estilo em inglês estão disponíveis. Apresentamos o Multilingual StyleDistance (mStyleDistance), um modelo de incrustação de estilo multilíngue treinado usando dados sintéticos e aprendizado contrastivo. Treinamos o modelo em dados de nove idiomas e criamos um benchmark multilíngue STEL-or-Content (Wegmann et al., 2022) que serve para avaliar a qualidade das incrustações. Também utilizamos nossas incrustações em uma tarefa de verificação de autoria envolvendo diferentes idiomas. Nossos resultados mostram que as incrustações mStyleDistance superam os modelos existentes nessas avaliações de estilo multilíngue e generalizam bem para características e idiomas não vistos anteriormente. Disponibilizamos nosso modelo publicamente em https://huggingface.co/StyleDistance/mstyledistance.
Demonstramos que o Modelo de Linguagem Grande com Representações de Decodificador de Lei de Potência (PLDR-LLM) é um modelo fundamental cujas saídas dedutivas são tensores invariantes até uma pequena perturbação. O PLDR-LLM aprende uma condição de singularidade para as saídas dedutivas que permitem que o tensor de energia-curvatura uma vez inferido G_{LM} substitua a rede neural profunda de atenção de grafo de lei de potência (PLGA) gerando as saídas dedutivas na inferência. Demonstramos que um cache para G_{LM} (G-cache) e KV-cache podem ser implementados de maneira direta para melhorar o tempo de inferência. A invariância e natureza generalizável das saídas dedutivas são de alta fidelidade, onde as saídas dedutivas têm os mesmos valores de RMSE e determinante até 15 casas decimais após o cacheamento, e os resultados de benchmark zero-shot permanecem inalterados. Estudos de ablação mostram que as saídas dedutivas aprendidas têm características distintas de perda e precisão em relação a modelos pré-treinados com tensores transferidos, inicializados aleatoriamente ou de identidade como um operador de tensor constante, e um LLM com atenção de produto escalado de pontos (SDPA) é um caso especial de PLDR-LLM onde G_{LM} é predefinido como identidade. A característica de invariância observada introduz uma assimetria inovadora entre as fases de treinamento e inferência com cacheamento. Destacamos características comuns observadas das saídas dedutivas para a condição de singularidade aprendida. Fornecemos uma implementação de um framework de treinamento e inferência para PLDR-LLM com KV-cache e G-cache.
Estimar trajetórias humanas e de câmera com escala precisa no sistema de coordenadas mundiais a partir de um vídeo monocular é um problema altamente desejável, porém desafiador e mal posto. Neste estudo, temos como objetivo recuperar modelos humanos paramétricos expressivos (ou seja, SMPL-X) e poses de câmera correspondentes em conjunto, aproveitando a sinergia entre três elementos críticos: o mundo, o humano e a câmera. Nossa abordagem é fundamentada em duas observações-chave. Em primeiro lugar, métodos de estimativa de SMPL-X no quadro da câmera recuperam facilmente a profundidade humana absoluta. Em segundo lugar, os movimentos humanos fornecem pistas espaciais absolutas de forma inerente. Ao integrar essas percepções, introduzimos um novo framework, denominado WHAC, para facilitar a estimativa de pose e forma humanas expressivas (EHPS) ancoradas no mundo, juntamente com a estimativa de pose da câmera, sem depender de técnicas de otimização tradicionais. Além disso, apresentamos um novo conjunto de dados sintéticos, WHAC-A-Mole, que inclui humanos e câmeras devidamente anotados, e apresenta diversos movimentos humanos interativos, bem como trajetórias realistas de câmera. Experimentos extensivos em benchmarks padrão e recém-estabelecidos destacam a superioridade e eficácia de nosso framework. Disponibilizaremos publicamente o código e o conjunto de dados.
Os grandes modelos de linguagem (LLMs) têm demonstrado capacidades impressionantes no diagnóstico de doenças. No entanto, sua eficácia na identificação de doenças mais raras, que são inerentemente mais desafiadoras de diagnosticar, permanece uma questão em aberto. O desempenho em doenças raras é crucial com o aumento do uso de LLMs em ambientes de saúde. Isso é especialmente verdadeiro se um médico de atenção primária precisa fazer um prognóstico mais raro a partir apenas de uma conversa com o paciente para que possam tomar o próximo passo apropriado. Com esse objetivo, vários sistemas de suporte à decisão clínica são projetados para auxiliar os profissionais na identificação de doenças raras. No entanto, sua utilidade é limitada devido à falta de conhecimento de distúrbios comuns e à dificuldade de uso. Neste artigo, propomos o RareScale para combinar o conhecimento dos LLMs com sistemas especialistas. Utilizamos em conjunto um sistema especialista e um LLM para simular conversas sobre doenças raras. Esses dados são usados para treinar um modelo preditor de candidatos a doenças raras. Os candidatos deste modelo menor são então usados como entradas adicionais para o LLM de caixa-preta para fazer o diagnóstico diferencial final. Assim, o RareScale permite um equilíbrio entre diagnósticos raros e comuns. Apresentamos resultados sobre mais de 575 doenças raras, começando com Actinomicose Abdominal e terminando com a Doença de Wilson. Nossa abordagem melhora significativamente o desempenho de referência dos LLMs de caixa-preta em mais de 17% na precisão do Top-5. Também constatamos que nosso desempenho na geração de candidatos é alto (por exemplo, 88,8% em conversas geradas pelo gpt-4o).
A compreensão multimodal de objetos 3D tem ganhado atenção significativa, mas as abordagens atuais frequentemente assumem a disponibilidade completa de dados e um alinhamento rígido entre todas as modalidades. Apresentamos o CrossOver, uma nova estrutura para a compreensão de cenas 3D multimodal por meio de um alinhamento flexível de modalidades em nível de cena. Diferente dos métodos tradicionais, que exigem dados de modalidades alinhados para cada instância de objeto, o CrossOver aprende um espaço de incorporação unificado e independente de modalidades para cenas, alinhando modalidades — imagens RGB, nuvens de pontos, modelos CAD, plantas baixas e descrições textuais — com restrições relaxadas e sem semântica explícita de objetos. Utilizando codificadores específicos para dimensionalidade, um pipeline de treinamento em múltiplas etapas e comportamentos multimodais emergentes, o CrossOver suporta a recuperação robusta de cenas e a localização de objetos, mesmo com modalidades ausentes. Avaliações nos conjuntos de dados ScanNet e 3RScan demonstram seu desempenho superior em diversas métricas, destacando sua adaptabilidade para aplicações do mundo real na compreensão de cenas 3D.
Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram avanços significativos no processamento de linguagem natural, no entanto, seu potencial para tomadas de decisão política de alto risco permanece amplamente inexplorado. Este artigo aborda essa lacuna ao focar na aplicação de LLMs no processo de tomada de decisão das Nações Unidas (ONU), onde os riscos são particularmente altos e as decisões políticas podem ter consequências de longo alcance. Apresentamos um novo conjunto de dados composto por registros publicamente disponíveis do Conselho de Segurança das Nações Unidas (UNSC) de 1994 a 2024, incluindo projetos de resoluções, registros de votação e discursos diplomáticos. Utilizando este conjunto de dados, propomos o United Nations Benchmark (UNBench), o primeiro benchmark abrangente projetado para avaliar LLMs em quatro tarefas interconectadas de ciência política: julgamento de co-titularidade, simulação de votação representativa, previsão de adoção de projetos e geração de declarações representativas. Essas tarefas abrangem as três etapas do processo de tomada de decisão da ONU - elaboração, votação e discussão - e visam avaliar a capacidade dos LLMs de compreender e simular dinâmicas políticas. Nossa análise experimental demonstra o potencial e os desafios de aplicar LLMs nesse domínio, fornecendo insights sobre suas forças e limitações na ciência política. Este trabalho contribui para a crescente interseção entre IA e ciência política, abrindo novos caminhos para pesquisa e aplicações práticas na governança global. O Repositório UNBench pode ser acessado em: https://github.com/yueqingliang1/UNBench.
Consideramos o problema de prever expressões gênicas a partir de sequências de DNA. Um desafio chave dessa tarefa é encontrar os elementos regulatórios que controlam as expressões gênicas. Aqui, apresentamos o Seq2Exp, uma rede de Sequência para Expressão explicitamente projetada para descobrir e extrair elementos regulatórios que impulsionam a expressão gênica alvo, melhorando a precisão da previsão de expressão gênica. Nossa abordagem captura a relação causal entre sinais epigenômicos, sequências de DNA e seus elementos regulatórios associados. Especificamente, propomos decompor os sinais epigenômicos e a sequência de DNA condicionados aos elementos regulatórios ativos causais, e aplicar um gargalo de informação com a distribuição Beta para combinar seus efeitos enquanto filtra os componentes não causais. Nossos experimentos demonstram que o Seq2Exp supera as baselines existentes em tarefas de previsão de expressão gênica e descobre regiões influentes em comparação com métodos estatísticos comumente usados para detecção de picos, como o MACS3. O código-fonte está disponível como parte da biblioteca AIRS (https://github.com/divelab/AIRS/).
Especificações do usuário ou frameworks legais frequentemente exigem que informações sejam removidas de modelos pré-treinados, incluindo grandes modelos de linguagem (LLMs). Isso requer a exclusão ou "esquecimento" de um conjunto de pontos de dados de um modelo já treinado, o que tipicamente degrada seu desempenho em outros pontos de dados. Assim, é necessário encontrar um equilíbrio entre a remoção de informações e a manutenção das outras habilidades do modelo, com a falha em equilibrar essa troca resultando em uma exclusão inadequada ou em um modelo inutilizável. Para esse fim, propomos o UPCORE (Utility-Preserving Coreset Selection), um framework de seleção de dados agnóstico a métodos para mitigar danos colaterais durante o processo de esquecimento. Ao descobrir que o dano ao modelo está correlacionado com a variância das representações do modelo no conjunto de esquecimento, podamos seletivamente o conjunto de esquecimento para remover outliers, minimizando assim a degradação do modelo após o esquecimento. Avaliamos o UPCORE em três métodos padrão de esquecimento, consistentemente alcançando um equilíbrio superior entre os objetivos concorrentes de eficácia de exclusão e preservação do modelo. Para melhor avaliar essa troca, introduzimos uma nova métrica, medindo a área sob a curva (AUC) em métricas padrão. Descobrimos que o UPCORE melhora tanto as métricas padrão quanto a AUC, beneficiando-se da transferência positiva entre o coreset e os pontos podados, enquanto reduz a transferência negativa do conjunto de esquecimento para pontos fora dele.
O aprendizado profundo alcançou sucesso significativo no campo de detecção de mudanças (CD) em imagens de sensoriamento remoto, mas dois grandes desafios persistem: a escassez de conjuntos de dados abertos e abrangentes com resolução sub-métrica, e a dificuldade de obter resultados de detecção consistentes e satisfatórios em imagens com áreas de mudança variáveis. Para abordar essas questões, apresentamos o conjunto de dados JL1-CD, que contém 5.000 pares de imagens de 512 x 512 pixels com resolução de 0,5 a 0,75 metros. Além disso, propomos uma estrutura de destilação de conhecimento multi-professor (MTKD) para CD. Os resultados experimentais nos conjuntos de dados JL1-CD e SYSU-CD demonstram que a estrutura MTKD melhora significativamente o desempenho de modelos de CD com diversas arquiteturas de rede e tamanhos de parâmetros, alcançando novos resultados de ponta. O código está disponível em https://github.com/circleLZY/MTKD-CD.
Apresentamos um benchmark e estrutura de avaliação de código aberto para avaliar o tratamento de limites emocionais em Modelos de Linguagem de Grande Escala (LLMs). Utilizando um conjunto de dados de 1156 estímulos em seis idiomas, avaliamos três principais LLMs (GPT-4o, Claude-3.5 Sonnet e Mistral-large) em sua capacidade de manter limites emocionais apropriados por meio de análise de respostas correspondentes a padrões. Nossa estrutura quantifica respostas em sete padrões-chave: recusa direta, pedido de desculpas, explicação, desvio, reconhecimento, estabelecimento de limites e consciência emocional. Os resultados demonstram variação significativa nas abordagens de tratamento de limites, com Claude-3.5 alcançando a maior pontuação geral (8,69/10) e produzindo respostas mais longas e mais nuances (86,51 palavras em média). Identificamos uma diferença de desempenho substancial entre interações em inglês (pontuação média de 25,62) e não em inglês (< 0,22), com respostas em inglês mostrando taxas de recusa significativamente mais altas (43,20% vs. < 1% para não em inglês). A análise de padrões revelou estratégias específicas de cada modelo, como a preferência de Mistral por desvio (4,2%) e pontuações consistentemente baixas de empatia em todos os modelos (< 0,06). Limitações incluem uma possível simplificação excessiva por meio de correspondência de padrões, falta de compreensão contextual na análise de respostas e classificação binária de respostas emocionais complexas. Trabalhos futuros devem explorar métodos de pontuação mais nuances, ampliar a cobertura de idiomas e investigar variações culturais nas expectativas de limites emocionais. Nosso benchmark e metodologia fornecem uma base para avaliação sistemática da inteligência emocional e capacidades de estabelecimento de limites de LLMs.