Artigos de pesquisa em IA selecionados diariamente com traduções
Este relatório técnico apresenta o EXAONE 4.0, que integra um Modo Sem Raciocínio e um Modo de Raciocínio para alcançar tanto a excelente usabilidade do EXAONE 3.5 quanto as habilidades avançadas de raciocínio do EXAONE Deep. Para pavimentar o caminho para a era da IA agentiva, o EXAONE 4.0 incorpora recursos essenciais, como o uso de ferramentas agentivas, e suas capacidades multilíngues são estendidas para incluir o espanhol, além do inglês e do coreano. A série de modelos EXAONE 4.0 consiste em dois tamanhos: um modelo de tamanho médio de 32B otimizado para alto desempenho e um modelo compacto de 1.2B projetado para aplicações em dispositivos locais. O EXAONE 4.0 demonstra desempenho superior em comparação com modelos de código aberto de sua classe e mantém-se competitivo mesmo contra modelos de classe fronteiriça. Os modelos estão disponíveis publicamente para fins de pesquisa e podem ser facilmente baixados via https://huggingface.co/LGAI-EXAONE.
A construção de modelos de visão e linguagem (VLMs) de última geração com capacidades avançadas de geração de legendas geralmente exige o treinamento em bilhões de pares de imagem-texto de alta qualidade, demandando milhões de horas de GPU. Este artigo introduz o framework Vision-Language-Vision (VLV) autoencoder, que utiliza estrategicamente componentes pré-treinados essenciais: um codificador de visão, o decodificador de um modelo de difusão Text-to-Image (T2I) e, posteriormente, um Modelo de Linguagem de Grande Escala (LLM). Especificamente, estabelecemos um gargalo de informação ao regularizar o espaço de representação linguística, alcançado através do congelamento do decodificador pré-treinado do modelo de difusão T2I. Nosso pipeline VLV efetivamente destila conhecimento do modelo de difusão condicionado por texto utilizando embeddings contínuos, demonstrando compreensão semântica abrangente por meio de reconstruções de alta qualidade. Além disso, ao ajustar finamente um LLM pré-treinado para decodificar as representações linguísticas intermediárias em descrições detalhadas, construímos um gerador de legendas de última geração (SoTA) comparável a modelos líderes como GPT-4o e Gemini 2.0 Flash. Nosso método demonstra excepcional eficiência de custo e reduz significativamente os requisitos de dados; ao utilizar principalmente imagens unimodais para treinamento e maximizar a utilidade de modelos pré-treinados existentes (codificador de imagem, modelo de difusão T2I e LLM), ele contorna a necessidade de grandes conjuntos de dados de pares imagem-texto, mantendo o custo total de treinamento abaixo de US$ 1.000.
Grandes modelos de base são tipicamente treinados com dados de múltiplos domínios, sendo que a mistura de dados—a proporção de cada domínio utilizado—desempenha um papel crítico no desempenho do modelo. A abordagem padrão para selecionar essa mistura se baseia em tentativa e erro, o que se torna impraticável para pré-treinamentos em larga escala. Propomos um método sistemático para determinar a mistura ótima de dados para qualquer domínio alvo utilizando leis de escalonamento. Nossa abordagem prevê com precisão a perda de um modelo de tamanho N treinado com D tokens e um vetor de pesos de domínio específico h. Validamos a universalidade dessas leis de escalonamento demonstrando seu poder preditivo em três cenários distintos e em larga escala: pré-treinamento de modelos de linguagem de grande escala (LLM), modelos multimodais nativos (NMM) e modelos de visão de grande escala (LVM). Além disso, mostramos que essas leis de escalonamento podem extrapolar para novas misturas de dados e entre escalas: seus parâmetros podem ser estimados com precisão usando algumas execuções de treinamento em pequena escala e, em seguida, usados para estimar o desempenho em escalas maiores e pesos de domínio não vistos. As leis de escalonamento permitem derivar os pesos ótimos de domínio para qualquer domínio alvo sob um orçamento de treinamento (N,D) dado, oferecendo uma alternativa fundamentada aos métodos custosos de tentativa e erro.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) baseados em raciocínio, particularmente seu potencial por meio de escalonamento em tempo de teste, criaram oportunidades significativas para destilação em geração e crítica de código. No entanto, o progresso em ambas as áreas depende fundamentalmente de conjuntos de dados em larga escala e de alta qualidade. Neste trabalho, apresentamos o OpenCodeReasoning-II, um conjunto de dados que consiste em 2,5 milhões de triplas pergunta-solução-crítica (aproximadamente 35 mil questões de programação únicas), tornando-o quase duas vezes maior que o maior conjunto de dados de raciocínio de código publicamente disponível anteriormente. Neste trabalho, empregamos uma estratégia de ajuste fino supervisionado em duas etapas. A primeira etapa concentra-se no ajuste fino para geração de código, enquanto a segunda etapa envolve o treinamento conjunto de modelos para geração e crítica de código. Nossos modelos Qwen2.5-Instruct ajustados alcançam desempenho em geração de código que supera ou iguala os melhores modelos destilados de peso aberto anteriores. Notavelmente, a integração de nossos modelos de geração e crítica de código leva a melhorias significativas no desempenho competitivo de programação. Além disso, apresentamos uma extensão do benchmark LiveCodeBench para suportar especificamente a linguagem de programação C++, facilitando assim uma avaliação mais abrangente de LLMs usando esse benchmark.
Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades poderosas de resolução de problemas, especialmente quando organizados em sistemas multiagentes. No entanto, o surgimento desses sistemas também levanta várias questões sobre a capacidade de uma rede complexa de agentes de se auto-organizar e colaborar de forma eficaz. Embora a medição do desempenho em benchmarks padrão de raciocínio indique quão bem os sistemas multiagentes podem resolver tarefas de raciocínio, não está claro se esses sistemas são capazes de aproveitar sua topologia de forma eficiente. Aqui, propomos o AgentsNet, um novo benchmark para raciocínio multiagente. Ao se inspirar em problemas clássicos de sistemas distribuídos e teoria dos grafos, o AgentsNet mede a capacidade dos sistemas multiagentes de formar colaborativamente estratégias para resolução de problemas, auto-organização e comunicação eficaz, dada uma topologia de rede. Avaliamos uma variedade de métodos de linha de base no AgentsNet, incluindo redes homogêneas de agentes que primeiro precisam concordar com protocolos básicos para organização e comunicação. Descobrimos que alguns LLMs de ponta já estão demonstrando um desempenho forte para redes pequenas, mas começam a decair quando o tamanho da rede escala. Enquanto os benchmarks multiagentes existentes cobrem no máximo 2-5 agentes, o AgentsNet é praticamente ilimitado em tamanho e pode escalar com as novas gerações de LLMs. Como tal, também exploramos modelos de ponta em uma configuração com até 100 agentes.
Este artigo apresenta o MISS-QA, o primeiro benchmark especificamente projetado para avaliar a capacidade dos modelos de interpretar diagramas esquemáticos presentes na literatura científica. O MISS-QA é composto por 1.500 exemplos anotados por especialistas, extraídos de 465 artigos científicos. Neste benchmark, os modelos são desafiados a interpretar diagramas esquemáticos que ilustram visões gerais de pesquisas e a responder perguntas de busca de informações com base no contexto mais amplo do artigo. Avaliamos o desempenho de 18 modelos multimodais de ponta, incluindo o4-mini, Gemini-2.5-Flash e Qwen2.5-VL. Revelamos uma lacuna significativa de desempenho entre esses modelos e especialistas humanos no MISS-QA. Nossa análise do desempenho dos modelos em perguntas sem resposta e a análise detalhada de erros destacam ainda mais os pontos fortes e as limitações dos modelos atuais, oferecendo insights fundamentais para aprimorar a compreensão de literatura científica multimodal por parte dos modelos.
A extração de fluxo óptico a partir de vídeos continua sendo um problema central na visão computacional. Motivados pelo sucesso de modelos gerais de grande escala, questionamos se modelos de vídeo auto-supervisionados congelados, treinados apenas para previsão de quadros futuros, podem ser "promptados", sem ajuste fino, para gerar fluxo. Trabalhos anteriores que extraíram profundidade ou iluminação de geradores de vídeo exigiram ajuste fino, o que é impraticável para fluxo, onde os rótulos são escassos e os conjuntos de dados sintéticos sofrem com a lacuna sim-to-real. Inspirados pelo paradigma do Modelo de Mundo Contrafactual (CWM), que pode obter correspondências ponto a ponto ao injetar uma pequena perturbação traçadora em um preditor de quadro seguinte e rastrear sua propagação, estendemos essa ideia para modelos generativos de vídeo. Exploramos várias arquiteturas populares e descobrimos que a extração de fluxo zero-shot bem-sucedida dessa maneira é auxiliada por três propriedades do modelo: (1) previsão distribucional de quadros futuros (evitando saídas borradas ou ruidosas); (2) latentes fatorizados que tratam cada patch espaço-temporal de forma independente; e (3) decodificação de acesso aleatório que pode condicionar qualquer subconjunto de pixels futuros. Essas propriedades estão exclusivamente presentes na recente arquitetura Local Random Access Sequence (LRAS). Com base na LRAS, propomos o KL-tracing: um novo procedimento em tempo de teste que injeta uma perturbação localizada no primeiro quadro, executa o modelo um passo adiante e calcula a divergência de Kullback-Leibler entre as distribuições preditivas perturbadas e não perturbadas. Sem qualquer ajuste fino específico para fluxo, nosso método supera os modelos state-of-the-art no conjunto de dados real TAP-Vid DAVIS (melhoria relativa de 16,6% no erro de ponto final) e no sintético TAP-Vid Kubric (melhoria relativa de 4,7%). Nossos resultados indicam que o "prompting" contrafactual de modelos generativos de vídeo controláveis é uma alternativa escalável e eficaz às abordagens supervisionadas ou baseadas em perda fotométrica para fluxo de alta qualidade.
A resposta a perguntas em grafos de conhecimento (KGQA) apresenta desafios significativos devido às variações estruturais e semânticas entre os grafos de entrada. Trabalhos existentes dependem de agentes baseados em Modelos de Linguagem de Grande Escala (LLMs) para a travessia e recuperação de grafos; uma abordagem que é sensível à inicialização da travessia, pois é propensa a erros de vinculação de entidades e pode não generalizar bem para KGs personalizados ("bring-your-own"). Apresentamos o BYOKG-RAG, um framework que aprimora o KGQA ao combinar sinergicamente LLMs com ferramentas especializadas de recuperação de grafos. No BYOKG-RAG, os LLMs geram artefatos críticos do grafo (entidades da pergunta, respostas candidatas, caminhos de raciocínio e consultas OpenCypher), e as ferramentas de grafo vinculam esses artefatos ao KG e recuperam o contexto relevante do grafo. O contexto recuperado permite que o LLM refine iterativamente sua vinculação e recuperação do grafo, antes da geração da resposta final. Ao recuperar o contexto de diferentes ferramentas de grafo, o BYOKG-RAG oferece uma solução mais geral e robusta para QA em KGs personalizados. Por meio de experimentos em cinco benchmarks que abrangem diversos tipos de KGs, demonstramos que o BYOKG-RAG supera o segundo melhor método de recuperação de grafo em 4,5 pontos percentuais, mostrando melhor generalização para KGs personalizados. O framework BYOKG-RAG é de código aberto e está disponível em https://github.com/awslabs/graphrag-toolkit.
Vídeos gerados por usuários no mundo real, especialmente em plataformas como o TikTok, frequentemente apresentam conteúdo audiovisual rico e interconectado. No entanto, os benchmarks e modelos existentes para legendagem de vídeos permanecem predominantemente centrados no visual, negligenciando o papel crucial do áudio na transmissão da dinâmica da cena, da intenção do falante e do contexto narrativo. Essa falta de conjuntos de dados omni e de modelos leves e capazes dificulta o progresso na compreensão multimodal e refinada de vídeos. Para enfrentar esses desafios, apresentamos o UGC-VideoCap, um novo benchmark e framework de modelo especificamente projetado para a legendagem omni detalhada de vídeos curtos gerados por usuários. Diferente de conjuntos de dados anteriores, o UGC-VideoCap enfatiza a integração equilibrada das modalidades de áudio e visual, apresentando 1000 vídeos do TikTok anotados por meio de um pipeline estruturado em três etapas com intervenção humana, cobrindo semântica apenas de áudio, apenas visual e conjunta audiovisual. O benchmark também inclui 4000 pares de perguntas e respostas cuidadosamente elaborados, explorando tanto a compreensão unimodal quanto a cruzada entre modalidades. Juntamente com o conjunto de dados, propomos o UGC-VideoCaptioner(3B), um modelo de legendagem com 3 bilhões de parâmetros, destilado do Gemini 2.5 Flash. Utilizando uma nova estratégia de treinamento em duas etapas — ajuste fino supervisionado seguido de Otimização de Política Relativa em Grupo (GRPO) — nossa abordagem permite uma adaptação eficiente a partir de dados limitados, mantendo um desempenho competitivo. Juntos, nosso benchmark e modelo oferecem uma base de alta qualidade e uma solução eficiente em termos de dados para avançar a legendagem omni de vídeos em cenários reais e não restritos de conteúdo gerado por usuários (UGC).
O inpainting de áudio refere-se à tarefa de reconstruir segmentos ausentes em gravações de áudio corrompidas. Embora abordagens anteriores — incluindo modelos de difusão baseados em waveform e espectrograma — tenham mostrado resultados promissores para lacunas curtas, elas frequentemente apresentam degradação na qualidade quando as lacunas excedem 100 milissegundos (ms). Neste trabalho, introduzimos um novo método de inpainting baseado em modelagem de difusão discreta, que opera sobre representações de áudio tokenizadas produzidas por um tokenizador de áudio pré-treinado. Nossa abordagem modela o processo generativo diretamente no espaço latente discreto, permitindo uma reconstrução estável e semanticamente coerente do áudio ausente. Avaliamos o método no conjunto de dados MusicNet usando métricas objetivas e perceptuais para durações de lacuna de até 300 ms. Além disso, avaliamos nossa abordagem no conjunto de dados MTG, estendendo a duração da lacuna para 500 ms. Os resultados experimentais demonstram que nosso método alcança desempenho competitivo ou superior em comparação com as linhas de base existentes, particularmente para lacunas mais longas, oferecendo uma solução robusta para a restauração de gravações musicais degradadas. Exemplos de áudio do nosso método proposto podem ser encontrados em https://iftach21.github.io/.
Os Modelos de Linguagem de Grande Escala (LLMs) transformaram o desenvolvimento de software e a geração automatizada de código. Motivados por esses avanços, este artigo explora a viabilidade do uso de LLMs para modificar o código-fonte de malware e gerar variantes. Apresentamos o LLMalMorph, um framework semiautomatizado que aproveita a compreensão semântica e sintática de código por LLMs para gerar novas variantes de malware. O LLMalMorph extrai informações em nível de função do código-fonte do malware e emprega prompts personalizados, combinados com transformações de código estrategicamente definidas, para orientar o LLM na geração de variantes sem a necessidade de ajuste fino intensivo em recursos. Para avaliar o LLMalMorph, coletamos 10 amostras diversas de malware para Windows, variando em tipo, complexidade e funcionalidade, e geramos 618 variantes. Nossos experimentos detalhados demonstram que é possível reduzir, em certa medida, as taxas de detecção dessas variantes de malware pelos mecanismos antivírus, preservando as funcionalidades do malware. Além disso, apesar de não otimizar contra nenhum detector de malware baseado em Aprendizado de Máquina (ML), várias variantes também alcançaram taxas de sucesso notáveis contra um classificador de malware baseado em ML. Também discutimos as limitações atuais das capacidades dos LLMs na geração de variantes de malware a partir do código-fonte e avaliamos onde essa tecnologia emergente se posiciona no contexto mais amplo da geração de variantes de malware.
A Inteligência Artificial (IA) moderna depende cada vez mais de arquiteturas multiagentes que integram compreensão visual e linguística. No entanto, um desafio urgente persiste: Como podemos confiar nesses agentes, especialmente em cenários zero-shot sem ajuste fino? Apresentamos uma nova estrutura modular de classificação visual de IA Agente que integra agentes multimodais generalistas com um orquestrador de raciocínio não visual e um módulo de Geração Aumentada por Recuperação (RAG). Aplicado ao diagnóstico de doenças em folhas de maçã, avaliamos três configurações: (I) zero-shot com orquestração baseada em confiança, (II) agentes ajustados com desempenho aprimorado e (III) orquestração calibrada para confiança, reforçada por recuperação de imagens baseada em CLIP e loops de reavaliação. Usando métricas de calibração de confiança (ECE, OCR, CCC), o orquestrador modula a confiança entre os agentes. Nossos resultados demonstram uma melhoria de 77,94% na precisão no cenário zero-shot usando orquestração consciente da confiança e RAG, alcançando 85,63% no geral. O GPT-4o mostrou melhor calibração, enquanto o Qwen-2.5-VL exibiu excesso de confiança. Além disso, o RAG de imagens fundamentou previsões com casos visualmente semelhantes, permitindo a correção do excesso de confiança dos agentes por meio de reavaliação iterativa. O sistema proposto separa a percepção (agentes visuais) do meta-raciocínio (orquestrador), permitindo uma IA multiagente escalável e interpretável. Este modelo é extensível a diagnósticos, biologia e outros domínios críticos para a confiança. Todos os modelos, prompts, resultados e componentes do sistema, incluindo o código-fonte completo do software, são liberados abertamente para apoiar a reprodutibilidade, transparência e benchmarking comunitário no Github: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust
Modelos de linguagem de grande escala (LLMs) exibem vieses cognitivos — tendências sistemáticas de tomada de decisão irracional, semelhantes às observadas em humanos. Trabalhos anteriores descobriram que esses vieses variam entre modelos e podem ser amplificados pelo ajuste por instrução. No entanto, ainda não está claro se essas diferenças nos vieses decorrem do pré-treinamento, do ajuste fino ou até mesmo de ruídos aleatórios devido à estocasticidade do treinamento. Propomos uma abordagem experimental causal em duas etapas para desvendar esses fatores. Primeiro, ajustamos modelos várias vezes usando diferentes sementes aleatórias para estudar como a aleatoriedade do treinamento afeta mais de 30 vieses cognitivos. Segundo, introduzimos o "cross-tuning" — trocando conjuntos de dados de instrução entre modelos para isolar as fontes de viés. Essa troca utiliza conjuntos de dados que levaram a padrões de viés diferentes, testando diretamente se os vieses são dependentes do conjunto de dados. Nossos resultados revelam que, embora a aleatoriedade do treinamento introduza alguma variabilidade, os vieses são principalmente moldados pelo pré-treinamento: modelos com o mesmo núcleo pré-treinado exibem padrões de viés mais semelhantes do que aqueles que compartilham apenas dados de ajuste fino. Essas descobertas sugerem que a compreensão dos vieses em modelos ajustados requer a consideração de suas origens no pré-treinamento, além dos efeitos do ajuste fino. Essa perspectiva pode orientar esforços futuros para desenvolver estratégias fundamentadas na avaliação e mitigação de vieses em LLMs.