Artigos de pesquisa em IA selecionados diariamente com traduções
Embora o paradigma de "raciocínio profundo" tenha impulsionado avanços significativos em domínios verificáveis, como a matemática, sua aplicação à geração criativa e aberta permanece um desafio crítico. Os dois métodos dominantes para instilar raciocínio — aprendizado por reforço (RL) e destilação de instruções — enfrentam dificuldades nessa área; o RL luta com a ausência de sinais de recompensa claros e modelos de recompensa de alta qualidade, enquanto a destilação é proibitivamente cara e limitada pelas capacidades do modelo professor. Para superar essas limitações, introduzimos o Raciocínio de Engenharia Reversa (REER), um novo paradigma que muda fundamentalmente a abordagem. Em vez de construir um processo de raciocínio "para frente" por meio de tentativa e erro ou imitação, o REER funciona "para trás" a partir de soluções conhecidas e boas para descobrir computacionalmente o processo de raciocínio profundo, passo a passo, que poderia tê-las produzido. Usando essa abordagem escalável e livre de gradientes, curamos e disponibilizamos publicamente o DeepWriting-20K, um conjunto de dados em larga escala com 20.000 trajetórias de raciocínio profundo para tarefas abertas. Nosso modelo, DeepWriter-8B, treinado com esses dados, não apenas supera fortes baselines de código aberto, mas também alcança desempenho competitivo e, em alguns casos, superior a modelos proprietários líderes como GPT-4o e Claude 3.5.
O paradigma dos Modelos de Linguagem de Grande Escala (LLMs) tem se deslocado cada vez mais para aplicações agentes, onde capacidades de navegação na web são fundamentais para recuperar informações de diversas fontes online. No entanto, os agentes web de código aberto existentes ou demonstram habilidades limitadas de busca de informações em tarefas complexas ou carecem de implementações transparentes. Neste trabalho, identificamos que o principal desafio reside na escassez de dados desafiadores para a busca de informações. Para superar essa limitação, introduzimos o WebExplorer: uma abordagem sistemática de geração de dados que utiliza exploração baseada em modelos e evolução iterativa de consultas de longo para curto prazo. Esse método cria pares de consulta-resposta desafiadores que exigem raciocínio em múltiplos passos e navegação web complexa. Ao aproveitar nosso conjunto de dados de alta qualidade, desenvolvemos com sucesso o agente web avançado WebExplorer-8B por meio de ajuste fino supervisionado seguido de aprendizado por reforço. Nosso modelo suporta um contexto de 128K e até 100 chamadas de ferramentas, permitindo a resolução de problemas de longo horizonte. Em diversos benchmarks de busca de informações, o WebExplorer-8B alcança o estado da arte em sua escala. Notavelmente, como um modelo de 8B de parâmetros, o WebExplorer-8B é capaz de efetivamente realizar buscas em uma média de 16 turnos após o treinamento por reforço, obtendo maior precisão que o WebSailor-72B no BrowseComp-en/zh e alcançando o melhor desempenho entre modelos de até 100B de parâmetros no WebWalkerQA e FRAMES. Além dessas tarefas de busca de informações, nosso modelo também demonstra forte generalização no benchmark HLE, apesar de ter sido treinado apenas em dados de QA intensivos em conhecimento. Esses resultados destacam nossa abordagem como um caminho prático para o desenvolvimento de agentes web de longo horizonte.
Propomos o TraceRL, um framework de aprendizado por reforço consciente da trajetória para modelos de linguagem de difusão (DLMs) que incorpora trajetórias de inferência preferenciais no pós-treinamento, sendo aplicável a diferentes arquiteturas. Equipado com um modelo de valor baseado em difusão que aumenta a estabilidade do treinamento, demonstramos melhorias no desempenho de raciocínio em tarefas complexas de matemática e codificação. Além disso, ele também pode ser aplicado para adaptar modelos específicos de blocos a blocos maiores, o que melhora a flexibilidade de amostragem. Utilizando o TraceRL, derivamos uma série de modelos de linguagem de difusão de última geração, denominados TraDo. Embora menores do que modelos AR de escala 7B, o TraDo-4B-Instruct ainda supera consistentemente esses modelos em tarefas complexas de raciocínio matemático. O TraDo-8B-Instruct alcança melhorias relativas de precisão de 6,1% sobre o Qwen2.5-7B-Instruct e 51,3% sobre o Llama3.1-8B-Instruct em benchmarks de raciocínio matemático. Por meio de aprendizado curricular, também derivamos o primeiro DLM de long-CoT, superando o Qwen2.5-7B-Instruct no MATH500 com um ganho relativo de precisão de 18,1%. Para facilitar pesquisas reproduzíveis e aplicações práticas, disponibilizamos um framework open-source abrangente para construção, treinamento e implantação de LLMs de difusão em diversas arquiteturas. O framework integra técnicas aceleradas de cache KV e motores de inferência tanto para inferência quanto para aprendizado por reforço, e inclui implementações de vários métodos de ajuste fino supervisionado e RL para tarefas de matemática, codificação e gerais. Código e Modelos: https://github.com/Gen-Verse/dLLM-RL
O advento de modelos de base de visão em larga escala, pré-treinados em imagens naturais diversas, marcou uma mudança de paradigma na visão computacional. No entanto, como a eficácia desses modelos de base de visão de ponta se transfere para domínios especializados, como a imagem médica, permanece uma questão em aberto. Este relatório investiga se o DINOv3, um transformer de visão (ViT) auto-supervisionado de última geração que apresenta forte capacidade em tarefas de predição densa, pode servir diretamente como um codificador poderoso e unificado para tarefas de visão médica sem pré-treinamento específico do domínio. Para responder a isso, avaliamos o DINOv3 em tarefas comuns de visão médica, incluindo classificação e segmentação 2D/3D em uma ampla gama de modalidades de imagem médica. Analisamos sistematicamente sua escalabilidade variando os tamanhos dos modelos e as resoluções das imagens de entrada. Nossas descobertas revelam que o DINOv3 apresenta um desempenho impressionante e estabelece uma nova linha de base formidável. Notavelmente, ele pode até superar modelos de base específicos para medicina, como o BiomedCLIP e o CT-Net, em várias tarefas, apesar de ter sido treinado apenas em imagens naturais. No entanto, identificamos limitações claras: as características do modelo se degradam em cenários que exigem especialização profunda no domínio, como em Imagens Patológicas de Lâmina Completa (WSIs), Microscopia Eletrônica (EM) e Tomografia por Emissão de Pósitrons (PET). Além disso, observamos que o DINOv3 não obedece consistentemente à lei de escalabilidade no domínio médico; o desempenho não aumenta de forma confiável com modelos maiores ou resoluções de características mais finas, mostrando comportamentos de escalonamento diversos entre as tarefas. Por fim, nosso trabalho estabelece o DINOv3 como uma linha de base forte, cujas características visuais poderosas podem servir como um prior robusto para múltiplas tarefas médicas complexas. Isso abre direções futuras promissoras, como aproveitar suas características para reforçar a consistência multiview na reconstrução 3D.
O raciocínio visual, um pilar fundamental da inteligência humana, engloba processos perceptivos e lógicos complexos essenciais para resolver diversos problemas visuais. Embora os avanços em visão computacional tenham produzido modelos poderosos para várias tarefas perceptivas, a utilização desses modelos para o raciocínio visual geral ainda é um desafio. Trabalhos anteriores demonstram que aprimorar LLMs (Large Language Models) com modelos de visão por meio de ajuste fino supervisionado melhora o desempenho, mas enfrenta limitações significativas, como a geração de dados dispendiosa, a dependência de uma filtragem cuidadosa de dados e a má generalização. Para abordar essas questões, propomos o ReVPT para aprimorar as habilidades de LLMs multimodais em raciocinar e utilizar ferramentas visuais por meio de aprendizado por reforço. Introduzimos um novo algoritmo de RL (Reinforcement Learning) baseado em GRPO, projetado para treinar modelos a raciocinar com um conjunto de quatro ferramentas visuais. Através de extensos experimentos, mostramos que nosso método alcança desempenho de ponta em vários benchmarks com forte componente perceptivo, incluindo SAT, CV-Bench, BLINK e MMStar, superando significativamente as linhas de base de ajuste fino supervisionado e RL baseado em texto. Notavelmente, nossos modelos ReVPT-3B e ReVPT-7B superam os modelos de instrução em 9,03% e 9,44% no CV-Bench. Por fim, trazemos à comunidade novos insights sobre o uso de ferramentas visuais baseadas em RL por meio de extensas ablações. Nosso código está disponível em https://github.com/ls-kelvin/REVPT.
Sistemas de pesquisa profunda, IA agentiva que resolve tarefas complexas e de múltiplas etapas coordenando raciocínio, busca na web aberta e arquivos do usuário, e uso de ferramentas, estão evoluindo para implantações hierárquicas com um Planejador, Coordenador e Executores. Na prática, treinar pilhas inteiras de ponta a ponta ainda é impraticável, então a maioria dos trabalhos treina um único planejador conectado a ferramentas essenciais como busca, navegação e código. Embora o SFT (Supervised Fine-Tuning) garanta fidelidade ao protocolo, ele sofre com vieses de imitação e exposição e subutiliza o feedback do ambiente. Métodos de alinhamento de preferências, como o DPO (Direct Preference Optimization), dependem de esquemas e proxies, são off-policy e fracos para atribuição de crédito de longo prazo e trade-offs multiobjetivo. Uma limitação adicional do SFT e do DPO é sua dependência de pontos de decisão e sub-habilidades definidos por humanos por meio de design de esquemas e comparações rotuladas. O aprendizado por reforço se alinha com pesquisas de interação com ferramentas em loop fechado, otimizando políticas em nível de trajetória, permitindo exploração, comportamentos de recuperação e atribuição de crédito fundamentada, além de reduzir a dependência de tais prioridades humanas e vieses de avaliação. Este estudo é, até onde sabemos, o primeiro dedicado aos fundamentos de RL (Reinforcement Learning) para sistemas de pesquisa profunda. Ele sistematiza trabalhos após o DeepSeek-R1 ao longo de três eixos: (i) síntese e curadoria de dados; (ii) métodos de RL para pesquisa agentiva, cobrindo estabilidade, eficiência amostral, manipulação de contexto longo, design de recompensa e crédito, otimização multiobjetivo e integração multimodal; e (iii) sistemas e frameworks de treinamento de RL agentivo. Também abordamos arquitetura e coordenação de agentes, além de avaliação e benchmarks, incluindo tarefas recentes de QA (Question Answering), VQA (Visual Question Answering), síntese de longa duração e interação com ferramentas baseadas em domínio. Destilamos padrões recorrentes, identificamos gargalos de infraestrutura e oferecemos orientações práticas para treinar agentes de pesquisa profunda robustos e transparentes com RL.
O aprendizado multitarefa (MTL) é frequentemente alcançado pela fusão de conjuntos de dados antes do ajuste fino, mas a crescente disponibilidade de modelos ajustados levou a novas abordagens, como a fusão de modelos via aritmética de tarefas. Um grande desafio nesse cenário é a interferência entre tarefas, que piora à medida que o número de tarefas aumenta. Propomos um método que combina modelos treinados em diferentes tarefas em um único modelo, mantendo um desempenho forte em todas as tarefas. Nossa abordagem utiliza a divergência de Jensen-Shannon para guiar o processo de fusão sem a necessidade de dados rotulados adicionais e equilibra automaticamente a importância das tarefas. Diferente dos métodos existentes, nossa abordagem permanece robusta à medida que o número de tarefas cresce e consistentemente supera trabalhos anteriores.
Apresentamos o Paper2Agent, uma estrutura automatizada que converte artigos de pesquisa em agentes de IA. O Paper2Agent transforma os resultados de pesquisa de artefatos passivos em sistemas ativos que podem acelerar o uso, a adoção e a descoberta subsequentes. Os artigos de pesquisa convencionais exigem que os leitores invistam um esforço substancial para entender e adaptar o código, os dados e os métodos de um artigo ao seu próprio trabalho, criando barreiras para a disseminação e reutilização. O Paper2Agent aborda esse desafio ao converter automaticamente um artigo em um agente de IA que atua como um assistente de pesquisa experiente. Ele analisa sistematicamente o artigo e o código associado usando múltiplos agentes para construir um servidor de Protocolo de Contexto de Modelo (MCP), em seguida, gera e executa testes iterativamente para refinar e robustecer o MCP resultante. Esses MCPs de artigos podem então ser conectados de forma flexível a um agente de chat (por exemplo, Claude Code) para realizar consultas científicas complexas por meio de linguagem natural, enquanto invocam ferramentas e fluxos de trabalho do artigo original. Demonstramos a eficácia do Paper2Agent na criação de agentes de artigos confiáveis e capazes por meio de estudos de caso detalhados. O Paper2Agent criou um agente que utiliza o AlphaGenome para interpretar variantes genômicas e agentes baseados em ScanPy e TISSUE para realizar análises de transcriptômica de célula única e espacial. Validamos que esses agentes de artigos podem reproduzir os resultados do artigo original e podem executar corretamente novas consultas do usuário. Ao transformar artigos estáticos em agentes de IA dinâmicos e interativos, o Paper2Agent introduz um novo paradigma para a disseminação de conhecimento e uma base para o ecossistema colaborativo de co-cientistas de IA.
Modelos Visão-Linguagem (VLMs) têm demonstrado sucesso notável em diversas tarefas visuais, mas seu desempenho se degrada em ambientes visuais complexos. Embora as abordagens de aprimoramento existentes exijam treinamento adicional, dependam de ferramentas externas de segmentação ou operem em níveis de granularidade grosseira, elas negligenciam a capacidade inata dos VLMs. Para preencher essa lacuna, investigamos os padrões de atenção dos VLMs e descobrimos que: (1) a complexidade visual está fortemente correlacionada com a entropia da atenção, impactando negativamente o desempenho do raciocínio; (2) a atenção refina-se progressivamente, passando de uma varredura global nas camadas mais superficiais para uma convergência focada nas camadas mais profundas, com o grau de convergência determinado pela complexidade visual. (3) Teoricamente, provamos que o contraste dos mapas de atenção entre consultas gerais e consultas específicas da tarefa permite a decomposição do sinal visual em componentes de sinais semânticos e ruído visual. Com base nessas descobertas, propomos o Refinamento de Atenção Contrastante para Aprimoramento Visual (CARVE), um método livre de treinamento que extrai sinais visuais relevantes para a tarefa por meio do contraste de atenção no nível de pixel. Experimentos extensivos demonstram que o CARVE melhora consistentemente o desempenho, alcançando até 75% de melhoria em modelos de código aberto. Nosso trabalho fornece insights críticos sobre a interação entre complexidade visual e mecanismos de atenção, oferecendo um caminho eficiente para melhorar o raciocínio visual com atenção contrastante.
Modelos unificados de compreensão e geração multimodal recentemente alcançaram melhorias significativas na capacidade de geração de imagens, mas ainda há uma grande lacuna no seguimento de instruções e na preservação de detalhes em comparação com sistemas que acoplam fortemente compreensão e geração, como o GPT-4o. Motivados pelos avanços recentes no raciocínio intercalado, exploramos se tal raciocínio pode melhorar ainda mais a geração de Texto para Imagem (T2I). Introduzimos o Raciocínio Intercalado de Geração (IRG), uma estrutura que alterna entre o pensamento baseado em texto e a síntese de imagens: o modelo primeiro produz um pensamento baseado em texto para guiar uma imagem inicial, depois reflete sobre o resultado para refinar detalhes de granularidade fina, qualidade visual e estética, preservando a semântica. Para treinar o IRG de forma eficaz, propomos o Aprendizado de Raciocínio Intercalado de Geração (IRGL), que visa dois subobjetivos: (1) fortalecer o estágio inicial de pensar e gerar para estabelecer o conteúdo central e a qualidade base, e (2) permitir uma reflexão textual de alta qualidade e a implementação fiel desses refinamentos em uma imagem subsequente. Criamos o IRGL-300K, um conjunto de dados organizado em seis modos de aprendizado decompostos que cobrem conjuntamente o aprendizado do pensamento baseado em texto e trajetórias completas de pensamento-imagem. Partindo de um modelo de base unificado que emite naturalmente saídas intercaladas de texto e imagem, nosso treinamento em duas etapas primeiro constrói um pensamento e reflexão robustos, depois ajusta eficientemente o pipeline IRG nos dados de trajetória completa de pensamento-imagem. Experimentos extensivos mostram desempenho de ponta, com ganhos absolutos de 5-10 pontos no GenEval, WISE, TIIF, GenAI-Bench e OneIG-EN, além de melhorias substanciais na qualidade visual e fidelidade de detalhes finos. O código, pesos do modelo e conjuntos de dados serão liberados em: https://github.com/Osilly/Interleaving-Reasoning-Generation.
Apresentamos o UniVerse-1, um modelo unificado, semelhante ao Veo-3, capaz de gerar simultaneamente áudio e vídeo coordenados. Para aumentar a eficiência do treinamento, evitamos o treinamento a partir do zero e, em vez disso, empregamos uma técnica de "costura de especialistas" (SoE, do inglês Stitching of Experts). Essa abordagem funde profundamente os blocos correspondentes de modelos especializados pré-treinados em geração de vídeo e música, aproveitando ao máximo suas capacidades fundamentais. Para garantir anotações precisas e alinhamento temporal tanto para sons ambientes quanto para fala com o conteúdo de vídeo, desenvolvemos um pipeline de anotação online que processa os dados de treinamento necessários e gera rótulos durante o processo de treinamento. Essa estratégia evita a degradação de desempenho frequentemente causada por anotações textuais desalinhadas. Através da sinergia dessas técnicas, nosso modelo, após ser ajustado em aproximadamente 7.600 horas de dados áudio-vídeo, produz resultados com áudio-visuais bem coordenados para geração de sons ambientes e forte alinhamento para geração de fala. Para avaliar sistematicamente o método proposto, introduzimos o Verse-Bench, um novo conjunto de dados de benchmark. Em um esforço para avançar a pesquisa em geração áudio-vídeo e reduzir a lacuna de desempenho em relação a modelos de ponta, como o Veo-3, disponibilizamos publicamente nosso modelo e código. Esperamos que essa contribuição beneficie a comunidade de pesquisa em geral. Página do projeto: https://dorniwang.github.io/UniVerse-1/.
A geração de texto para imagem (T2I) visa sintetizar imagens a partir de prompts textuais, que especificam conjuntamente o que deve ser mostrado e implicam o que pode ser inferido, correspondendo assim a duas capacidades principais: composição e raciocínio. No entanto, com os avanços emergentes dos modelos T2I no raciocínio além da composição, os benchmarks existentes revelam limitações claras em fornecer avaliações abrangentes dentro e entre essas capacidades. Enquanto isso, esses avanços também permitem que os modelos lidem com prompts mais complexos, enquanto os benchmarks atuais permanecem limitados a baixa densidade de cena e raciocínio simplificado de um para um. Para abordar essas limitações, propomos o T2I-CoReBench, um benchmark abrangente e complexo que avalia tanto as capacidades de composição quanto de raciocínio dos modelos T2I. Para garantir a abrangência, estruturamos a composição em torno de elementos de grafos de cena (instância, atributo e relação) e o raciocínio em torno do framework filosófico de inferência (dedutiva, indutiva e abdutiva), formulando uma taxonomia de avaliação de 12 dimensões. Para aumentar a complexidade, impulsionados pelas complexidades inerentes dos cenários do mundo real, elaboramos cada prompt com alta densidade composicional para a composição e inferência de múltiplos passos para o raciocínio. Também associamos cada prompt a uma lista de verificação que especifica perguntas individuais de sim/não para avaliar cada elemento pretendido de forma independente, facilitando uma avaliação confiável e detalhada. Em estatísticas, nosso benchmark compreende 1.080 prompts desafiadores e cerca de 13.500 perguntas de lista de verificação. Experimentos com 27 modelos T2I atuais revelam que sua capacidade de composição ainda permanece limitada em cenários complexos de alta densidade, enquanto a capacidade de raciocínio está ainda mais atrasada como um gargalo crítico, com todos os modelos lutando para inferir elementos implícitos a partir dos prompts. Nossa página do projeto: https://t2i-corebench.github.io/.
A integração de Modelos de Linguagem de Grande Escala (LLMs) na prova automática de teoremas tem mostrado um imenso potencial, mas é fundamentalmente limitada pelos desafios de escalonamento tanto no aprendizado por reforço (RL) durante o treinamento quanto no poder computacional durante a inferência. Este artigo apresenta o BFS-Prover-V2, um sistema projetado para abordar esse problema duplo de escalonamento. Apresentamos duas inovações principais. A primeira é uma nova estrutura de RL multi-turn off-policy para melhorar continuamente o desempenho do provador de passos baseado em LLM durante o treinamento. Essa estrutura, inspirada nos princípios do AlphaZero, utiliza um pipeline de iteração especializada em múltiplos estágios, com filtragem adaptativa de dados em nível tático e retreinamento periódico, para superar os platôs de desempenho que normalmente limitam o RL de longo prazo em agentes baseados em LLM. A segunda inovação é uma arquitetura de busca multiagente aprimorada por planejamento que escala as capacidades de raciocínio durante a inferência. Essa arquitetura emprega um modelo de raciocínio geral como um planejador de alto nível para decompor iterativamente teoremas complexos em uma sequência de subobjetivos mais simples. Essa abordagem hierárquica reduz substancialmente o espaço de busca, permitindo que uma equipe de agentes provadores paralelos colaborem de forma eficiente, aproveitando um cache de provas compartilhado. Demonstramos que essa abordagem dupla para escalonamento produz resultados de ponta em benchmarks estabelecidos de matemática formal. O BFS-Prover-V2 alcança 95,08% e 41,4% nos conjuntos de teste MiniF2F e ProofNet, respectivamente. Embora demonstrado no domínio da matemática formal, as técnicas de RL e inferência apresentadas neste trabalho têm um interesse mais amplo e podem ser aplicadas a outros domínios que exigem raciocínio multi-turn de longo horizonte e busca complexa.
Equipar modelos de linguagem de grande escala (LLMs) com capacidades complexas e intercaladas de raciocínio e uso de ferramentas tornou-se um foco central na pesquisa de IA agentiva, especialmente com os avanços recentes em modelos orientados para raciocínio (``pensamento''). Tais capacidades são fundamentais para desbloquear uma série de aplicações importantes. Uma dessas aplicações é a Pesquisa Profunda (Deep Research - DR), que requer busca extensiva e raciocínio sobre diversas fontes. Nosso trabalho neste artigo concentra-se no desenvolvimento de modelos Autônomos de Agente Único nativos para DR, caracterizados por rastreamento mínimo na web e integração de ferramentas Python. Diferente de sistemas multiagentes, onde os agentes assumem papéis pré-definidos e são instruídos sobre o que fazer em cada etapa de um fluxo de trabalho estático, um agente único autônomo determina sua próxima ação dinamicamente com base no contexto, sem diretivas manuais. Enquanto trabalhos anteriores propuseram receitas de treinamento para LLMs base ou ajustados por instrução, nós nos concentramos no aprendizado por reforço contínuo (RL) de modelos otimizados para raciocínio, a fim de aprimorar ainda mais as habilidades agentivas enquanto preservamos a capacidade de raciocínio. Para isso, propomos uma receita simples de RL com dados inteiramente sintéticos, que aplicamos a vários LLMs de código aberto. Nossa melhor variante, SFR-DR-20B, alcança até 28,7% no benchmark Humanity's Last Exam. Além disso, conduzimos experimentos de análise chave para fornecer mais insights sobre nossas metodologias.
A escala no momento do teste aumenta a computação durante a inferência ao permitir que os modelos gerem cadeias de raciocínio longas e demonstrou um desempenho forte em diversos domínios. No entanto, neste trabalho, mostramos que essa abordagem ainda não é eficaz para tarefas que exigem grande conhecimento, onde alta precisão factual e baixas taxas de alucinação são essenciais. Realizamos uma avaliação abrangente da escala no momento do teste utilizando 12 modelos de raciocínio em dois benchmarks que exigem conhecimento intensivo. Nossos resultados revelam que aumentar a computação no momento do teste não melhora consistentemente a precisão e, em muitos casos, até leva a mais alucinações. Em seguida, analisamos como o raciocínio estendido afeta o comportamento de alucinação. Descobrimos que a redução das alucinações frequentemente resulta do modelo optar por se abster após pensar mais, em vez de uma melhoria na recordação factual. Por outro lado, para alguns modelos, o raciocínio mais longo encoraja tentativas em questões previamente não respondidas, muitas das quais resultam em alucinações. Estudos de caso mostram que o raciocínio estendido pode induzir viés de confirmação, levando a alucinações excessivamente confiantes. Apesar dessas limitações, observamos que, em comparação com a ausência de raciocínio, permitir que o modelo pense ainda é benéfico. O código e os dados estão disponíveis em https://github.com/XuZhao0/tts-knowledge.
A integração de Modelos de Linguagem de Grande Escala (LLMs) em diversas aplicações tem impulsionado a necessidade de respostas estruturadas e confiáveis. Um desafio fundamental nos sistemas de Geração Aumentada por Recuperação (RAG) é garantir que as saídas estejam alinhadas com os formatos esperados, minimizando ao mesmo tempo as alucinações. Este estudo examina o papel da decodificação guiada em sistemas RAG, comparando três métodos: Outlines, XGrammar e LM Format Enforcer, em diferentes configurações de prompts de múltiplos turnos (0-turn, 1-turn e 2-turn). Ao avaliar taxas de sucesso, taxas de alucinação e qualidade das saídas, fornecemos insights sobre seu desempenho e aplicabilidade. Nossos resultados revelam como as interações de múltiplos turnos influenciam a decodificação guiada, destacando variações inesperadas de desempenho que podem orientar a seleção de métodos para casos de uso específicos. Este trabalho avança a compreensão da geração de saídas estruturadas em sistemas RAG, oferecendo tanto insights teóricos quanto orientações práticas para a implantação de LLMs.
O humor negro em memes online apresenta desafios únicos devido à sua dependência de pistas implícitas, sensíveis e contextualmente culturais. Para abordar a falta de recursos e métodos para detectar humor negro em conteúdo multimodal, introduzimos um novo conjunto de dados de 4.379 memes do Reddit anotados para humor negro, categoria alvo (gênero, saúde mental, violência, raça, deficiência e outros) e uma classificação de intensidade em três níveis (leve, moderado, severo). Com base nesse recurso, propomos uma estrutura aumentada por raciocínio que primeiro gera explicações estruturadas para cada meme usando um Grande Modelo de Visão e Linguagem (VLM). Através de um Loop de Auto-Reflexão de Reversão de Papéis, o VLM adota a perspectiva do autor para refinar iterativamente suas explicações, garantindo completude e alinhamento. Em seguida, extraímos características textuais tanto da transcrição OCR quanto do raciocínio auto-refinado por meio de um codificador de texto, enquanto as características visuais são obtidas usando um transformador de visão. Uma Rede de Raciocínio Cruzado de Três Fluxos (TCRNet) funde esses três fluxos — texto, imagem e raciocínio — por meio de mecanismos de atenção pareada, produzindo uma representação unificada para classificação. Os resultados experimentais demonstram que nossa abordagem supera as linhas de base fortes em três tarefas: detecção de humor negro, identificação de alvo e previsão de intensidade. O conjunto de dados, as anotações e o código são disponibilizados para facilitar pesquisas adicionais em compreensão multimodal de humor e moderação de conteúdo. Código e Conjunto de Dados estão disponíveis em: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning
Apresentamos o Llama-GENBA-10B, um modelo de base trilíngue que aborda o viés centrado no inglês em modelos de linguagem de grande escala. Construído sobre o Llama 3.1-8B e escalonado para 10 bilhões de parâmetros, o Llama-GENBA-10B foi continuamente pré-treinado em 164 bilhões de tokens (82 bilhões em inglês, 82 bilhões em alemão e 80 milhões em bávaro), equilibrando recursos enquanto evitava a dominância do inglês. Voltado para a comunidade de PLN alemã, o modelo também promove o bávaro como uma língua de baixo recurso. O desenvolvimento enfrentou quatro desafios: (1) curadoria de um corpus multilíngue apesar da escassez de dados em bávaro, (2) criação de um tokenizador unificado para inglês, alemão e bávaro, (3) otimização da arquitetura e dos hiperparâmetros de proporção de idiomas para transferência cross-lingual, e (4) estabelecimento do primeiro conjunto de avaliação trilíngue padronizado, traduzindo benchmarks alemães para o bávaro. As avaliações mostram que o Llama-GENBA-10B alcança um forte desempenho cross-lingual, com a variante fine-tuned superando o Apertus-8B-2509 e o gemma-2-9b em bávaro e se estabelecendo como o melhor modelo em sua classe para esse idioma, ao mesmo tempo que supera o EuroLLM em inglês e iguala seus resultados em alemão. O treinamento no Cerebras CS-2 demonstrou um pré-treinamento multilíngue em grande escala eficiente, com uso de energia documentado, oferecendo um modelo para a criação de modelos de base inclusivos que integram línguas de baixo recurso.
A edição de imagens baseada em arrasto surgiu como um paradigma poderoso para a manipulação intuitiva de imagens. No entanto, as abordagens existentes dependem predominantemente da manipulação do espaço latente de modelos generativos, resultando em precisão limitada, feedback atrasado e restrições específicas do modelo. Diante disso, apresentamos o Inpaint4Drag, uma nova estrutura que decompõe a edição baseada em arrasto em deformação bidirecional no espaço de pixels e preenchimento de imagens. Inspirados pela deformação elástica de objetos no mundo físico, tratamos as regiões da imagem como materiais deformáveis que mantêm a forma natural sob manipulação do usuário. Nosso método alcança visualizações de deformação em tempo real (0,01s) e preenchimento eficiente (0,3s) em resolução de 512x512, melhorando significativamente a experiência de interação em comparação com os métodos existentes que exigem minutos por edição. Ao transformar entradas de arrasto diretamente em formatos padrão de preenchimento, nossa abordagem serve como um adaptador universal para qualquer modelo de preenchimento sem modificação de arquitetura, herdando automaticamente todos os avanços futuros na tecnologia de preenchimento. Experimentos extensivos demonstram que nosso método alcança qualidade visual superior e controle preciso, mantendo o desempenho em tempo real. Página do projeto: https://visual-ai.github.io/inpaint4drag/
Neste artigo de posicionamento, abordamos a lacuna persistente entre as capacidades de IA em rápido crescimento e o progresso lento em segurança. Os paradigmas existentes se dividem em "Tornar a IA Segura", que aplica alinhamento e salvaguardas post-hoc, mas permanece frágil e reativo, e "Criar IA Segura", que enfatiza a segurança intrínseca, mas luta para lidar com riscos imprevistos em ambientes abertos. Propomos, portanto, a segurança por coevolução como uma nova formulação do paradigma "Criar IA Segura", inspirada na imunidade biológica, na qual a segurança se torna um processo dinâmico, adversarial e contínuo de aprendizado. Para operacionalizar essa visão, introduzimos R^2AI -- IA Resistente e Resiliente -- como um framework prático que une resistência a ameaças conhecidas com resiliência a riscos imprevistos. O R^2AI integra modelos de segurança rápidos e lentos, simulação e verificação adversarial por meio de um túnel de vento de segurança, e loops de feedback contínuos que orientam a segurança e a capacidade a coevoluir. Argumentamos que esse framework oferece um caminho escalável e proativo para manter a segurança contínua em ambientes dinâmicos, abordando tanto vulnerabilidades de curto prazo quanto riscos existenciais de longo prazo, à medida que a IA avança em direção à AGI e ASI.
Modelos Visão-Linguagem-Ação (VLA) são uma abordagem promissora para a realização de agentes corporificados generalistas que podem se adaptar rapidamente a novas tarefas, modalidades e ambientes. No entanto, os métodos para interpretar e direcionar VLAs estão muito aquém dos pipelines clássicos de robótica, que são fundamentados em modelos explícitos de cinemática, dinâmica e controle. Essa falta de compreensão mecanicista é um desafio central para a implantação de políticas aprendidas em robótica do mundo real, onde robustez e explicabilidade são críticas. Motivados pelos avanços na interpretabilidade mecanicista de grandes modelos de linguagem, introduzimos o primeiro framework para interpretar e direcionar VLAs por meio de suas representações internas, permitindo intervenção direta no comportamento do modelo durante a inferência. Projetamos as ativações feedforward dentro das camadas do transformador na base de incorporação de tokens, identificando direções semânticas esparsas - como velocidade e direção - que estão causalmente ligadas à seleção de ações. Aproveitando essas descobertas, introduzimos um método de direcionamento de ativação de propósito geral que modula o comportamento em tempo real, sem ajuste fino, sinais de recompensa ou interação com o ambiente. Avaliamos esse método em dois VLAs de código aberto recentes, Pi0 e OpenVLA, e demonstramos controle comportamental zero-shot em simulação (LIBERO) e em um robô físico (UR5). Este trabalho demonstra que componentes interpretáveis de VLAs corporificados podem ser sistematicamente aproveitados para controle - estabelecendo um novo paradigma para modelos de base transparentes e direcionáveis em robótica.
Para aumentar a eficiência de agentes de interface gráfica do usuário (GUI) em diversas plataformas, como smartphones e computadores, um paradigma híbrido que combina operações flexíveis de GUI com atalhos eficientes (por exemplo, APIs, deep links) está surgindo como uma direção promissora. No entanto, uma estrutura para avaliar sistematicamente esses agentes híbridos ainda é pouco explorada. Para dar o primeiro passo em direção a preencher essa lacuna, apresentamos o MAS-Bench, um benchmark que pioneiramente avalia agentes híbridos de GUI e atalhos, com foco específico no domínio móvel. Além de apenas usar atalhos predefinidos, o MAS-Bench avalia a capacidade de um agente de gerar atalhos de forma autônoma, descobrindo e criando fluxos de trabalho reutilizáveis e de baixo custo. Ele apresenta 139 tarefas complexas em 11 aplicativos do mundo real, uma base de conhecimento com 88 atalhos predefinidos (APIs, deep links, scripts de RPA) e 7 métricas de avaliação. As tarefas são projetadas para serem resolvidas apenas por operações de GUI, mas podem ser significativamente aceleradas com a incorporação inteligente de atalhos. Experimentos mostram que agentes híbridos alcançam taxas de sucesso e eficiência significativamente maiores do que seus equivalentes que usam apenas GUI. Esse resultado também demonstra a eficácia do nosso método para avaliar a capacidade de geração de atalhos de um agente. O MAS-Bench preenche uma lacuna crítica de avaliação, fornecendo uma plataforma fundamental para avanços futuros na criação de agentes inteligentes mais eficientes e robustos.
Modelos visão-linguagem (VLMs, na sigla em inglês) como o CLIP demonstraram capacidades impressionantes de aprendizado zero-shot e few-shot em diversas aplicações. No entanto, adaptar esses modelos a novos domínios de alta granularidade continua sendo um desafio devido à dependência de engenharia de prompts e ao alto custo do ajuste fino completo do modelo. As abordagens de adaptação existentes dependem de componentes adicionais, como tokens de prompt e módulos adaptadores, o que pode limitar a qualidade da adaptação, desestabilizar o modelo e comprometer o rico conhecimento aprendido durante o pré-treinamento. Neste trabalho, apresentamos o CLIP-SVD, uma técnica inovadora de adaptação multimodal e eficiente em parâmetros que utiliza a Decomposição em Valores Singulares (SVD) para modificar o espaço de parâmetros internos do CLIP sem injetar módulos adicionais. Especificamente, ajustamos apenas os valores singulares das matrizes de parâmetros do CLIP para redimensionar os vetores de base para adaptação de domínio, mantendo o modelo pré-treinado. Esse design permite um desempenho de adaptação aprimorado usando apenas 0,04% do total de parâmetros do modelo e uma melhor preservação de sua capacidade de generalização. O CLIP-SVD alcança resultados de classificação state-of-the-art em 11 conjuntos de dados naturais e 10 biomédicos, superando métodos anteriores tanto em precisão quanto em generalização em cenários few-shot. Além disso, utilizamos uma abordagem baseada em linguagem natural para analisar a eficácia e a dinâmica da adaptação do CLIP, permitindo a interpretabilidade do CLIP-SVD. O código está disponível publicamente em https://github.com/HealthX-Lab/CLIP-SVD.
A escassez de dados de alta qualidade e logicamente sólidos é um gargalo crítico para o avanço do raciocínio matemático dos Modelos de Linguagem de Grande Escala (LLMs). Nosso trabalho enfrenta esse desafio transformando décadas de pesquisa em provas de teoremas automatizadas em um mecanismo escalável de geração de dados. Em vez de depender de LLMs propensos a erros ou de sintaxes complexas de assistentes de prova como Lean e Isabelle, nosso framework aproveita as capacidades de saturação do E-prover na vasta biblioteca de axiomas TPTP para derivar um corpus massivo de teoremas garantidamente válidos. Nosso pipeline é fundamentado e simples: saturar axiomas, filtrar teoremas "interessantes" e gerar tarefas. Sem LLMs no processo, eliminamos erros factuais por construção. Esses dados puramente simbólicos são então transformados em três desafios com dificuldade controlada: verificação de implicação, seleção de premissas e reconstrução de provas. Nossos experimentos zero-shot em modelos de ponta revelam uma clara fraqueza: o desempenho entra em colapso em tarefas que exigem raciocínio profundo e estrutural. Nosso framework fornece tanto a ferramenta de diagnóstico para medir essa lacuna quanto uma fonte escalável de dados simbólicos de treinamento para abordá-la. Disponibilizamos o código e os dados publicamente. https://github.com/sileod/reasoning_core https://hf.co/datasets/reasoning-core/rc1
O registro de nuvens de pontos LiDAR é fundamental para a percepção e navegação robótica. No entanto, em ambientes geometricamente degenerados ou estreitos, os problemas de registro tornam-se mal condicionados, levando a soluções instáveis e precisão degradada. Embora as abordagens existentes tentem lidar com esses problemas, elas falham em abordar o desafio central: detectar, interpretar e resolver com precisão esse mal condicionamento, resultando em detecções perdidas ou soluções corrompidas. Neste estudo, apresentamos o DCReg, uma estrutura fundamentada que aborda sistematicamente os problemas de registro mal condicionados por meio de três inovações integradas. Primeiro, o DCReg alcança uma detecção confiável de mal condicionamento empregando uma decomposição de Schur na matriz hessiana. Essa técnica desacopla o problema de registro em subespaços rotacionais e translacionais limpos, eliminando efeitos de acoplamento que mascaram padrões de degenerescência em análises convencionais. Segundo, dentro desses subespaços limpos, desenvolvemos técnicas de caracterização quantitativa que estabelecem mapeamentos explícitos entre espaços próprios matemáticos e direções de movimento físico, fornecendo insights acionáveis sobre quais movimentos específicos carecem de restrições. Finalmente, aproveitando esse subespaço limpo, projetamos uma estratégia de mitigação direcionada: um novo pré-condicionador que estabiliza seletivamente apenas as direções mal condicionadas identificadas, preservando todas as informações bem restritas no espaço observável. Isso permite uma otimização eficiente e robusta por meio do método do Gradiente Conjugado Pré-Condicionado com um único parâmetro físico interpretável. Experimentos extensivos demonstram que o DCReg alcança uma melhoria de pelo menos 20% a 50% na precisão de localização e uma aceleração de 5 a 100 vezes em relação aos métodos state-of-the-art em diversos ambientes. Nossa implementação estará disponível em https://github.com/JokerJohn/DCReg.