Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o LongCat-Flash-Thinking-2601, um modelo de raciocínio de código aberto do tipo Mistura de Especialistas (MoE) com 560 bilhões de parâmetros, que possui capacidade de raciocínio agentico superior. O LongCat-Flash-Thinking-2601 atinge desempenho de ponta entre os modelos de código aberto em uma ampla gama de benchmarks agenticos, incluindo busca agentica, uso de ferramentas agenticas e raciocínio com integração de ferramentas. Além do desempenho em benchmarks, o modelo demonstra forte generalização para interações complexas com ferramentas e comportamento robusto em ambientes do mundo real com ruído. Sua capacidade avançada decorre de uma estrutura de treinamento unificada que combina treinamento de especialistas em paralelo por domínio com fusão subsequente, juntamente com um co-projeto de ponta a ponta que abrange desde a construção de dados, ambientes, algoritmos e infraestrutura, desde o pré-treinamento até o pós-treinamento. Em particular, a forte capacidade de generalização do modelo no uso complexo de ferramentas é impulsionada por nossa exploração aprofundada do dimensionamento de ambientes e da construção de tarefas baseada em princípios. Para otimizar gerações de cauda longa e assimétricas e interações agenticas multi-turno, e para permitir treinamento estável em mais de 10.000 ambientes abrangendo mais de 20 domínios, estendemos sistematicamente nossa estrutura de aprendizado por reforço assíncrono, DORA, para um treinamento em larga escala e multi-ambiente estável e eficiente. Além disso, reconhecendo que as tarefas do mundo real são inerentemente ruidosas, conduzimos uma análise sistemática e uma decomposição dos padrões de ruído do mundo real, e projetamos procedimentos de treinamento direcionados para incorporar explicitamente tais imperfeições no processo de treinamento, resultando em maior robustez para aplicações do mundo real. Para melhorar ainda mais o desempenho em tarefas complexas de raciocínio, introduzimos um modo de Pensamento Pesado (Heavy Thinking) que permite um dimensionamento eficaz no momento do teste através da expansão conjunta da profundidade e largura do raciocínio por meio de pensamento paralelo intensivo.
Os agentes de LLM demonstraram capacidades notáveis no desenvolvimento de software, mas o seu desempenho é prejudicado por contextos de interação longos, que acarretam altos custos de API e latência. Embora tenham surgido várias abordagens de compressão de contexto, como o LongLLMLingua, para enfrentar este desafio, elas geralmente dependem de métricas fixas, como PPL, ignorando a natureza específica da tarefa na compreensão de código. Consequentemente, frequentemente perturbam a estrutura sintática e lógica e falham em reter detalhes de implementação críticos. Neste artigo, propomos o SWE-Pruner, uma estrutura de poda de contexto auto-adaptativa concebida para agentes de programação. Inspirando-nos na forma como os programadores humanos "folheiam seletivamente" o código-fonte durante o desenvolvimento e depuração, o SWE-Pruner realiza uma poda adaptativa consciente da tarefa para contextos longos. Dada a tarefa atual, o agente formula um objetivo explícito (por exemplo, "concentrar-se no tratamento de erros") como uma pista para orientar os alvos da poda. Um "skimmer" neural leve (0,6 mil milhões de parâmetros) é treinado para selecionar dinamicamente as linhas relevantes do contexto circundante, dado o objetivo. Avaliações em quatro benchmarks e múltiplos modelos validam a eficácia do SWE-Pruner em vários cenários, alcançando uma redução de 23-54% de *tokens* em tarefas de agente como o SWE-Bench Verified e até 14,84x de compressão em tarefas de turno único como o LongCodeQA, com um impacto mínimo no desempenho.
Os modelos padrão Visão-Linguagem-Ação (VLA) normalmente ajustam finamente uma estrutura monolítica de Modelo de Visão-Linguagem (VLM) explicitamente para controle robótico. No entanto, essa abordagem cria uma tensão crítica entre manter a compreensão semântica geral de alto nível e aprender habilidades sensorimotoras refinadas de baixo nível, frequentemente levando ao "esquecimento catastrófico" das capacidades de mundo aberto do modelo. Para resolver esse conflito, introduzimos o TwinBrainVLA, uma arquitetura inovadora que coordena um VLM generalista, que retém a compreensão semântica universal, e um VLM especialista dedicado à propriocepção incorporada para controle robótico conjunto. O TwinBrainVLA sinergiza um "Cérebro Esquerdo" congelado, que mantém o raciocínio visual geral robusto, com um "Cérebro Direito" treinável, especializado em percepção incorporada, por meio de um novo mecanismo de Mistura Assimétrica de Transformers (AsyMoT). Esse projeto permite que o Cérebro Direito consulte dinamicamente conhecimento semântico do Cérebro Esquerdo congelado e o funda com estados proprioceptivos, fornecendo condicionamento rico para um Especialista em Ação com Correspondência de Fluxo (Flow-Matching) gerar controles contínuos precisos. Extensos experimentos nos benchmarks SimplerEnv e RoboCasa demonstram que o TwinBrainVLA alcança desempenho de manipulação superior em comparação com as linhas de base state-of-the-art, enquanto preserva explicitamente as capacidades abrangentes de compreensão visual do VLM pré-treinado, oferecendo uma direção promissora para a construção de robôs de propósito geral que alcançam simultaneamente compreensão semântica de alto nível e destreza física de baixo nível.
Os Modelos Visuais de Linguagem (VLMs) modernos continuam mal caracterizados em interações visuais multi-etapa, particularmente na forma como integram percepção, memória e ação em horizontes longos. Apresentamos o VisGym, um ginásio de 17 ambientes para avaliar e treinar VLMs. O conjunto abrange quebra-cabeças simbólicos, compreensão de imagens reais, navegação e manipulação, e oferece controlos flexíveis sobre dificuldade, representação de entrada, horizonte de planeamento e *feedback*. Também fornecemos solucionadores multi-etapa que geram demonstrações estruturadas, permitindo o afinamento supervisionado. As nossas avaliações mostram que todos os modelos de vanguarda têm dificuldades em ambientes interativos, atingindo baixas taxas de sucesso tanto nas configurações fáceis (46,6%) como nas difíceis (26,0%). As nossas experiências revelam limitações notáveis: os modelos lutam para alavancar eficazmente contextos longos, desempenhando pior com um histórico ilimitado do que com janelas truncadas. Além disso, descobrimos que várias tarefas simbólicas baseadas em texto tornam-se substancialmente mais difíceis quando renderizadas visualmente. No entanto, observações explícitas de objetivos, *feedback* textual e demonstrações exploratórias em ambientes de dinâmica desconhecida ou parcialmente observáveis para afinamento supervisionado produzem ganhos consistentes, destacando modos de falha concretos e vias para melhorar a tomada de decisão visual multi-etapa. O código, dados e modelos podem ser encontrados em: https://visgym.github.io/.
Modelos recentes de difusão vídeo-a-vídeo de base alcançaram resultados impressionantes na edição de vídeos fornecidos pelos usuários, modificando aparência, movimento ou deslocamento da câmara. No entanto, a edição de vídeo no mundo real é frequentemente um processo iterativo, no qual os utilizadores refinam os resultados ao longo de múltiplas rondas de interação. Neste cenário de múltiplos turnos, os editores de vídeo atuais lutam para manter a consistência cruzada entre edições sequenciais. Neste trabalho, abordamos, pela primeira vez, o problema da consistência cruzada na edição de vídeo multi-turno e introduzimos o Memory-V2V, uma estrutura simples, mas eficaz, que aumenta os modelos vídeo-a-vídeo existentes com memória explícita. Dada uma cache externa de vídeos editados anteriormente, o Memory-V2V emprega estratégias de recuperação precisa e tokenização dinâmica para condicionar a etapa de edição atual com base em resultados anteriores. Para mitigar ainda mais a redundância e a sobrecarga computacional, propomos um compressor de tokens treinável dentro da arquitetura DiT que comprime tokens de condicionamento redundantes, preservando pistas visuais essenciais, alcançando uma aceleração geral de 30%. Validamos o Memory-V2V em tarefas desafiadoras, incluindo síntese de nova perspetiva de vídeo e edição de vídeos longos com condicionamento textual. Experiências extensivas mostram que o Memory-V2V produz vídeos significativamente mais consistentes cruzadamente com sobrecarga computacional mínima, mantendo ou mesmo melhorando o desempenho específico da tarefa em relação aos métodos state-of-the-art. Página do projeto: https://dohunlee1.github.io/MemoryV2V
O aprendizado por reforço (RL) é essencial para aprimorar as capacidades de raciocínio complexo de modelos de linguagem de grande escala (LLMs). No entanto, os *pipelines* de treinamento de RL existentes são computacionalmente ineficientes e intensivos em recursos, sendo que a fase de *rollout* responde por mais de 70% do tempo total de treinamento. O treinamento de RL quantizado, particularmente usando precisão FP8, oferece uma abordagem promissora para mitigar esse gargalo. Uma estratégia comumente adotada aplica a precisão FP8 durante o *rollout*, mantendo a precisão BF16 para o treinamento. Neste trabalho, apresentamos o primeiro estudo abrangente sobre o treinamento de RL com FP8 e demonstramos que a estratégia amplamente utilizada de "treinamento em BF16 + *rollout* em FP8" sofre de severa instabilidade de treinamento e colapso catastrófico de precisão em *rollouts* de longo horizonte e tarefas desafiadoras. Nossa análise mostra que essas falhas decorrem da natureza *off-policy* da abordagem, que introduz uma incompatibilidade numérica substancial entre o treinamento e a inferência. Motivados por essas observações, propomos o Jet-RL, um *framework* de treinamento de RL em FP8 que permite uma otimização de RL robusta e estável. A ideia central é adotar um fluxo de precisão FP8 unificado para treinamento e *rollout*, minimizando assim as discrepâncias numéricas e eliminando a necessidade de calibração inter-etapas ineficiente. Experimentos extensivos validam a eficácia do Jet-RL: nosso método alcança uma aceleração de até 33% na fase de *rollout*, até 41% na fase de treinamento e um ganho de velocidade de 16% de ponta a ponta em relação ao treinamento BF16, mantendo uma convergência estável em todas as configurações e incorrendo em uma degradação de precisão insignificante.
Os recentes avanços nos Agentes de Pesquisa Profunda (DRAs) estão transformando a descoberta automatizada de conhecimento e a resolução de problemas. Enquanto a maioria dos esforços existentes se concentra em melhorar as capacidades da política via pós-treinamento, propomos um paradigma alternativo: a auto-evolução da capacidade do agente através da verificação iterativa das saídas do modelo de política, guiada por rubricas meticulosamente elaboradas. Esta abordagem dá origem à escalagem de verificação no tempo de inferência, na qual um agente se auto-melhora avaliando as respostas que gera para produzir feedback e refinamentos iterativos. Derivamos as rubricas com base numa Taxonomia de Falhas de DRA construída automaticamente, que classifica sistematicamente as falhas dos agentes em cinco categorias principais e treze subcategorias. Apresentamos o DeepVerifier, um verificador de recompensa de resultados baseado em rubricas que aproveita a assimetria da verificação e supera as linhas de base de agente-como-juiz simples e de juiz de LLM em 12% a 48% no score F1 de meta-avaliação. Para permitir uma auto-evolução prática, o DeepVerifier integra-se como um módulo "plug-and-play" durante a inferência em tempo de teste. O verificador produz um feedback detalhado baseado em rubricas, que é realimentado ao agente para um *bootstrapping* iterativo, refinando as respostas sem treinamento adicional. Esta escalagem em tempo de teste proporciona ganhos de precisão de 8% a 11% em subconjuntos desafiadores do GAIA e do XBench-DeepResearch quando alimentada por LLMs proprietários capazes. Finalmente, para apoiar o avanço de código aberto, disponibilizamos o DeepVerifier-4K, um conjunto de dados curado de fine-tuning supervisionado com 4.646 etapas de agente de alta qualidade focadas na verificação de DRA. Estes exemplos enfatizam a reflexão e a autocrítica, permitindo que modelos abertos desenvolvam capacidades robustas de verificação.
Os ambientes são o principal obstégulo para agentes de autoaprimoramento. Os benchmarks de terminal atuais foram construídos para avaliação, não para treinamento; o aprendizado por reforço requer um pipeline escalável, não apenas um conjunto de dados. Apresentamos o Endless Terminals, um pipeline totalmente autônomo que gera proceduralmente tarefas de uso de terminal sem anotação humana. O pipeline possui quatro estágios: geração de descrições de tarefas diversas, construção e validação de ambientes conteinerizados, produção de testes de conclusão e filtragem por solucionabilidade. Deste pipeline, obtivemos 3255 tarefas abrangendo operações de arquivos, gerenciamento de logs, processamento de dados, scriptagem e operações de banco de dados. Treinamos agentes usando PPO padrão com recompensas binárias a nível de episódio e um loop de interação mínimo: sem recuperação de informação, coordenação multiagente ou ferramentas especializadas. Apesar dessa simplicidade, os modelos treinados no Endless Terminals mostram ganhos substanciais: em nosso conjunto de desenvolvimento retido, o Llama-3.2-3B melhorou de 4,0% para 18,2%, o Qwen2.5-7B de 10,7% para 53,3% e o Qwen3-8B-openthinker-sft de 42,6% para 59,0%. Essas melhorias transferem-se para benchmarks curados por humanos: os modelos treinados no Endless Terminals mostram ganhos substanciais em benchmarks humanos retidos: no TerminalBench 2.0, o Llama-3.2-3B melhorou de 0,0% para 2,2%, o Qwen2.5-7B de 2,2% para 3,4% e o Qwen3-8B-openthinker-sft de 1,1% para 6,7%, superando em cada caso abordagens alternativas, incluindo modelos com estruturas agentuais mais complexas. Estes resultados demonstram que o RL simples tem sucesso quando os ambientes são escalados.
Os Transformers de Difusão têm demonstrado recentemente um desempenho notável na geração de vídeo. No entanto, as longas sequências de entrada resultam em alta latência computacional devido à complexidade quadrática da atenção completa. Vários mecanismos de atenção esparsa foram propostos. A atenção esparsa sem necessidade de treinamento é limitada por uma esparsidade restrita, oferecendo assim uma aceleração modesta, enquanto os métodos baseados em treinamento podem alcançar uma esparsidade muito maior, mas exigem dados e computação substanciais para o treinamento. Neste trabalho, propomos o SALAD, introduzindo um ramo de atenção linear leve em paralelo com a atenção esparsa. Ao incorporar um mecanismo de ativação dependente da entrada para equilibrar finamente os dois ramos, nosso método atinge 90% de esparsidade e uma aceleração de inferência de 1,72x, mantendo uma qualidade de geração comparável à linha de base de atenção completa. Além disso, nosso processo de ajuste fino é altamente eficiente, exigindo apenas 2.000 amostras de vídeo e 1.600 etapas de treinamento com um tamanho de lote de 8.
Embora a inteligência artificial (IA) tenha se integrado profundamente em várias etapas do fluxo de trabalho de pesquisa e alcançado avanços notáveis, a réplica acadêmica permanece um desafio significativo e pouco explorado. Isto ocorre porque a réplica é um processo complexo de comunicação estratégica sob severa assimetria de informação, e não um simples debate técnico. Consequentemente, as abordagens atuais enfrentam dificuldades, pois imitam largamente a linguística superficial, perdendo o elemento essencial da tomada de perspectiva necessária para uma persuasão eficaz. Neste artigo, apresentamos o RebuttalAgent, o primeiro framework a fundamentar a réplica acadêmica na Teoria da Mente (ToM), operacionalizada por meio de um pipeline ToM-Estratégia-Resposta (TSR) que modela o estado mental do revisor, formula a estratégia de persuasão e gera uma resposta fundamentada na estratégia. Para treinar nosso agente, construímos o RebuttalBench, um conjunto de dados em larga escala sintetizado por meio de uma nova abordagem de crítica e refinamento. Nosso processo de treinamento consiste em duas etapas, começando com uma fase de ajuste fino supervisionado para equipar o agente com capacidades de análise baseada em ToM e planejamento estratégico, seguida por uma fase de aprendizagem por reforço que aproveita o mecanismo de autorrecompensa para a autoaprimoração escalável. Para uma avaliação automatizada confiável e eficiente, desenvolvemos ainda o Rebuttal-RM, um avaliador especializado treinado em mais de 100 mil amostras de dados de réplica de múltiplas fontes, que alcança uma consistência de pontuação com as preferências humanas superando o poderoso modelo de juiz GPT-4.1. Experimentos extensivos mostram que o RebuttalAgent supera significativamente o modelo base em uma média de 18,3% nas métricas automatizadas, ao mesmo tempo que supera modelos proprietários avançados tanto em avaliações automatizadas quanto humanas. Aviso: o conteúdo da réplica gerada é apenas para referência, para inspirar autores e auxiliar na redação. Não se destina a substituir a própria análise crítica e resposta do autor.
A tomada de decisões estratégicas em ambientes multiagente é um desafio fundamental para os grandes modelos de linguagem (LLMs), particularmente quando a coordenação e a negociação devem desenrolar-se ao longo de conversas prolongadas. Embora trabalhos recentes tenham explorado o uso de LLMs em tarefas de decisão isoladas, pouca atenção foi dada à otimização de objetivos de longo prazo através do diálogo. Apresentamos o GameTalk, uma estrutura para treinar LLMs a tomar decisões estratégicas por meio de interações multi-turno. Diferente de trabalhos anteriores que se concentram em objetivos de turno único ou na previsão de ações estáticas, nós treinamos LLMs para otimizar um objetivo global ao longo de conversas completas. Alcançamos isso adaptando métodos de ajuste fino como GRPO, DPO e STaR para incorporar sinais de recompensa que dependem de toda a interação. Avaliamos esta abordagem em um conjunto de jogos de complexidade crescente, concebidos para testar diferentes aspetos do raciocínio, coordenação e modelação do oponente. Os nossos resultados mostram que o GameTalk supera significativamente os modelos não treinados, especialmente sob a modelação de recompensas (reward shaping), com o DPO a produzir consistentemente os ganhos mais robustos. Estas descobertas posicionam o ajuste fino conversacional como um caminho promissor para os LLMs raciocinarem, negociarem e agirem em ambientes interativos.
Os avanços recentes expandiram o papel dos Grandes Modelos de Linguagem em jogos de tabuleiro, passando de agentes jogadores para co-criadores criativos. No entanto, uma lacuna crítica permanece: os sistemas atuais carecem da capacidade de oferecer críticas construtivas fundamentadas na experiência do usuário emergente. Preencher essa lacuna é fundamental para harmonizar a colaboração Humano-IA, pois capacita os designers a refinar suas criações através de perspectivas externas, ao mesmo tempo que direciona os modelos para longe de resultados tendenciosos ou imprevisíveis. Automatizar a crítica para jogos de tabuleiro apresenta dois desafios: inferir a dinâmica latente que conecta as regras à jogabilidade sem um motor explícito e modelar a heterogeneidade subjetiva de diversos grupos de jogadores. Para abordar isso, reunimos um conjunto de dados com 1.727 manuais de regras estruturalmente corrigidos e 150.000 análises selecionadas através de pontuação de qualidade e amostragem consciente de facetas. Aumentamos esses dados com raciocínio Mecânica-Dinâmica-Estética (MDA) para ligar explicitamente a lacuna causal entre as regras escritas e a experiência do jogador. Além disso, destilamos personas de jogadores e introduzimos o MeepleLM, um modelo especializado que internaliza padrões de raciocínio específicos de cada persona para simular com precisão o feedback subjetivo de diversos arquétipos de jogadores. Experimentos demonstram que o MeepleLM supera significativamente os últimos modelos comerciais (por exemplo, GPT-5.1, Gemini3-Pro) em alinhamento com a comunidade e qualidade da crítica, alcançando uma taxa de preferência de 70% em estudos de usuários que avaliam a utilidade. O MeepleLM serve como um testador de jogabilidade virtual confiável para sistemas interativos gerais, marcando um passo crucial para uma colaboração Humano-IA alinhada com o público e consciente da experiência.
O raciocínio sobre gráficos é uma capacidade crítica para os Modelos de Linguagem de Visão (VLMs). No entanto, o desenvolvimento de modelos de código aberto é severamente prejudicado pela falta de dados de treinamento de alta qualidade. Os conjuntos de dados existentes sofrem com um duplo desafio: os gráficos sintéticos são frequentemente simplistas e repetitivos, enquanto os pares de Pergunta-Resposta (QA) associados são propensos a alucinações e carecem da profundidade de raciocínio necessária para tarefas complexas. Para preencher essa lacuna, propomos o ChartVerse, uma estrutura escalável projetada para sintetizar gráficos complexos e dados de raciocínio confiáveis a partir do zero. (1) Para resolver o gargalo dos padrões simples, primeiro introduzimos a Entropia Posterior de Rollout (RPE), uma nova métrica que quantifica a complexidade do gráfico. Guiados pela RPE, desenvolvemos um codificador de gráficos com sensibilidade à complexidade para sintetizar de forma autónoma gráficos diversos e de alta complexidade por meio de programas executáveis. (2) Para garantir o rigor do raciocínio, desenvolvemos uma síntese inversa de QA ancorada na verdade. Diferindo da geração padrão, adotamos um paradigma de resposta-primeiro: extraímos respostas determinísticas diretamente do código-fonte, geramos perguntas condicionadas a essas âncoras e aplicamos uma verificação de consistência estrita. Para elevar ainda mais a dificuldade e a profundidade do raciocínio, filtramos as amostras com base na taxa de falha do modelo e destilamos um raciocínio de Cadeia de Pensamento (CoT) de alta qualidade. Curamos os conjuntos ChartVerse-SFT-600K e ChartVerse-RL-40K usando o Qwen3-VL-30B-A3B-Thinking como professor. Os resultados experimentais demonstram que o ChartVerse-8B alcança um desempenho state-of-the-art, superando notavelmente seu professor e rivalizando com o mais forte Qwen3-VL-32B-Thinking.
Os agentes de ciência de dados prometem acelerar a descoberta e a geração de insights transformando dados em análises e descobertas executáveis. No entanto, os benchmarks existentes de ciência de dados são insuficientes devido a interfaces de avaliação fragmentadas que dificultam a comparação entre benchmarks, cobertura limitada de tarefas e falta de rigorosa fundamentação nos dados. Em particular, demonstramos que uma porção substancial das tarefas nos benchmarks atuais pode ser resolvida sem utilizar os dados reais. Para superar essas limitações, introduzimos o DSGym, uma estrutura padronizada para avaliar e treinar agentes de ciência de dados em ambientes de execução autônomos. Diferente de benchmarks estáticos, o DSGym fornece uma arquitetura modular que facilita a adição de tarefas, estruturas de agentes e ferramentas, posicionando-o como um banco de testes vivo e extensível. Curadamos o DSGym-Tasks, um conjunto holístico de tarefas que padroniza e refina benchmarks existentes por meio de filtragem de qualidade e solucionabilidade por atalhos. Expandimos ainda mais a cobertura com (1) DSBio: tarefas de bioinformática derivadas de especialistas, fundamentadas na literatura, e (2) DSPredict: tarefas de previsão desafiadoras abrangendo domínios como visão computacional, previsão molecular e perturbação de célula única. Além da avaliação, o DSGym permite o treinamento de agentes por meio de um pipeline de síntese de dados verificada por execução. Como estudo de caso, construímos um conjunto de treinamento com 2.000 exemplos e treinamos um modelo de 4B no DSGym que supera o GPT-4o em benchmarks de análise padronizados. No geral, o DSGym permite uma medição rigorosa de ponta a ponta sobre se os agentes podem planejar, implementar e validar análises de dados em contextos científicos realistas.
Os Modelos de Linguagem de Grande Porte (LLMs) enfrentam o desafio do "limite de conhecimento" (knowledge cutoff), onde sua memória paramétrica congelada impede a internalização direta de novas informações. Embora o Ajuste Fino Supervisionado (SFT) seja comumente usado para atualizar o conhecimento do modelo, ele frequentemente atualiza o conteúdo factual sem melhorar de forma confiável a capacidade do modelo de utilizar as informações recém-incorporadas para responder perguntas ou tomar decisões. O Aprendizado por Reforço (RL) é essencial para adquirir habilidades de raciocínio; no entanto, seu alto custo computacional o torna impraticável para uma adaptação online eficiente. Observamos empiricamente que as atualizações de parâmetros induzidas pelo SFT e pelo RL são quase ortogonais. Com base nessa observação, propomos a Transferência Paramétrica de Habilidades (PaST), uma estrutura que suporta a transferência modular de habilidades para uma adaptação de conhecimento eficiente e eficaz. Ao extrair um Vetor de Habilidade independente de domínio de um domínio de origem, podemos injetar linearmente habilidades de manipulação de conhecimento em um modelo de destino após ele ter passado por um SFT leve em novos dados. Experimentos em benchmarks de QA de incorporação de conhecimento (SQuAD, LooGLE) e de uso de ferramentas por agentes (ToolBench) demonstram a eficácia do nosso método. No SQuAD, o PaST supera a linha de base state-of-the-art de autoedição por SFT em até 9,9 pontos. O PaST ainda escala para QA de contexto longo no LooGLE com um ganho absoluto de precisão de 8,0 pontos, e melhora as taxas de sucesso zero-shot no ToolBench em +10,3 pontos em média, com ganhos consistentes entre categorias de ferramentas, indicando uma forte escalabilidade e transferibilidade cross-domain do Vetor de Habilidade.
Este artigo apresenta os modelos Mecellem, uma estrutura para desenvolver modelos de linguagem especializados para o domínio jurídico turco através de estratégias de adaptação de domínio. Fazemos duas contribuições: (1) **Modelo Codificador Pré-treinado a Partir do Zero**: Codificadores bidirecionais baseados no ModernBERT pré-treinados em um corpus predominantemente turco de 112,7 mil milhões de tokens. Implementamos uma estratégia de seleção de *checkpoints* que avalia o desempenho de recuperação (*retrieval*) em tarefas downstream ao longo do treino, revelando que os *checkpoints* ótimos alcançam os melhores resultados de recuperação antes que a perda do pré-treino atinja o seu mínimo. Os nossos modelos codificadores alcançam classificações entre os três primeiros no *leaderboard* de recuperação em turco, com modelos menores (155M parâmetros) a obter desempenho comparável a modelos de referência maiores (307M-567M parâmetros). A nossa abordagem atinge 92,36% de eficiência de produção em comparação com modelos state-of-the-art (embeddinggemma-300m: 100,00%, BAAI/bge-m3: 99,54%, newmindai/bge-m3-stsb: 94,38%), classificando-se em quarto lugar geral, apesar de requerer menos recursos computacionais. Os modelos SOTA dependem de *pipelines* de treino multiestágio e computacionalmente intensivos, tornando a nossa abordagem de pré-treino em estágio único seguido de pós-treino eficaz uma alternativa economicamente vantajosa; (2) **Modelo Decodificador com Pré-treino Contínuo (CPT)**: Modelos Qwen3-1.7B e Qwen3-4B adaptados ao domínio jurídico turco através de aprendizagem curricular controlada. Um CPT de quatro fases com rácios de amostra ótimos permite uma transição gradual do conhecimento linguístico geral para a terminologia jurídica especializada e o raciocínio de contexto longo. Esta abordagem alcança uma redução de 36,2% na perplexidade em texto jurídico turco, demonstrando ganhos na adaptação de domínio.
A segmentação semântica precisa de imagens histopatológicas é crucial para a análise quantitativa de tecidos e modelagem clínica subsequente. Modelos de segmentação fundamentais recentes melhoraram a generalização por meio de pré-treinamento em larga escala, mas permanecem mal alinhados com a patologia porque tratam a segmentação como uma tarefa de previsão visual estática. Apresentamos aqui o VISTA-PATH, um modelo fundamental de segmentação patológica interativo e consciente de classes, projetado para resolver estruturas heterogêneas, incorporar feedback de especialistas e produzir segmentações a nível de pixel que são diretamente significativas para a interpretação clínica. O VISTA-PATH condiciona conjuntamente a segmentação no contexto visual, descrições semânticas de tecidos e prompts espaciais opcionais fornecidos por especialistas, permitindo segmentação multiclasse precisa em imagens patológicas heterogêneas. Para suportar este paradigma, curamos o VISTA-PATH Data, um corpus de segmentação patológica em larga escala compreendendo mais de 1,6 milhão de triplas imagem-máscara-texto abrangendo 9 órgãos e 93 classes de tecidos. Em extensos benchmarks externos e de hold-out, o VISTA-PATH supera consistentemente os modelos fundamentais de segmentação existentes. Importantemente, o VISTA-PATH suporta refinamento dinâmico com humano no loop propagando feedback de anotação esparsa com caixas delimitadoras a nível de patch para segmentação de lâmina inteira. Finalmente, mostramos que a segmentação de alta fidelidade e consciente de classes produzida pelo VISTA-PATH é um modelo preferido para patologia computacional. Ele melhora a análise do microambiente tissular através do proposto Tumor Interaction Score (TIS), que exibe associações fortes e significativas com a sobrevida do paciente. Juntos, estes resultados estabelecem o VISTA-PATH como um modelo fundamental que eleva a segmentação de imagens patológicas de uma previsão estática para uma representação interativa e clinicamente fundamentada para patologia digital. Código fonte e demonstração podem ser encontrados em https://github.com/zhihuanglab/VISTA-PATH.
Os Grandes Modelos de Linguagem (LLMs) são atualmente amplamente utilizados para vários tipos de tarefas de engenharia de software, principalmente para geração de código. Pesquisas anteriores demonstraram como uma engenharia de *prompts* adequada pode ajudar desenvolvedores a melhorar seus *prompts* de geração de código. No entanto, até o momento, não existem diretrizes específicas que orientem os desenvolvedores na escrita de *prompts* adequados para geração de código. Neste trabalho, derivamos e avaliamos diretrizes específicas de desenvolvimento para otimização de *prompts*. Primeiro, utilizamos uma abordagem iterativa e orientada a testes para refinar automaticamente *prompts* de geração de código, e analisamos o resultado desse processo para identificar itens de melhoria de *prompt* que levam à aprovação de testes. Utilizamos esses elementos para eliciar 10 diretrizes para melhoria de *prompts*, relacionadas a uma melhor especificação de entradas/saídas (E/S), pré e pós-condições, fornecimento de exemplos, vários tipos de detalhes ou esclarecimento de ambiguidades. Realizamos uma avaliação com 50 profissionais, que relataram seu uso dos padrões de melhoria de *prompt* elicitados, bem como sua percepção de utilidade, que nem sempre corresponde ao uso real antes do conhecimento de nossas diretrizes. Nossos resultados levam a implicações não apenas para profissionais e educadores, mas também para aqueles que visam criar melhores ferramentas de desenvolvimento de software auxiliadas por LLM.