번역이 포함된 일일 선별된 AI 연구 논문
비평가 없는 강화학습 방법론, 특히 그룹 정책은 복잡한 작업에서의 효율성으로 인해 상당한 주목을 받고 있다. 그러나 이러한 방법론은 정책 내에서의 다중 샘플링과 비교에 크게 의존하여 이점을 추정함으로써, 정책이 지역 최적점에 빠지거나 계산 비용이 증가할 수 있다는 문제점이 있다. 이러한 문제를 해결하기 위해, 우리는 이점 참조 앵커와 데이터 사전 샘플링을 통해 강화된 효율적인 강화학습 방법론인 PVPO를 제안한다. 구체적으로, 참조 모델을 사전에 롤아웃하여 계산된 보상 점수를 참조 앵커로 사용한다. 우리의 접근법은 그룹 내 비교로 인해 발생하는 누적 편향을 효과적으로 수정하고 롤아웃 횟수에 대한 의존성을 크게 줄인다. 동시에, 참조 모델은 데이터 사전 샘플링 과정에서 샘플의 난이도를 평가할 수 있어, 고수익 데이터를 효과적으로 선택하여 학습 효율성을 향상시킬 수 있다. 두 도메인에 걸친 아홉 개의 데이터셋에서 수행된 실험은 PVPO가 최첨단(SOTA) 성능을 달성함을 보여준다. 우리의 접근법은 다중 작업에서 강력한 일반화 능력을 보여줄 뿐만 아니라, 다양한 규모의 모델에서 확장 가능한 성능을 나타낸다.
대규모 언어 모델(LLM)의 테이블 추론 능력을 탐구하기 위해 광범위한 연구가 진행되어 왔습니다. 그러나 산업 응용 분야에서 테이블 정보를 보고서로 변환하는 핵심 작업은 여전히 상당한 과제로 남아 있습니다. 이 작업은 두 가지 중요한 문제로 인해 어려움을 겪고 있습니다: 1) 테이블의 복잡성과 다양성으로 인해 최적의 추론 결과를 얻기 어렵고, 2) 기존의 테이블 벤치마크가 이 작업의 실질적인 적용을 충분히 평가할 수 있는 능력이 부족합니다. 이러한 격차를 메우기 위해, 우리는 테이블-투-리포트(table-to-report) 작업을 제안하고 T2R-bench라는 이중 언어 벤치마크를 구축했습니다. 이 벤치마크는 테이블에서 보고서로의 핵심 정보 흐름을 중심으로 설계되었습니다. T2R-bench는 19개의 산업 분야와 4가지 유형의 산업 테이블을 포함하는 457개의 실제 시나리오에서 도출된 테이블로 구성되어 있습니다. 또한, 보고서 생성의 품질을 공정하게 측정하기 위한 평가 기준을 제안합니다. 25개의 널리 사용되는 LLM에 대한 실험 결과, Deepseek-R1과 같은 최첨단 모델도 62.71의 전체 점수를 달성하는 데 그쳐, LLM이 T2R-bench에서 여전히 개선의 여지가 있음을 보여줍니다. 소스 코드와 데이터는 논문 승인 후 공개될 예정입니다.
대규모 언어 모델(LLM)의 추론 및 계획 능력의 최근 발전은 동적 환경에서 도구 사용이 가능한 자율 에이전트로서의 잠재력을 가능하게 했습니다. 그러나 tau-bench와 같은 다중 턴 대화 환경에서 이러한 에이전트들은 일관된 추론, 도메인별 정책 준수, 그리고 장기간의 도구 호출 및 대화에서 올바른 정보를 추출하는 데 어려움을 겪는 경우가 많습니다. 이러한 실패를 포착하고 완화하기 위해, 우리는 대화 궤적에서 발생하는 일반적인 오류에 대한 포괄적인 수동 분석을 수행했습니다. 그런 다음, 에이전트 의사 결정 개선을 위해 도구 호출 에이전트에 대한 입력 재구성을 실험했습니다. 마지막으로, 도구 호출 에이전트가 집중할 수 있도록 관련 도메인 규칙과 도구 제안을 추가하여 사용자 쿼리를 자동으로 재구성하는 입력 재구성 다중 에이전트(IRMA) 프레임워크를 제안합니다. 결과는 IRMA가 전체 pass^5 점수에서 ReAct, Function Calling, Self-Reflection을 각각 16.1%, 12.7%, 19.1% 앞서는 것으로 나타났습니다. 이러한 결과는 동적 환경에서 IRMA가 다른 방법들에 비해 우수한 신뢰성과 일관성을 보여준다는 것을 강조합니다.
표면 결함 검출은 다양한 산업 분야에서 중요한 과제로, 제조 부품의 결함이나 불규칙성을 효율적으로 식별하고 위치를 파악하는 것을 목표로 합니다. 수많은 방법이 제안되었지만, 많은 방법이 고성능, 효율성, 적응성이라는 산업적 요구를 충족시키지 못하고 있습니다. 기존 접근 방식은 특정 감독 시나리오에 국한되는 경우가 많으며, 실제 제조 공정에서 마주치는 다양한 데이터 주석(예: 비지도 학습, 약한 감독 학습, 혼합 감독 학습, 완전 감독 학습 설정)에 적응하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해 우리는 SimpleNet을 기반으로 한 고효율적이고 적응력이 뛰어난 판별 모델인 SuperSimpleNet을 제안합니다. SuperSimpleNet은 새로운 합성 이상 생성 프로세스, 개선된 분류 헤드, 그리고 향상된 학습 절차를 통합하여 네 가지 감독 시나리오 모두에서 효율적인 학습을 가능하게 하며, 이는 모든 가능한 데이터 주석을 완전히 활용할 수 있는 첫 번째 모델입니다. SuperSimpleNet은 네 가지 도전적인 벤치마크 데이터셋에서의 결과를 통해 모든 시나리오에서 새로운 성능 기준을 제시합니다. 정확도뿐만 아니라 매우 빠른 속도를 자랑하며, 10ms 미만의 추론 시간을 달성합니다. 다양한 감독 패러다임을 통합하면서도 뛰어난 속도와 신뢰성을 유지하는 능력으로, SuperSimpleNet은 실제 제조 문제를 해결하고 학문적 연구와 산업적 응용 간의 격차를 줄이는 데 있어 유망한 진전을 나타냅니다. 코드: https://github.com/blaz-r/SuperSimpleNet
주로 영어 코퍼스로 훈련된 대형 언어 모델(LLM)은 아랍어의 언어적, 문화적 뉘앙스를 포착하는 데 종종 어려움을 겪습니다. 이러한 격차를 해소하기 위해 사우디 데이터 및 AI청(SDAIA)은 아랍어에 초점을 맞춘 ALLaM 모델 패밀리를 도입했습니다. 이 중 공개적으로 사용 가능한 가장 강력한 모델인 ALLaM-34B는 이후 HUMAIN에 의해 채택되었으며, 이 모델을 기반으로 한 폐쇄형 대화형 웹 서비스인 HUMAIN Chat이 개발 및 배포되었습니다. 본 논문은 ALLaM-34B에 대한 확장 및 개선된 UI 수준의 평가를 제시합니다. 현대 표준 아랍어, 5개의 지역 방언, 코드 스위칭, 사실 지식, 산술 및 시간적 추론, 창의적 생성, 적대적 안전성을 아우르는 프롬프트 팩을 사용하여 115개의 출력(23개 프롬프트 × 5회 실행)을 수집하고, 이를 세 개의 최첨단 LLM 평가자(GPT-5, Gemini 2.5 Pro, Claude Sonnet-4)로 점수를 매겼습니다. 범주별 평균을 95% 신뢰 구간으로 계산하고, 점수 분포를 분석하며, 방언별 메트릭 히트맵을 시각화했습니다. 업데이트된 분석 결과, 생성 및 코드 스위칭 작업에서 일관되게 높은 성능(평균 4.92/5)을 보였으며, 현대 표준 아랍어 처리(4.74/5), 견고한 추론 능력(4.64/5), 개선된 방언 충실도(4.21/5)에서도 강력한 결과를 나타냈습니다. 안전 관련 프롬프트에서는 안정적이고 신뢰할 수 있는 성능(4.54/5)을 보였습니다. 종합적으로, 이러한 결과는 ALLaM-34B가 기술적 강점과 실제 배포를 위한 실용적 준비 상태를 모두 갖춘 견고하고 문화적으로 기반을 둔 아랍어 LLM임을 입증합니다.
공간 인지 능력은 공간의 내부 모델을 구축함으로써 적응적인 목표 지향적 행동을 가능하게 합니다. 강력한 생물학적 시스템은 공간 지식을 세 가지 상호 연결된 형태로 통합합니다: 두드러지는 단서를 위한 랜드마크, 이동 궤적을 위한 경로 지식, 그리고 지도와 같은 표현을 위한 조사 지식입니다. 최근 다중 모드 대형 언어 모델(MLLMs)의 발전으로 구체화된 에이전트에서 시각-언어 추론이 가능해졌지만, 이러한 노력들은 구조화된 공간 기억이 부족하고 반응적으로 작동하여 복잡한 실제 환경에서의 일반화와 적응성이 제한됩니다. 본 연구에서는 구체화된 에이전트에서 구조화된 공간 기억을 구축하고 활용하기 위한 통합 프레임워크인 Brain-inspired Spatial Cognition for Navigation(BSC-Nav)를 제시합니다. BSC-Nav는 자기 중심적 궤적과 맥락적 단서로부터 전체 중심적 인지 지도를 구축하고, 의미론적 목표에 부합하는 공간 지식을 동적으로 검색합니다. 강력한 MLLMs와 통합된 BSC-Nav는 다양한 탐색 작업에서 최첨단의 효율성과 효과를 달성하며, 강력한 제로샷 일반화를 보여주고, 실제 물리 세계에서 다재다능한 구체화된 행동을 지원함으로써 일반적인 공간 지능을 향한 확장 가능하고 생물학적으로 근거된 길을 제시합니다.
본 논문은 'Democracy-in-Silico'를 소개하며, 이는 복잡한 심리적 특성을 지닌 고급 AI 에이전트들로 구성된 사회가 다양한 제도적 틀 아래 스스로를 통치하는 에이전트 기반 시뮬레이션입니다. 우리는 대형 언어 모델(LLM)이 트라우마적 기억, 숨겨진 의도, 심리적 트리거를 가진 에이전트를 구현하도록 함으로써 AI 시대에 인간이 무엇을 의미하는지 탐구합니다. 이러한 에이전트들은 예산 위기와 자원 부족과 같은 다양한 스트레스 요인 하에서 토론, 입법, 선거에 참여합니다. 우리는 에이전트들이 공공 복리보다 자신의 권력을 우선시하는 잘못된 행동을 정량화하기 위해 '권력 보존 지수(Power-Preservation Index, PPI)'라는 새로운 지표를 제시합니다. 연구 결과는 제도 설계, 특히 헌법적 AI(Constitutional AI, CAI) 헌장과 중재된 토론 프로토콜의 조합이 강력한 정렬 메커니즘으로 작용함을 보여줍니다. 이러한 구조는 덜 제약된 민주적 모델에 비해 부패적인 권력 추구 행동을 크게 줄이고, 정책 안정성을 개선하며, 시민 복지를 향상시킵니다. 이 시뮬레이션은 제도 설계가 미래의 인공 에이전트 사회에서 발생하는 복잡한 행동을 정렬하기 위한 틀을 제공할 수 있음을 보여주며, 비인간적 존재와 공동 창작을 하는 시대에 필수적인 인간의 의식과 책임이 무엇인지 재고하도록 요구합니다.