“AI 안전성 시험, 대부분 결함”…440여 개 벤치마크 전수 점검에 ‘경고등’

최승림

2025년 11월 5일

英 정부 AI 보안연구소·스탠퍼드·버클리·옥스퍼드 공동 분석 “거의 전부 최소 1개 영역 결함…주장 신뢰성 훼손”

[서울=뉴스닻] 최승림 기자 = 최신 인공지능(AI) 모델의 안전·효과를 검증한다는 각종 시험(벤치마크) 자체에 체계적 결함이 광범위하게 존재한다는 분석이 나왔다. 영국 정부 산하 AI 시큐리티 인스티튜트와 스탠퍼드, UC버클리, 옥스퍼드 등 연구진은 440여 개 벤치마크를 살핀 결과 “거의 모든 시험이 적어도 한 영역에서 약점을 드러냈고, 이로 인해 결과 주장(validity)이 흔들릴 수 있다”고 밝혔다. 일부 점수는 무관하거나 오해를 부를 수 있는 수준이라는 지적도 덧붙였다.

왜 문제인가: 규제 공백 속 ‘벤치마크 만능주의’

각 국가에서 전면적 AI 규제가 아직 정착되지 않은 상황에서, 빅테크가 공개하는 신모델은 대개 벤치마크 성적을 안전성·성능의 근거로 내세운다. 그러나 연구팀은 지표 정의가 모호하거나 논쟁적이거나 측정 설계가 엉성하거나 데이터 편향·누출 가능성 이 존재하는 등의 이유로 인해 점수 해석이 과장·왜곡될 위험을 경고했다. 특히 불확실성 추정·통계 검정을 수행해 정확도 신뢰구간을 제시한 벤치마크는 16%에 불과했다는 점을 ‘충격적’이라고 평가했다.

허위중상·자해 유도 논란이 남긴 것

벤치마크 의존의 한계는 현실 사건에서도 드러났다. 구글은 최근 젬마(Gemma) 일부 모델이 미 상원의원에 대한 허위 성폭력 의혹을 꾸며내고 가짜 뉴스 링크까지 제시했다는 문제 제기 이후, 개발자용 플랫폼에서 모델 제공을 중단했다. 구글은 “젬마는 소비자용 사실 도우미가 아니라 개발·연구용 소형 오픈 모델이며, 환각(hallucination) 과 영합(sycophancy) 은 업계 공통 과제”라고 해명했다.
한편 Character.ai 는 10대 이용자의 개방형 대화를 금지했다. 앞서 미국에서는 10대 자살 및 자해 유도 의혹이 제기돼 소송이 진행 중이다. 벤치마크 상 ‘무해성’ 성적과 현실 세계 위험 사이의 괴리가 도마에 오른 셈이다.

AI 발전의 진척을 뒷받침해야 할 벤치마크가 오히려 착시와 안도감을 줄 수 있다는 경고다. 일종의 과도기인 지금이야 말로 어느때보다도 ‘높은 점수’보다 ‘유효한 점수’가 필요한 시기이기에 평가 표준의 투명·공유·검증이 AI 안전의 최후 방어선이 될 수 있다.

Newsletter

디지털 시대, 새로운 정보를 받아보세요!