옥스퍼드 연구 “AI 챗봇으로 건강 진단, 위험할 수 있다”

[서울=뉴스닻] 김 크리스 기자 = 최근 University of Oxford 연구진이 인공지능(AI) 챗봇을 이용해 건강 문제를 진단하는 것이 “위험할 수 있다”고 경고했다.

AI 챗봇은 감기, 두통, 복통 같은 증상에 대해 빠르게 답을 주기 때문에 많은 사람들이 의료 상담 전 참고용으로 사용하고 있다. 하지만 연구진은 실제로 이러한 답변이 얼마나 정확한지 실험을 통해 확인했다.

1,300명 실험… 정확도는 절반 수준

연구에는 영국 성인 약 1,300명이 참여했다. 참가자들은 네 그룹으로 나뉘었고, 세 그룹은 각각 GPT-4o, Llama 3, Command R+ 같은 AI 챗봇을 사용했다. 나머지 한 그룹은 AI 없이 인터넷 검색이나 자신의 판단에 의존했다.

의사들이 미리 만든 10가지 의료 상황을 제시한 뒤, 참가자들이 어떤 질환이라고 판단했는지, 그리고 병원에 가야 하는지·응급실을 가야 하는지 등 어떤 행동을 선택했는지를 비교했다.

그 결과, AI를 사용한 그룹이 특별히 더 나은 결정을 내리지 못한 것으로 나타났다.
정확도는 GPT-4o가 64.7%로 가장 높았지만, Command R+는 55.5%, Llama 3는 48.8%에 그쳤다. 평균적으로 보면 절반 수준의 정확도에 머문 셈이다.

“의사 역할 대체 아직 멀었다”

연구를 이끈 레베카 페인 박사는 “AI는 아직 의사를 대신할 준비가 되어 있지 않다”며 “잘못된 진단을 내리거나 긴급 상황을 놓칠 위험이 있다”고 지적했다.

연구진은 특히 사용자가 어떤 정보를 얼마나 제공해야 하는지 모르는 경우가 많아, AI가 불완전한 정보를 바탕으로 답을 내릴 수 있다는 점도 문제로 꼽았다.

전문가들은 AI가 의료 보조 도구로 활용될 가능성은 인정하면서도, 최종 판단은 반드시 의료 전문가가 내려야 한다고 강조한다. AI는 참고 자료일 뿐, 진단과 치료를 책임질 수 있는 존재는 아니라는 것이다.