노동자 연대

전체 기사
노동자연대 단체
노동자연대TV

인공지능이 혐오 발언을 콕 집어 없앤다는데...

여러 연구 결과들을 보면 인공지능들은 혐오표현만이 아니라 그와 무관한 표현이나 차별에 항의하는 표현들도 혐오표현으로 잘못 탐지하기도 했다 ⓒ출처 픽사베이

4월 24일자 〈경향신문〉에 ‘혐오발언 분류기’에 대한 기대 섞인 기사가 실렸다. 최근 몇몇 연구자들이 모여 온라인 상에서 어떤 발언이 혐오표현이고, 무엇에 대한 혐오인지 분류해 주는 ‘혐오발언 분류기’를 개발했다는 소식이었다.

이 프로젝트를 진행한 팀은 혐오표현을 7개 카테고리(지역, 종교, 인종·국적, 연령, 여성·가족, 성소수자, 남성)로 분류해 라벨을 붙였다. 각 카테고리별로 혐오표현 데이터 5000개를 모아서 분류기를 학습시켰다. 예컨대, 분류기는 ‘라도(전라도) 것들’이라는 표현에는 지역 혐오 라벨을, ‘페미 쿵쾅이’라는 표현에는 여성 혐오 라벨을 붙인다.

이처럼 혐오표현을 분류하는 목적은 그런 표현들을 온라인에서 걸러내려는(필터링) 것이다. 이 프로젝트는 국내 최대 게임회사의 하나인 스마일게이트가 의뢰한 것이다. 혐오표현 필터링은 기업의 신뢰도, 수익 등과 관련돼 IT 기업들에 중요하게 여겨진다.

먼저 드는 의문으로, 과연 혐오표현 분류기가 혐오를 정확하게 분류해 줄 수 있을까?

인공지능과 언어

혐오표현을 탐지하려면 인공지능이 인간의 언어를 학습하고 이해할 수 있어야 한다.

일부 간단한 혐오표현은 차단이 가능할지라도 맥락을 봐야 하는 말들은 걸러내기가 쉽지 않다. 같은 표현도 누가 누구에게 어떤 의도로 하느냐에 따라 그 의미가 천차만별일 수 있기 때문이다.

예컨대, 이 연구에 참여한 스마일게이트 AI센터 연구원은 ‘김치’ 한 단어만 적힌 문장을 분류에 어려움을 겪은 사례로 들었다.

또한 구글의 혐오표현 탐지 인공지능이 흑인들의 트위터 글을 백인들의 것에 비해 2배는 더 유해하다고 규정한다는 연구 결과가 나온 적도 있었다(워싱턴대학 박사과정 연구).

오늘날에는 비하적 표현인 ‘니그로’(보통 ‘깜둥이’로 옮긴다)가 종종 친구 관계의 흑인들 사이에선 자조와 농담, 친밀감이 뒤섞인 호칭으로 사용되기도 한다는 점을 인공지능이 이해하지 못했기 때문이다.

여전히 인공지능에게 인간 언어는 높은 장벽이다. 인간 언어는 사회적 상호작용의 수단이므로 그 복잡성과 미묘함, 구체성과 사회적 맥락 등을 인공지능이 완전히 이해할 수는 없다.

항의 표현도 검열될 수 있다

더 중요한 문제가 있다. 사실 바로 이 점 때문에 혐오발언 분류기 개발을 지지할 수 없다. 인공지능은 종종 차별받는 집단이 차별에 항의하면서 쓰는 표현도 검열할 수 있다.

〈MIT 테크놀로지 리뷰〉는 2021년 옥스퍼드 대학교와 앨런 튜링 연구소의 과학자들이 혐오표현 탐지 인공지능인 구글의 퍼스펙티브와 투햇의 시프트닌자를 대상으로 한 실험 결과를 실었다.

시프트닌자는 약간 변형된 혐오표현들을 걸러내지 못했다. 퍼스펙티브는 혐오표현은 모두 걸러냈지만 차별적 함의가 없는 문장과 대항표현(혐오에 항의하는 표현들)도 모두 걸러냈다.

“너무 적게 규제하면 문제를 해결할 수 없고, 너무 많이 규제하면 소외된 집단들이 자신을 방어하고 힘을 북돋으려고 사용한 언어들을 검열할 수 있다.”

“슬럿 워크”(한국에서는 “잡년 행진”) 같은 표현도 그런 사례일 것이다. 이는 한 캐나다 경찰관이 “성폭력의 피해자가 되지 않으려면 여성은 ‘잡년’처럼 입지 말아야 한다”고 한 말에 항의해 여성들이 벌인 시위였다.

한국의 혐오표현 분류기는 혐오 규정이 매우 느슨한 것도 문제다. 예컨대 구조적 차별의 대상이 아닌 기독교나 남성에 대한 표현도 포함한다. 잘못된 선입견(‘동양인은 수학을 잘 한다’ 등) 수준도 모두 혐오표현으로 규정하고 있다.

여성·성소수자 차별에 반대하는 사람이 기독교나 남성을 싸잡아 모욕하는 것은 좋지 않다. 그러나 차별에 분개해서 하는 표현들과 실제로 차별적인 표현을 똑같이 취급할 수는 없다.

무엇보다 편견은 토론하고 논쟁할 문제이지 검열할 문제는 아니다.

게다가 발화의 구체적 맥락을 따지지 않으면, 그저 공손하지 않은 말들을 모두 검열하는 결과를 낳을 수 있다.

증상(혐오표현)을 감춘다고 원인(구조적 차별)이 사라질까?

가장 중요한 문제는 이것이다. 설사 차별 받는 집단에 대한 혐오표현이라 해도 국가나 기업이 검열하는 것이 옳을까? 검열로 공론의 장에서 혐오표현을 없앤다고 해서 구조적 차별 또는 사회적 편견이 사라질까?

페이스북·트위터 등은 이미 인공지능 알고리즘으로 하루에도 수만 개의 글을 지우고 있다. 영국, 독일, 프랑스 등은 혐오표현을 법률로 규제하기도 한다. 그럼에도 혐오(그리고 그 표현)는 사라지지 않는다.(프랑스에서 인종차별적 나치가 집권 코앞까지 간 것을 보라.)

검열은 구조적 차별을 없애지 못하고 도리어 경찰·검찰 같은 억압적 국가기구들의 권한 강화에 이용되기 쉽다. 그런 권한은 지배자들에 대한 비판과 항의도 검열하는 부메랑으로 돌아올 수 있다.

차별과 혐오는 자본주의 체제 안에 구조화돼 있다. 이 체제의 수혜자들이자 수호자들인 지배계급은 위기 시기일수록 차별과 반목을 대중 속에서 부추긴다. 혐오표현은 그런 썩어빠진 시스템에서 나타나는 증상이지 그 원인이 아니다.

체제에 저항하는 사람들이 많아질수록 차별을 표현하는 편견이 약화될 가능성이 더 커진다.

그리고 가능성을 현실로 바꾸려면, 표현 규제가 아니라 정치적 운동과 그를 위한 토론과 논쟁이 활성화돼야 한다.