인공지능이 혐오 발언을 콕 집어 없앤다는데...
〈노동자 연대〉 구독
4월 24일자
이 프로젝트를 진행한 팀은 혐오표현을 7개 카테고리
이처럼 혐오표현을 분류하는 목적은 그런 표현들을 온라인에서 걸러내려는
먼저 드는 의문으로, 과연 혐오표현 분류기가 혐오를 정확하게 분류해 줄 수 있을까?
인공지능과 언어
혐오표현을 탐지하려면 인공지능이 인간의 언어를 학습하고 이해할 수 있어야 한다.
일부 간단한 혐오표현은 차단이 가능할지라도 맥락을 봐야 하는 말들은 걸러내기가 쉽지 않다. 같은 표현도 누가 누구에게 어떤 의도로 하느냐에 따라 그 의미가 천차만별일 수 있기 때문이다.
예컨대, 이 연구에 참여한 스마일게이트 AI센터 연구원은 ‘김치’ 한 단어만 적힌 문장을 분류에 어려움을 겪은 사례로 들었다.
또한 구글의 혐오표현 탐지 인공지능이 흑인들의 트위터 글을 백인들의 것에 비해 2배는 더 유해하다고 규정한다는 연구 결과가 나온 적도 있었다
오늘날에는 비하적 표현인 ‘니그로’
여전히 인공지능에게 인간 언어는 높은 장벽이다. 인간 언어는 사회적 상호작용의 수단이므로 그 복잡성과 미묘함, 구체성과 사회적 맥락 등을 인공지능이 완전히 이해할 수는 없다.
항의 표현도 검열될 수 있다
더 중요한 문제가 있다. 사실 바로 이 점 때문에 혐오발언 분류기 개발을 지지할 수 없다. 인공지능은 종종 차별받는 집단이 차별에 항의하면서 쓰는 표현도 검열할 수 있다.
시프트닌자는 약간 변형된 혐오표현들을 걸러내지 못했다. 퍼스펙티브는 혐오표현은 모두 걸러냈지만 차별적 함의가 없는 문장과 대항표현
“너무 적게 규제하면 문제를 해결할 수 없고, 너무 많이 규제하면 소외된 집단들이 자신을 방어하고 힘을 북돋으려고 사용한 언어들을 검열할 수 있다.”
“슬럿 워크”
한국의 혐오표현 분류기는 혐오 규정이 매우 느슨한 것도 문제다. 예컨대 구조적 차별의 대상이 아닌 기독교나 남성에 대한 표현도 포함한다. 잘못된 선입견
여성·성소수자 차별에 반대하는 사람이 기독교나 남성을 싸잡아 모욕하는 것은 좋지 않다. 그러나 차별에 분개해서 하는 표현들과 실제로 차별적인 표현을 똑같이 취급할 수는 없다.
무엇보다 편견은 토론하고 논쟁할 문제이지 검열할 문제는 아니다.
게다가 발화의 구체적 맥락을 따지지 않으면, 그저 공손하지 않은 말들을 모두 검열하는 결과를 낳을 수 있다.
증상 (혐오표현) 을 감춘다고 원인 (구조적 차별) 이 사라질까?
가장 중요한 문제는 이것이다. 설사 차별 받는 집단에 대한 혐오표현이라 해도 국가나 기업이 검열하는 것이 옳을까? 검열로 공론의 장에서 혐오표현을 없앤다고 해서 구조적 차별 또는 사회적 편견이 사라질까?
페이스북·트위터 등은 이미 인공지능 알고리즘으로 하루에도 수만 개의 글을 지우고 있다. 영국, 독일, 프랑스 등은 혐오표현을 법률로 규제하기도 한다. 그럼에도 혐오
검열은 구조적 차별을 없애지 못하고 도리어 경찰·검찰 같은 억압적 국가기구들의 권한 강화에 이용되기 쉽다. 그런 권한은 지배자들에 대한 비판과 항의도 검열하는 부메랑으로 돌아올 수 있다.
차별과 혐오는 자본주의 체제 안에 구조화돼 있다. 이 체제의 수혜자들이자 수호자들인 지배계급은 위기 시기일수록 차별과 반목을 대중 속에서 부추긴다. 혐오표현은 그런 썩어빠진 시스템에서 나타나는 증상이지 그 원인이 아니다.
체제에 저항하는 사람들이 많아질수록 차별을 표현하는 편견이 약화될 가능성이 더 커진다.
그리고 가능성을 현실로 바꾸려면, 표현 규제가 아니라 정치적 운동과 그를 위한 토론과 논쟁이 활성화돼야 한다.