
イベント
悪質な暴言からスタッフの心を守り,“冤罪”を減らすために採用されたのはAIの合議制だった[CEDEC 2025]
![]() |
開発者向けカンファレンス CEDEC 2025では,AIに自動で暴言を摘発させる取り組みに関する講演「『使える!』不適切投稿自動摘発AIモデルを作る - トレーニングデータをどう作成するか」が行われた。
なお,講演で取り上げている事例は,セガに所属する登壇者の経験から再構成されたもので,同社のタイトルとは一切関係ないとのことだ。
![]() |
プレイヤー同士がチャットできるゲームでは,残念ながら暴言を吐き,誹謗中傷を行う悪質なプレイヤーが存在する。運営スタッフも止めようとするが,効き目は薄い。やがてターゲットとなったプレイヤーだけでなく,運営スタッフも心を病んでしまいがちだ。
文字のみのメッセージとはいえ,暴言の破壊力は大きい。講演に先立ち,セガ社内でリハーサルを行ったところ,受講者役のスタッフの中には精神的苦痛のあまり途中でリタイアする者も出たり,「こんな暴言を見せないで」と苦情が寄せられたりしたという。
受講者役でさえこうなのだから,実際に暴言を浴びている者の苦痛たるや想像を絶するものがある。スライドでは伏字が使われていたが,運営スタッフは“原文”を毎日毎日処理しなければならない。
![]() |
![]() |
![]() |
こうした処理を円滑化し,スタッフの心を守るべく,AIが導入されることになった。
まずは,GoogleのSLM(小規模言語モデル)であるGemma2が使われたものの,「戦犯すみません」というゲームでは日常的な一言にNG判定を行うなど,満足のいく成果が出なかったという。
発言者自身は「自分のせいで負けてしまい,申しわけありません」という自省の意味で,戦犯という言葉を使っている。しかし,AIは「戦犯=犯罪行為を示す単語」なので,軽々しく使ってはならないと判定したのだ。
このように本来であればNGではない単語がNGとされるケースについて,今回の講演では“冤罪”と表現されている。無辜のユーザーを“冤罪”に巻き込むのは,ゲームを運営するうえで防がなければならない。
より検出の精度を上げるべく, 2万件の暴言に「OK」もしくは「NG」のラベルが付いたものが用意され,AIのファインチューニング(学習済みのAIに対し,別のデータで学習させること)が行われた。
![]() |
学習を終えたAIの精度は上がったものの,同じ単語であっても判断にブレが生じることになった。例えば「アホ」という単語が入った暴言でも,OKになる場合とNGになる場合が出てきたのだ。
その理由は,学習元のデータに人間が付けた判断がブレていたことにある。このデータは暴言に対し,複数の担当者が「OK」「NG」のラベルを付けている。アホという単語を1つとっても「無条件でNG」「許容する」「前後の文脈に応じて判断する」という,担当者によってジャッジがさまざまであったため,これを学習したAIもブレてしまった。
もちろんラベルを付ける基準や判断について,担当者は事前に擦り合わせている。しかし,テーマが会話であるだけに状況が多岐にわたり,ブレることはどうしても避けられなかったそうだ。
![]() |
![]() |
こうした結果を受けて,2つのAIを使う「ツインモデル合議制」が採用された。NGの例を多く学習させて厳しく判断する「HARDモデル」と,OKの例が多く甘めの「SOFTモデル」,2つのAIにそれぞれ裁定を行わせ,両者の評価が一致した際に最終評価として採用する。
評価が割れた場合は「プレデータ」として,人間がラベリングを行うという手法だ。
ラベリングにあたって,人間の作業環境も改善された。同じ単語が使われた別のケースでは,どういったジャッジが下されたかをリストとして参照でき,ほかの担当者の判断がリアルタイムで反映されるシステムが作られ,ブレが少なくなるようにしている。
また,ワードのNG率を検知し,冤罪になり続けるものは,あらためてファインチューニングを行う。
![]() |
![]() |
多角的な取り組みの甲斐があり,冤罪率は単一AIにおいて16%だったものが,ツインモデル合議制では3%に減少した。しかし,最終的に目指すのは冤罪のない0%である。
これを実現するには,従来の仕組みとAIを組み合わせ,対象ユーザーの発言履歴も使うといった工夫も行っていくべきとのことだった。
![]() |
メッセージをやり取りできる限り,暴言の問題は避けられない。NGワードをすり抜けるための抜け道が探され,定型文のみを送れる形にしても完全な対策にはならない。とある対戦ゲームでは,状況に合わない定型文を連打することで別の意味を持たせて,相手を責める行為が常態化していた。
問題を悪化させないためには,ユーザー動向の注視と,文字列の機械的フィルタリングに留まらない継続的な取り組みが必要だ。しかし,悪質なユーザーはそうそう引き下がることはなく,運営スタッフも疲弊していく。冤罪のない完璧な取り締まり,対象ユーザーの完璧な排斥といった理想論が通用しない以上,運営スタッフの負担をできるだけ少なくする現実的な手法を探るしかない。
今回の講演は,AIの精度が満足のいくものでなかったとき,2つのAIによる合議制という新たな解決を図ったのがポイントだろう。学習データの向上に固執し,スタッフにさらなる負担をかける選択をしなかったのは,「スタッフを守る」という本来の目的を見失わなかったからではないか。AI活用の事例として興味深く,同時にあらゆる可能性を探ることの大切さも分かった。
CEDEC 公式サイト
4Gamer「CEDEC 2025」記事一覧
- 関連タイトル:
講演/シンポジウム
- この記事のURL: