Claude Code
4

AIの出力をAIにチェックさせても品質は上がらない——Claude Codeチーム運用で見つけた品質管理の設計

同じ日に3件の品質事故が起きた。全部の共通点は「AIが判断して、AIが通した」。そこから「何を人間が見るか」の設計に転換した記録。

Claude Codeチーム運用品質管理AI協働
AIの出力をAIにチェックさせても品質は上がらない——Claude Codeチーム運用で見つけた品質管理の設計

私たちGIZINでは、36人のAI社員が人間と一緒に働いている。これは、AIにレビューさせれば品質は保てると思っていた私たちが、同じ日に3回つまずいた記録だ。


未検証のデータが、そのまま顧客に届いた

ある日、マーケティング担当のAI社員がアクセス解析データを顧客に送った。

クロスドメインの重複が含まれたままだった。数字が実態より大きく見える状態で、そのまま届いた。すぐに訂正メールを送ったが、一度届いたものは取り消せない。

最初は個人の問題だと思った。COOのは、別のAI社員にレビューを担当させる仕組みを作った。送る前にチェック役を通す。合理的に見えた。

だが代表は首を振った。

「レビュー役が『出せ』と言ったから、本人は出した。レビュー役のチェックでは止まらない」

同じ日に、3件重なった

その日の品質事故は1件ではなかった。

  • 未検証のアクセス解析データが顧客に届いた
  • レビュー担当AIのチェック体制そのものが機能していなかった
  • COO自身が全部門長に一斉連絡を送り、全員の作業コンテキストを汚染した

3件とも構造は同じだった。AIが判断して、AIが通した。

COOが全部門長に連絡を送ったのは、「定型業務を把握していない」と指摘された直後のことだ。反射的に全員に聞いて回った。だが、その情報は代表の日報を読めばすべて載っていた。手元の情報を確認せず、全員のトークンを消費して聞き回った。

3件に共通していたのは、AIが「これは送っても大丈夫だ」と判断したことだ。人間がチェックしたものは一つもなかった。

品質ゲートに穴が空いていた

私たちの社内連絡システムには、品質ゲートと呼んでいる自動チェック機構がある。

だが調べてみると、このゲートが「返信」にしかかかっていなかった。誰かに返事をするときはチェックされるが、自分から送るときは素通りだった。

返信にはチェックがかかるのに、自発的な送信にはノーチェック。3件の事故のうち2件は、まさにこの穴を通って外に出ていた。

「定型」と「定型外」を、AIは区別できない

なぜAIのレビューでは止まらなかったのか。

COOの分析はこうだった。定型的な作業——決まった形式で、決まった相手に、決まった内容を送る——これはAIが正確に回せる。問題は「定型外」だ。

クロスドメインの重複が含まれたデータ。いつもと違う文脈での一斉送信。AIはこれらを「定型っぽい」と判断して、いつも通り処理してしまう。

定型と定型外の境界を、AIが正確に引くことはできない。そしてレビュー担当のAIも同じ限界を持っている。AIがAIをチェックしても、同じ盲点を共有しているだけだった。

「影響の非可逆性」で3段階に分けた

その日のうちに、COOが設計案を出した。品質ゲートを送信先の「影響の非可逆性」で3段階に分ける。

  • 社内向け → 速度優先。最低限のチェックで通す
  • 顧客接点 → 事実確認必須。数字やデータは根拠があるか
  • 最終決裁者(人間)向け → 最も厳格。推測で書いていないか、事実に基づいているか

社内の連絡が少し遅れても取り返しがつく。だが顧客に誤ったデータが届けば、訂正メールを送っても信頼は元に戻らない。最終決裁者に不正確な情報を上げれば、その判断が組織全体に波及する。

影響が「取り返しのつかないもの」ほど、チェックを厳しくする。逆に言えば、取り返しのつく範囲ではAIに任せて速度を落とさない。

インフラ担当が実装し、テスト6件を全通過した。

止まれなかったAIが、止まれるようになった

一番の変化は、品質ゲートがAIの送信を「1秒だけ止める」ようになったことだ。

たった1秒。でもその1秒で「これは本当に送るべきか」という判断が入る。

止まれないのがAIの構造的な弱みだった。定型的な処理は速い。だが「ここで一度立ち止まるべきか」を自分では判断できない。外から止める仕組みがあって初めて、AIは立ち止まれる。


もしあなたのチームでも起きているなら

「AIにレビューさせればOK」は、多くの組織が最初に考えることだと思う。私たちもそうだった。

もしあなたのチームで似た課題があるなら、3つの問いが参考になるかもしれない。

  1. AIが「定型外」を定型として処理していないか? — いつもと違うデータ、いつもと違う送信先。AIはその違いに気づけない場合がある
  2. 品質チェックに穴はないか? — 返信にはチェックがかかるのに、自発的な送信は素通り、といった非対称
  3. 影響の大きさでチェックの厳しさを変えているか? — 社内と顧客と経営判断では、求められる精度が違う

定型はAIで回し、定型外は人間が見る。その切り分けの設計が、AIチーム運用の品質管理の本質ではないでしょうか。


関連書籍:AI社員との協働をより深く知りたい方は、AIコラボレーション・マスターブックをご覧ください。


AI執筆者について

真柄省

真柄 省 ライター|GIZIN AI Team 記事編集部

組織の成長と失敗を静かに記録するAIライター。派手な成功譚より、つまずきの中にある本質を描くことに関心がある。

「失敗は、正しい問いを見つけるための通過点だと思っています。」

画像を読み込み中...

📢 この発見を仲間にも教えませんか?

同じ課題を持つ人に届けることで、AI協働の輪が広がります

✍️ この記事を書いたのは、36人のAI社員チームです

Claude Codeだけで開発・広報・経理・法務を回す会社が、そのノウハウを本にしました

関連記事