コピペチェックの【一致率】を下げるコツ。CopyContentDetectorでの対策方法

1月 9, 2020

コピペチェックの【一致率】を下げるコツ。CopyContentDetectorでの対策方法

記事を作成し『CopyContentDetector』でコピペチェックをしたら、

 

在宅ワーカーの画像

一致率が【コピーの疑い】になってる!!

こんな経験ありませんか?

 

Webライターやブロガーの中にも愛用者が多い「CopyContentDetector(コピペチェックツール)」

私もクライアント様への納品前に使っていますが、オリジナルだと思った記事が「コピーコンテンツ」だと判定されると、思いのほかヘコんでしまいます。

そこでCopyContentDetectorでの判定基準、『一致率』における【要注意】【コピーの疑い】が出てしまったときに具体的な対処法、数値を下げるコツをご紹介します。

 

重複文章(コピーコンテンツ)は絶対NG!

クライアントからの契約やレギュレーションにも、”コピー&ペーストは禁止”と書いてありますよね。では何故、重複文章(コピーコンテンツ)がいけないのか?

理由は次の通り。

1. 著作権の侵害にあたる

2. Googleからの評価が下がる

3. クライアントからの信頼を失う

1.2.はライター案件に限らずブログでも一緒です。

実はGoogleには、デジタルコンテンツ(web上の文章)の著作権侵害を通告できる「DMCA(デジタルミレニアム著作権法)侵害申請」という仕組みがあります。

ちなみに申請はこちらからできます。

 

記事を”パクられた”と認知した相手がDMCAを申請 → 承認された場合、該当コンテンツは GoogleによりWeb上から削除されます。

また著作元が認知していなくともGoogleのクローラーが”重複文章”だと認知した場合、検索順位の大幅下落や検索インデックスから消される可能性もあります。

 

記事を納品した時点で著作権はクライアントに移行します。

なので記事が盗作だと発覚した場合に訴えられてしまうのは、ライターではなくクライアントです。

これに伴って起きるのは契約の取消だけでなく、クライアントからの賠償責任です。

ライターとして報酬を得る以上、知らなかったでは済まされないのが文章コピーによる著作権侵害です。

 

【CopyContentDetector】の一致率を下げる方法

クラウドソーシング案件の大半は、まとめ記事や物販・物販・商材系のアフィリエイト記事、悩み系などのテーマで書かれています。

記事には客観的な要素(数字や商品名)が多く入ることになり、どうしても文章が似たり寄ったりとなってしまいます。

結果、オリジナル記事を書いたと思いきや、CopyContentDetectorの一致率にて【要注意】【コピーの疑い】などの判定が出てしまうのです。

 

一致率が高いときにやるべきことは、まず該当箇所(部分的 or 全体的)を見つけることです。

CopyContentDetectorで判定結果の右横にある「詳細表示」をクリックすると、問題となっている箇所を見つけることができます。※下の画像参照

 

コピペチェックツールのスクリーンショット画像

 

コピーが疑われる箇所を発見したら、次のようなパターンで解決していきます。

 

キーワードを同義語に置き換える

キーワードをもとに記事を書けば当然、文章中の”キーワード出現率”が高くなり、同じキーワードで書かれたweb上の文章と重複してしまいます。

しかしだからといって、

・キーワードだけを削る → 主語が抜けて意味が通じなくなる×

・こそあど言葉で代用 → レギュレーション違反になる可能性×

なのでキーワードは同義語に変更です。

 

漢字をひらく(とじる)

一般的にとじる漢字をひらく(逆もあり)ことで、CopyContentDetectorの一致率を下げられる場合があります。

ただし本来”ひらく”べき漢字を閉じたままにすると、

・クライアントから指摘される
・漢字が増えて読みづらくなる

などの問題が発生しますので、修正は該当箇所のみにしておきましょう。

 

段落ごとリライトする

接続詞や文末を変える、文章の前後を入れ替える、といっただけでは一致率はなかなか下がりません。そもそも見比べればパクリとすぐに分かるでしょう。

リライトする時はワンフレーズだけでなく、段落丸々リライトしましょう。

 

【例】日本人は昔から米を食べてきましたが、食の欧米化の影響でパンを主食にする人たちが最近増えてきました。

 

この場合の事実は、

1. 日本人はお米を食べてきた

2. 最近はパン食の人が増えている

3. 食の欧米化が影響。

なので、

→ お米よりパンをメインに食べる日本人が増えているのは、欧米の生活様式が取り入れられた背景があります。

 

このくらいまでリライトするとかなり一致率の数字が下がります。

 

該当箇所を削除する

あれこれ悩むより、文字数が規定に達しているなら該当箇所(フレーズ)自体を削ってしまうのも一つの手です。

ビックキーワード(検索数が多いキーワード) をもとに書かれた記事は、どうしてもWeb上でコピーコンテンツ(の疑い)になりがちです。

削ってしまって問題ないのであれば、いっそ無くしてしまいましょう。

 

※補足 CopyContentDetectorの【テキスト間判定】は条件が異なるので注意!

※補足 CopyContentDetectorの【テキスト間判定】は条件が異なるので注意!

 

【類似度判定】【一致率判定】はWebサイト上にある文章に対しての比較です。

一方で【テキスト間判定】はCopyContentDetectorにて過去チェックした記事に対しての類似率です。つまり、同一文章をコピペチェックするほど、数字が高くなります。

この条件を知らないと、

「全然数字が下がらない(むしろ上がっていく・・)」

なんてことになり焦ってしまいます。

【テキスト判定】を正常値に戻すには、画面下に移動して過去データを消去します。

 

過去データ消去の解説画像

 

上記の方法、もしくはcookieを作動させないよう”シークレットモード”にてCopyContentDetectorでチェックするようにしましょう。

 

CopyContentDetectorで一致率を下げるためのライティング

ユーザーの検索意図を満たすべく文章を書いていくと、”先出の記事”と傾向が似てきます。

とくに数字的な部分は完全一致しても仕方がありません。

たとえば、

「日本の人口は1億2632万人です」

これは紛れもない事実なのでパクリも何もありませんし、クライアントから指摘されることもないでしょう。

 

一方、客観的な数字やデータ以外の部分を重複文章にしないためには、次のポイントを意識します。

・ 二画面(ウインドウ)を立ち上げたまま、リサーチ(+ライティング)しない。

・ 参考記事から一部をコピペ → リライトといった書き方をしない。

・ 上位記事の構成自体は参考にしない(文章の中身のみを参考にする)。

・ 専門用語は噛み砕いた表現に変える。

以上を意識すれば、CopyContentDetectorの一致率は下がり、納品前に焦ることもなくなるかと思います。

ぜひ参考にしてみてください。