リファーラースパム on ResearchArtisan & NewStatPress

リファーラースパム on ResearchArtisan & NewStatPress

アクセス解析では、まずちらりとJetpackをチェックした後、
NewStatPressをさらりと眺めて(詳細を見るのはほんの時々で)終わる。
ResearchArtisanLiteについては、
今はサーバー引っ越し後間もないこともあってけっこう覗きにはいくが
時間ごとのアクセス数の棒グラフを眺めるだけである。
問題ない日が続けば、おそらく足は遠のくであろう。
が今日、たまたまResearchArtisanLでリンク元ホストをチェックした。
当サイトにリンクを貼ってくれている奇特な方に興味を惹かれ、
検索サイト以外のふたつを検索してみた。ら、えらいことが分かった。

ひとつは日本のきちんとしたサイトであった。もうひとつは、これ、要注意なリファーラースパムサイトだぜ!と複数の記事あり。初めて知ったよ、リファーラースパムっていう言葉をさ(サイト運営者をねらった誘導悪質リンクってことで、以前から問題になっているらしい)。

でも、振り返ってみれば思い当たる節はある。日本以外の国からのアクセスって何だろうね、どうせスパムかなんかよね、と思って無視していたのがそれだ、たぶん。

対策を検索したら、ほとんどがGoogle Analyticsでの話し。ResearchArtisanだと、アクセス解析設定>フィルタ設定に、地道にIPアドレスを記入してくしかないのかな…。

でもこれ、限りなくかったるいよね。だってIPアドレスなんてくるくる変わったり(変えてきたり)するでしょ。こんなイタチごっこにつきあうほど私もヒマじゃないがね。

このリファーラースパムのおかげで、正確なアクセス解析が出来ない(アクセス数が水増しされてるわけで)というのはあるけれど、この数ヶ月で日本以外からのアクセスを見たらだいたい2割もないくらいだから、そのぶんを差し引いた数を見ればいいよね、深く考えずに。もうほんとお疲れさまというか、あほたれというか。

もうひとつ、引っ越し以来不思議だったのがNewStatPressのアクセス数がJetpackやResearchArtisanの二倍近いことと、IPアドレスの::1の多さ。IP別ページビューの7割ちかくがこの::1って..何?(だいたい自分はカウントさせてないし)。

それでじっくり、かつぼーっと眺めていて気が付いた。全てのアクセスに同時刻で同ページにIP::1もアクセスしてる。これって、つまり、そのIPに::1がダブってカウントされてるってこと?? どこかの設定の問題??? ようわからんけど、とりあえずオプションのフィルターに::1(1)を設定してみた。

参考:
増加する「リファラースパム」とは? その概要と対策について …
・サイト管理者を狙うリファラースパム!具体的な対策は? | MIGO…

その後 3/10

とりあえず、NewStatPress>概要>直近の状況 を見ると::1のカウントはなくなった。
それはいいんだけれど、またまた不思議なことに気付いた。
ResearchArtisanでは本日のアクセスは100%日本からなのだが、NewStatPressの概要>直近の状況>国/言語を見るとja 以外に es や xx というのがある。xxとは何語であろうか。とりあえずIPを調べるとロシアであった。ロシアなら ru であろうところ xx とは何ぞや。

今まで何も考えず、ほとんど気にもしていなかったことが気になる。xxは言語コードがわからないようにしているってことなのかな? でそういうのはResearchArtisanでは拾われないのだと? (➾ 国別リストの下部に「ドメインより、国を判別できたデータについて集計しています。」とあった。つまり、1日のアクセス総数-国別総数=怪しいアクセス数*1、ということか…)

ResearchArtisanではクローラーのアクセスをカウントさせていない。ではこれはクローラーなのか? でもクローラーがWindowsXPでIE6ってあり?そういえばだいたいがクローラーというものが何なのかよく知らないじゃん、私。単純にGoogleみたいな検索ロボットと解釈してたけど、もっとへんてこりんなのもあるのか? 古いOSでセキュリティに問題のある古いブラウザでしこしこやってるみたいな?

こういう基本のキみたいなことって、検索してもよくわかんないんだよね。とりあえず、NSP>オプション>データの収集で、 [スパイダーの訪問数を集計しない]にチェックを入れてみよう。でもそれでも、ちゃんとしたクローラ―以外はひろっちゃうのかな。

ただし、どうやらResearchArtisanの拾ってくる数値に海外アクセス%を差し引いてみておけばいいか、という暫定結論に変わりはなくて、良かったわResearchArtisan使えて。
(➾より正確には、上記*1の国別にカウントされない数も差し引く必要あり)

実はこれまで、NewStatPressだけでチェックしていた数値がある。OSとブラウザである。NewStatPressだとブラウザの種類だけではなくバージョンまで分かるので、IE対策で泣いていたころから、IE6なんかからどれだけアクセスがあるかを気にしていたのだ。

ちなみに、私が関わっている他のサイトに比べて、何故か当ブログがXP+IE6という組み合わせ%が高くて、あのMSの「リスク高いから使うな」的警告後も大きく変わっていなかったりしたのだ。

それだけ会社なんかで使ってる古いPCで見に来てくれる根強くも粘り強い方々がおられるのであろう、そのような方々に崩れたレイアウトで申し訳ないなあ、と思っていたのだ。心を痛めていたのだ。それがもしクローラーだったり、スパム野郎だったりするなら…、これまでの苦労は何だったのさ!というのと、もう気兼ねは要らないっじゃん!肩の荷降りるわ、とふたつなのである。

というところで一旦離脱。

日付が変わって復帰。
その後もNewStatPress の >国/言語では相変わらずxxがだだだーと並んでる。[スパイダーの訪問数を集計しない]にチェックを入れても変わらないようだ。で、ResearchArtisan側では、xxは(だけでなくesなんていうのも)拾っていない。

なんてことをやっていてさらに驚いたことがひとつ。概要のリストアップ数を増やして見てみたら、ウクライナのIPがWindows95+IE5で、しかも同じIPでWindows CE+IE3なんてのが来てるのだ。こんなOS初めて耳にするし、IE3ってのがなんだかすごい。いやー、世界は広くて知らないことがいっぱいあるのね。

あと、概要>直近のリファラーにどかんとリファーラースパムを見つけた。同時刻の>直近の状況 を見ると、アンゴラのIPで言語はpt(ポルトガル語)というのが来ていた。このwindows7とChrome47は関係ありやなしや? リファーラーのURLはhttp://top1-seo-service.com/try.php?u=https://provaiciao.jpとなっていて、アクセスすると”semalt.com”というウクライナのサイトに飛ばされる悪名高いスパムのもよう。

このSemalt、SEOツールを提供しているウクライナのサイトらしいが、その提供手法そのものがなんとスパムという。お金払ってアクセス上げてもらえて良かった良かった、と思いきや、それってスパムで上げた虚偽の数値なのよ。詳しい解説があってのけぞった。
Semalt.com によるリファラスパムを遮断する方法 (ASCII.jp 2015.2.5)

やっかいなことに、Semalt は一般的なクローラを利用していないことだ。 Semalt がスパムに利用しているクローラは、Soundfrost というユーティリティソフトに潜ませたマルウェアで乗っ取った、世界中のコンピュータで構成されるボットネットにより運用されている。セキュリティ企業の Incapsula によると、世界に散在する推定29万の異なるIPアドレスを持ち、一般的なスパム対策を掻い潜りつつスパムを試みるうえ、JavaScriptを実行可能でクッキーを保持するクローラを走らせているために Google Analytics などのレポート上は人間のトラフィックと判断されてしまう。さらにロボット排除プロトコル(REP)を完全に無視してアクセスするため、robots.txt や META Robots タグで遮断することができず、サーバの帯域を消費し負荷をかけている可能性もある。

ああ、もしかしたらXP+IE6なんかはこういう輩にのっとられた方々なのかも…。WordPress には Block Semalt というプラグインまであるというが、.htaccessで遮断できるというので、早速やってみよう。

上記サイトには二つの書き方が紹介されていたが、semalt 以外のリファラスパムドメインも遮断できるというのを書き入れてみた。

ResearchArtisanのリンク元ホストをもう一度見てみた。二月のホスト総数136。うち上位10位ぐらいまでで85%ほど。それ以下の見慣れないうさんくさいURLのほとんどは、おそらく上記のような、クローラーと認識されないクローラースパムなのではないか。

ResearchArtisanでこのリンク元ホストをクリックすると、そのサイトに飛ぶのではなく、そこから来たIPのリストを確認できる。ちなにみtop1-seo-service.comも30位に食い込んでおり、5件のアクセスがあった。それぞれのIPアドレスはバラバラで、4件はブラジルで、一件は日本、愛知県であった。

共通しているのはアクセスがトップページであることと、滞在時間がほんの一瞬であること。もちろん、海外からでもきちんとしたリンク元もあって、googole.itとか、googole.fiとかから検索して来てくれた方が、直接その記事にたどり着き、3分53秒かけて読んでくれていたりはする。

しかし、ResearchArtisanの2月の国別集計を見ると(アイキャッチ画像)、ツバルとか、どこだかまったく知らない国の名があって、なんだかしみじみしてしまった。

サントメ・プリンシペってどこだろうと検索したら、ナイジェリアの南「西アフリカのギニア湾に浮かぶ火山島であるサントメ島、プリンシペ島、そしてその周辺の島々から成る共和制の島国」だった。

この問題、海外からのアクセスを遮断すればかなりすっきりはするんだろうけれど、海外在住日本人もいるし、たとえスパムでもサントメ・プリンシペなら1回くらいいいか、と思ってしまう私。

その後 3/11

.htaccessに追記したコードは、ちょうど1年前の記事で紹介されていたものである。状況は変わっているはずだ。それでも、NewStatPress>概要の項目を見るに(表示数100にしている)、感触的には効果があったような気はする。

●直近の状況
➾ XP+IE6がかなり減った。

●直近のリファラー
➾ あきらかに怪しい文字列のドメインは10%ほど。とくに.htaccess設置時間以降は気持ち減っているようにも見える。が、http://top1-seo-service.comはその後も1件。設置直後だから?

リファラースパムについて検索すると、相当の記事がヒットする。どうやらメインターゲットはGoogle Analytics らしい。古い記事では2008年なんてのもあるけれど、去年あたりから増えたような印象。

面倒だなあ。これ以上ハマりたくないなあ。だってキリがないでしょこれ。ブログ開設以来解析ページをこんなにねっとり眺めるのは初めてのこと。面白くもあるけれど、疲れてもきた。とはいえ、仕事がサイト運営という方にとってはかなりの問題であろうことはわかる。目に留まったサイトをいくつか。

・参照元スパム対策をしてわかったこと

リファラスパムとは、ウェブのアクセス解析データの参照元情報を不正に送り記録すること。機械的にアクセス情報を残していくわけですが、Googleアナリティクスのような外部の解析ツールでは、実際にウェブサイトにアクセスすることなく、ユーザーが来たことを装い参照元の記録を残していく悪質なものが流行っています。darodar.com、simple-share-buttons.comやロシアのドメイン.ruがついたものなど、リファラスパムは次から次へと増えています。

プロ(ウェブ解析士マスター資格保有)の方の記事。しかし、実際にアクセスしていないのなら、では .htaccessは効くのだろうか?

リファラスパムからアクセス解析(Google Analytics)のデータを守る対策

2015年12月3日現在までに観測できたリファラスパムボットが78リストアップされている。これを.htaccessに記述せよと。どうしよう…。

[見つけ次第更新] リファラースパムリスト Google Analytics

2016年1月8日更新でリファーラー数621である。ううう…。

あなたのアクセス解析は間違っている?! 超簡単リファラースパムを除外する方法

Google Analytics では「とにかくフィルタリングするしかない」という解説が多いけれど、これはいちいちやらなくてもいいよ、ということらしい。

上記はよさそうである。Google Analytics の精度にかかわる問題なので、いたちごっことはいえ、それなりに対応策は出てくるのかもしれない。しかしそれ以外のアクセス解析では? もしこのような形で精度性が高まるとなれば、Google Analytics利用者が一気に増える、ことになるのかなあ…。

しかしながら、わがResearchArtisanLiteには有料版がある、NewStatPressにもあるよね。そのような解析のプロ版はどうなのであろうか。問題が大きくて山頂部で対応がなされるなら、それが裾野の無料ユーザーに降りてくるようなこともある、のだろうか。

 

  • トップへ戻る
  • カテゴリアーカイブ
  • HOME

コメント

メールアドレスが公開されることはありません。* は必須項目です。


*