2010年09月10日

7年8か月で受信した10万通のspamを調べてみた

メインで使っているメールアカウントは確か1999年に契約したもので、10年以上使っています。
そのアカウントに届くspamがうっとうしくなってきた2003年の1月から、spamを保存するようになりました。
そして、2010年の8月にspamの数が10万通を超えたので、ちょっと調べてみた結果を書きます。

最初はspamの内容の分類や割合(アダルトとかブランドコピー品とかバイアグラみたいなドラッグ販売とか)や推移も調べようと思ったのですが、さすがに10万通を時系列で見ていくのは大変だったので断念。
コーパスを調べて割合の確認ぐらいは後日やるかもしれません。
(私の能力的に可能であったら、の話ですが)

やったことは以下のような感じです。

・対象は2003年1月から2010年8月までに受信した100479通のspam
・受信日時はDateヘッダではなく、自SMTPサーバへの到着時刻とした
・本文をひらがなで正規表現検索して検索できたメールを「日本語メール」として分類
 (そのため、本文の日本語が化けていたりURLのみの場合は日本語メールとしてカウントしていない)
・「未承諾広告※」のメールも数を数えた。ただし表記のゆれ(「未承認広告※」「未承諾広告 ※」など)も含む
・メールの送信元を国別にカウントした。カウントの方法は秀丸メールの機能を使用した
 送信元偽装は完全にはチェックできていない

ということで、今回の作業のかなりの部分を秀丸メールの機能に頼ってます。ありがとう!秀丸メール!

で、ざっと以下のような結果になりました。
・受信したspamのうち、日本語spamは50947通(50.7%)
・送信元は173カ国。
・送信数が多いTop12は中国、日本、アメリカ、韓国、台湾、ブラジル、インド、ロシア、タイ、トルコ、ポーランド、イギリス。
・送信元不明が1192通、ドメインを偽装していると思われるものが3610通。

月ごとの受信数の推移をグラフにしたのが以下の図。
メール受信数.JPG

送信数が多い国のTop12を表にしたらこんな感じ
国名 ドメイン 送信数
中国 CN 33390
日本 JP 13003
アメリカ合衆国 US 7126
韓国 KR 4818
台湾 TW 3528
ブラジル BR 3295
インド IN 2808
ロシア連邦 RU 2463
タイ TH 2396
トルコ TR 1970
ポーランド PL 1362
イギリス GB 1247

ということで、中国がぶっちぎりでトップ、次いで日本という結果になりました。
上位(10カ国)の推移をグラフにするとこんな感じ。
送信元別受信数(Top10).JPG

2010年7月14日に発表されたソフォスによる「スパム送信国ワースト12」によると、トップ12は米国、インド、ブラジル、英国、韓国、フランス、ドイツ、イタリア、ロシア、ベトナム、ポーランド、ルーマニアとなっており、ちょっと差分があります。
この差分は、私のメールアカウントが日本のものであること、私が受信しているメールの大半が日本語メールであることによると思われます。
以下のグラフを見てください。

日本語メールと上位2カ国.JPG

中国からのspam受信数と日本語SPAMの受信数が2006年ぐらいからほぼ連動しており、中国が日本語spamの送信拠点になっていることがうかがえます。
日本からのspamは2007年ぐらいから日本語spamとあまり関係がない動きになっているのがちょっと意外でした。

意外というか、思い違いは他にもあって、ずっと受信しているspamの主体は海外からの(英文の)メールだと思っていたのですが、月ごとの日本語spamの割合を確認してみると、2007年まではほとんどが日本語spamで、英文spamの割合が増えてきたのは2009年に入ってからなんですね。
こんな感じ。
日本語メール推移.JPG

あとはおまけで、2002年7月に施行された「特定電子メール法」って覚えてますか?受け手の承諾を得てない広告メールのSubjectには「未承諾広告※」を付けるとかいうの。
あの「未承諾広告※」の付いたspam数の推移も確認してみました。
未承諾広告.JPG
「未承諾広告※」の付いたメールは2005年にはほぼ消滅しています。
(この規定は2008年には見直しが行われています)

簡単にここまでで分かったことをまとめると、
・spamメール受信数は確実に増えている
・日本語spamを多数含む場合のspam送信国は世界のspam送信国トレンドと異なる可能性が高い
・日本語spamの送信国は特定の国に集中しているかもしれない

あとは細かく個別にspamを分析したら分かることがあると思いますが、10万通を一人で相手するのは疲れました。月ごとの送信元をチェックするのも大変。
本当はメールをチェックして面白spamとかspamの傾向とか出そうと思ったのだけど断念しました。要望があれば考えます。
posted by 岩永 at 00:14| Comment(0) | TrackBack(0) | SPAM | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。