Web 制作 (SEO, SEM, CSS, Web デザイン等) に関する話題を扱うフォーラムです。
新規ユーザー登録 | パスワードを忘れた
リンク : フォーラム | Su-Jine | ブログ | HTML PING WORLD | ポイ探 | 広告について
★東京オフ会予定 3/1 (土)
★大阪オフ会予定 2/23 (土)
オフ会FAQ
SEO (検索エンジン最適化) に関する話題を扱います。
トピック : クローラの情報
扱う話題は新しいクローラの情報、おかしなクローラの情報などです。
次の古いレス20件 << 最新のレス20件 >> 次の新しいレス20件
- No.1 - 2006年01月13日 12:52
Su-Jine (100ポイント)
-
新しいクローラの情報、おかしなクローラの情報等の情報交換が出来ればと思っています。こんなテンプレートで良いでしょうか?
【名前】BecomeBot
【クローラ情報】http://www.become.com/site_owners.html
【内容】商品検索サイトのロボット。
【拒否方法】
・robots.txt での拒否
User-agent: BecomeBot
Disallow: /cgi-bin/
・meta タグでの拒否
拒否できない
・IP アドレスでの拒否
64.124.85.0 - 64.124.85.255 (64.124.85.0/24)
【制御方法】
・robots.txt
User-agent: BecomeBot
Crawl-Delay: 30
Disallow: /cgi-bin
【コメント】
昨年、このフォーラムが重くなった時は Becomebot と言うクローラが原因でした。このクローラは REFERRER を残していくという、変わったクローラです。なので、どこからリンクを受けているのかがわかります。日本語には対応していないので、拒否しても問題ないと思います。
- No.2 - 2006年01月13日 21:23
BeeOnTheWeb (23ポイント)
-
【無駄なリクエストを繰り返すCrawler/Spider】
* Yahoo! Slurp China: *.inktomisearch.com
yahoo.comのクローラ(Yahoo! Slurp)とは独立に動いている様子で、ホストは中国にある。
しかし robots.txt の読み方は本家と同じらしく、Slurp China だけをクロール拒否することができない。
更に困ったことに、HTTP status 403 を返してもクロールが繰り返される。
* Yahoo! Slurp: *.inktomisearch.com
HTTP 404 を返しているのにインデクスを削除せず、リクエストを繰り返す。(Yahoo.comに通知済み)
* Hatena Antenna: ns.hatena.ne.jp
robots.txtを読まず、HTTP 403 も無視して、定期的にトップページだけ読みに来る。
* MSIE 5.5: *.em.gala.jp
クローラとみられるが、User-Agentは MSIE で、HTTP 403 を無視してクロールを続ける。
* Drecombot: career.drecom.jp
robots.txtでUser-Agentを指定していても、無視してクロールする。
- No.3 - 2006年01月18日 11:24
BeeOnTheWeb (23ポイント)
-
【Yahoo! Slurp が 404:File Not Found を識別か】
Slurpは、私のサイトの、半年以上も前にディレクトリごと削除したため存在しない多数のページを毎日リクエストし続けていたが、
その HTTP 404 エラーが、アクセスログに見られなくなった。
もう少し様子を見る必要があるが、ようやく削除済みページを認識するようになったらしい。
昨年10月にYahoo!に通知した際には、サーバが HTTP 404 を返すように設定してくれという返答があっただけで、
Slurpに不具合がないのかを確認してくれなかったらしい。
変化がないので今月に改めて通知したら、アクセスログを見たいというので、エラー部分を抜き出して提示したところ、
それに対する返事はないものの、上記の変化が見られた。
Slurpが削除済みページを繰り返しリクエストする問題は、世界のごく限られたサイトでのみ発生していたのだろうか。
- No.4 - 2006年07月20日 09:19
BeeOnTheWeb (23ポイント)
-
【 不良クローラ Baiduspider+ 】
User-Agent: Baiduspider+
発信元プロバイダ: China Network Communications Group
robots.txt を無視してクロールしまくる。
野放しにするのは資源の浪費。
中国からのアクセスを無視できるのなら、次の一行を追加すべし。
Deny from 202.108.
- No.5 - 2006年07月24日 09:13
BeeOnTheWeb (23ポイント)
-
Baiduspider+ は、ホストを変更してクロールを続行し始めた。
アクセスを拒否するには、User-Agent を指定する必要がありそう。(.htaccess)
- No.6 - 2006年08月27日 12:24
晴男 (53ポイント)
-
YSTのSlurpが、存在しないファイルにGETをかけているのを見かけたですが、これは何なのでしょう?
特徴は"SlurpConfirm404"というフォルダ内のファイルを探していることです。(もちろん、そんなフォルダやリンクを作成した覚えはありません。)
「404」の「Confirm」ですから、「存在しないファイルを要求」した時に、どのようなコードが返ってくるかを「確認」するために、やっていると思われますが、いかがでしょうか?
ロリポップで話題になったような「404時の302飛ばし」は、検索エンジンにとって、削除されたページを「削除されている」と正しく認識できず、無駄なクローリングを続けてしまうために、サーバー側の振る舞いを試しているのでは?と推測します。
うちにも来たよー。 とか、以前から来てるよー。とか、何か情報ありましたら、お教え下さい。
- No.7 - 2006年09月01日 15:55
晴男 (53ポイント)
-
自己レスです。
YSTに、「オシエテクレー!」と、メールしましたが
「検索結果に関する詳細については、回答できませーん。」という旨のお返事が返ってきました。
それから、後で気付いたのですが、「Confirm404」が来た前日には、Slurpクローラーが、以前存在したファイル(削除したために、今はありません)にアクセスしようとして、実際に「404」が発生していた。 ・・・というのがありました。
この二つの事象は、偶然かもしれませんが、もしかするとそうでないかもしれません。
- No.8 - 2006年09月28日 17:17
晴男 (53ポイント)
-
再び自己レスです。
投稿No.6での推測は、ほぼ正しかったようです。
ソースはこちらです。(Yahoo.com のヘルプページ)
http://help.yahoo.com/help/us/ysearch/slurp/slurp-10.html
404NotFound を、200OK と返すサーバーを調べるために、意図的にランダムな単語を組み合わせ、ありえないファイル名をジェネレートしてアクセスすることがあります。・・・と、(英語で)書いてあります。
それにしても、投稿No.7で書きましたが、「com」のヘルプページで明記しておきながら、「検索結果に関する詳細については、回答できません。」とは、Yahooジャパンのサポートは「なっとらん」です。
- No.9 - 2006年12月05日 23:33
きゃしゃ (100ポイント)
-
まさかのまさか、百度が日本進出ですってよ。
http://www.itmedia.co.jp/news/articles/0612/04/news065.html
- No.10 - 2006年12月06日 23:07
箱 (60ポイント)
-
みなさん、baidu(百度)のクローラって拒否してますか?
baiduクローラって「お行儀が悪いクローラ」って言われ方を
してるみたいですが。
アクセスログを見てみた感じでは、最近はそんなに無茶な
アクセスはしてきてないような気もしますけど、皆さんの
ところではどうでしょう?
日本に来ると言われると、(まぁほとんどシェアは獲得でき
ないでしょうけど)一応クロールしといてもらおうかな…とも
思ってしまいますね…。
- No.11 - 2006年12月07日 09:33
Su-Jine (100ポイント)
-
baiduは完全に拒否しています。
サーバにかなりの負荷がかかってしまいますので。
クロールと言うよりはDoS攻撃ですから。
- No.12 - 2006年12月07日 23:55
箱 (60ポイント)
-
Su-Jineさん、レスありがとうございます。
うーん、やっぱり拒否した方が良いんだろうか…。
ところで、少し気になったことがあります。
私のサーバはレンタルの共用サーバなのです。ということは、
私がそうやって気をもんでアクセス拒否とかしたところで、
他のシェアユーザへのアクセスはあるので、結局ほとんど意味が
無いんじゃないだろうか?と。
そのあたり皆さん(共用サーバ使用の方)はどう捉えているのでしょう?
(遠回しにレンタルサーバ屋さんに聞いてみるしかないかな)
- No.13 - 2006年12月08日 01:11
Su-Jine (100ポイント)
-
共用サーバだと、他の方が拒否しなければ負荷がかかりますからね。
各ページでデータベースとかを使っている場合は、相当の負荷がかかります。
静的な HTML の場合はそれほどの負荷にはならないと思います。
次の古いレス20件 << 最新のレス20件 >> 次の新しいレス20件
Copyright © 2008 Web 制作フォーラム by Su-Jine All rights reserved.