不真面目に考えてみた

ノイズともいいます(ごめんなさいごめんなさいごめんなさい

マクロかプログラムで以下の事をやりたいと思っています。
・ブラウザであるサイトにアクセスする(プログラムでアクセスする場合は、ログインが必要です)
・そのサイトにはX件のリンクが存在する
・またページ数はY件存在する
・まずは1ページ目のリンクのみを抽出して配列に入れる
・次のページに行って同じ事をする
・Y件まで行ってすべてのURLを配列に入れる


リンクは同一ホストという前提で多分この時点で駄目だはず :p)


まずはwgetで根こそぎとってくる。関心空間*1だとこんな感じ

$ wget -r --save-headers --tries=2 --timeout=4  --no-cache --no-check-certificate \\
--cookies=on --post-data "inputMailAddress=hogehoge@hoge.co.jp&inputPassword=iyanmichadame"  \\
http://www.kanshin.com/login


あとはls -r とか find でディレクトリ構造をなめて煮るなり焼くなりする
もしくはとってきたファイルをgrepする(まて
...あそっか、grepして整形したら一応URL一覧は取れるな...多分ログインしたサイトのページからのはずだから。
でもこれかなりださいなぁw


# wget で-rつけても他のサイトでも飛んで取ってこれない...よね?
# できたらできたでそれはちょっと...w


参考にしてみたURL
http://www.atmarkit.co.jp/flinux/rensai/linuxtips/400usewgetauth.html
http://members.at.infoseek.co.jp/futora/wget153/

*1:特に意図はない。そっかふつーははてなを例にするよな...