Home

OFF-SOFT.net

OFF-SOFT.net

This site is support & information site of WEB,and Software. This site might help you that create software or Web Site…perhaps?[:]

How to download all files of any web site with Wget.

Published on| July 11th, 2009 | No Comment.
Description:
And has been the site management and maintenance, the site offline, if you want. And renewal of the site, and the verification of the rival site.
When that, Wget, a little may help.

WGet, officially, "GNU Wget" is called. The bottom line, GNU project in a single artifact, of course, GNU is provided by the license.


Download tools, curl, aria2 there. Wget one. Recursive Wget download of one of the main features of the site (the site download all the HTML files all follow the links to the file). These features, curl has some features as well. GUI with the curl in the famous download tool, GetLeft. If no request is fine, if you want to download an entire site, GetLeft think is better.
Wget specified conditions is very small compared to.

Wget, you can use it, you'll see that it is considered good. (Some may Maniac orientation) robot.txt and they recognize it, blindly, and avoid the devastation of another site.
In addition, GUI has been created in other versions of open source projects, most (as far as I know all), Wget They can be set as a parameter of the graphics in the GUI running is going on. (FUREMASU the end of the article. )

※ This is, C # (2008) it has been developed,. Net may require the latest.
The authors environment, C # (2008) it contains, ZIP extraction was the only work, not in such environment, run the installation from the installer, if you do not work, below. net please try to download. (In most cases, trying to download something, but you need automatically. )


Install
Wget destination site, wget-1.11.4-1-bin.zip, wget-1.11.4-1-dep.zip 2 and download the files. (In some versions, the file name may be different. )



Once downloaded, wget-1.11.4-1-bin.zip, wget-1.11.4-1-dep.zip to extract to the same directory.

This installation is complete.

Let's use
Start the command prompt, wget-1.11.4-1-bin.zip, wget-1.11.4-1-dep.zip directory where you extracted the \ bin and then move the current.
(Extracting the destination directory, bin, you should have a directory that is created. )

%解凍したディレクトリ%\bin> wget -h
 
SYSTEM_WGETRC = c:/progra~1/wget/etc/wgetrc
syswgetrc = %解凍したディレクトリ%/etc/wgetrc
GNU Wget 1.11.4, 非対話的ネットワーク転送ソフト
使い方: wget [オプション]... [URL]...
 
長いオプションで不可欠な引数は短いオプションでも不可欠です。
 
スタートアップ:
  -V,  --version           バージョン情報を表示して終了する
  -h,  --help              このヘルプを表示する
  -b,  --background        スタート後にバックグラウンドに移行する
  -e,  --execute=COMMAND   .wgetrc'形式のコマンドを実行する
 
ログと入力ファイル:
  -o,  --output-file=FILE    ログを FILE に出力する
  -a,  --append-output=FILE  メッセージを FILE に追記する
  -d,  --debug               デバッグ情報を表示する
  -q,  --quiet               何も出力しない
  -v,  --verbose             冗長な出力をする (デフォルト)
  -nv, --no-verbose          冗長ではなくする
  -i,  --input-file=FILE     FILE の中に指定された URL をダウンロードする
  -F,  --force-html          入力ファイルを HTML として扱う
  -B,  --base=URL            相対 URL(-F -i 使用時) のベース URL を指定する
 
ダウンロード:
  -t,  --tries=NUMBER            リトライ回数の上限を指定 (0 は無制限).
       --retry-connrefused       接続を拒否されてもリトライする
  -O,  --output-document=FILE    FILE に文書を書きこむ
  -nc, --no-clobber              存在しているファイルをダウンロードで上書きしない
  -c,  --continue                部分的にダウンロードしたファイルの続きから始める
       --progress=TYPE           進行表示ゲージの種類を TYPE に指定する
  -N,  --timestamping            ローカルにあるファイルよりも新しいファイルだけ取得する
  -S,  --server-response         サーバの応答を表示する
       --spider                  何もダウンロードしない
  -T,  --timeout=SECONDS         全てのタイムアウトを SECONDS 秒に設定する
       --dns-timeout=SECS        DNS 問い合わせのタイムアウトを SECS 秒に設定する
       --connect-timeout=SECS    接続タイムアウトを SECS 秒に設定する
       --read-timeout=SECS       読み込みタイムアウトを SECS 秒に設定する
  -w,  --wait=SECONDS            ダウンロード毎に SECONDS 秒待つ
       --waitretry=SECONDS       リトライ毎に 1 - SECONDS 秒待つ
       --random-wait             ダウンロード毎に 0 - 2*WAIT 秒待つ
       --no-proxy                プロクシを使わない
  -Q,  --quota=NUMBER            ダウンロードするバイト数の上限を指定する
       --bind-address=ADDRESS    ローカルアドレスとして ADDRESS (ホスト名か IP) を使う
       --limit-rate=RATE         ダウンロード速度を RATE に制限する
       --no-dns-cache            DNS の問い合わせ結果をキャッシュしない
       --restrict-file-names=OS  OS が許しているファイル名に制限する
       --ignore-case             ファイル名/ディレクトリ名の比較で大文字小文字を無視する
  -4,  --inet4-only              IPv4 だけを使う
  -6,  --inet6-only              IPv6 だけを使う
       --prefer-family=FAMILY    指定したファミリ(IPv6, IPv4, none)で最初に接続する
       --user=USER               ftp, http のユーザ名を指定する
       --password=PASS           ftp, http のパスワードを指定する
 
ディレクトリ:
  -nd, --no-directories           ディレクトリを作らない
  -x,  --force-directories        ディレクトリを強制的に作る
  -nH, --no-host-directories      ホスト名のディレクトリを作らない
       --protocol-directories     プロトコル名のディレクトリを作る
  -P,  --directory-prefix=PREFIX  ファイルを PREFIX/ 以下に保存する
       --cut-dirs=NUMBER          リモートディレクトリ名の NUMBER 階層分を無視する
 
HTTP オプション:
       --http-user=USER        http ユーザ名として USER を使う
       --http-password=PASS    http パスワードとして PASS を使う
       --no-cache              サーバがキャッシュしたデータを許可しない
  -E,  --html-extension        HTML 文書は .html' 拡張子で保存する
       --ignore-length         Content-Length' ヘッダを無視する
       --header=STRING         送信するヘッダに STRING を追加する
       --max-redirect          ページで許可する最大転送回数
       --proxy-user=USER       プロクシユーザ名として USER を使う
       --proxy-password=PASS   プロクシパスワードとして PASS を使う
       --referer=URL           Referer を URL に設定する
       --save-headers          HTTP のヘッダをファイルに保存する
  -U,  --user-agent=AGENT      User-Agent として Wget/VERSION ではなく AGENT を使う
       --no-http-keep-alive    HTTP の keep-alive (持続的接続) 機能を使わない
       --no-cookies            クッキーを使わない
       --load-cookies=FILE     クッキーを FILE から読みこむ
       --save-cookies=FILE     クッキーを FILE に保存する
       --keep-session-cookies  セッションだけで用いるクッキーを保持する
       --post-data=STRING      POST メソッドを用いて STRING を送信する
       --post-file=FILE        POST メソッドを用いて FILE の中味を送信する
       --content-disposition   Content-Disposition ヘッダがあれば
                               ローカルのファイル名として用いる (実験的)
       --auth-no-challenge     サーバからのチャレンジを待たずに、
                               Basic認証の情報を送信します。
 
HTTPS (SSL/TLS) オプション:
       --secure-protocol=PR     セキュアプロトコルを選択する (auto, SSLv2, SSLv3, TLSv1)
       --no-check-certificate   サーバ証明書を検証しない
       --certificate=FILE       クライアント証明書として FILE を使う
       --certificate-type=TYPE  クライアント証明書の種類を TYPE (PEM, DER) に設定する
       --private-key=FILE       秘密鍵として FILE を使う
       --private-key-type=TYPE  秘密鍵の種類を TYPE (PEM, DER) に設定する
       --ca-certificate=FILE    CA 証明書として FILE を使う
       --ca-directory=DIR       CA のハッシュリストが保持されているディレクトリを指定する
       --random-file=FILE       SSL PRNG の初期化データに使うファイルを指定する
       --egd-file=FILE          EGD ソケットとして FILE を使う
 
FTP オプション:
       --ftp-user=USER         ftp ユーザとして USER を使う
       --ftp-password=PASS     ftp パスワードとして PASS を使う
       --no-remove-listing     .listing' ファイルを削除しない
       --no-glob               FTP ファイル名のグロブを無効にする
       --no-passive-ftp        "passive" 転送モードを使わない
       --retr-symlinks         再帰取得中に、シンボリックリンクでリンクされた先のファイルを取得する
       --preserve-permissions  リモートファイルのパーミッションを保存する
 
再帰ダウンロード:
  -r,  --recursive          再帰ダウンロードを行う
  -l,  --level=NUMBER       再帰時の階層の最大の深さを NUMBER に設定する (0 で無制限)
       --delete-after       ダウンロード終了後、ダウンロードしたファイルを削除する
  -k,  --convert-links      HTML 中のリンクをローカルを指すように変更する
  -K,  --backup-converted   リンク変換前のファイルを .orig として保存する
  -m,  --mirror             -N -r -l 0 --no-remove-listing の省略形
  -p,  --page-requisites    HTML を表示するのに必要な全ての画像等も取得する
       --strict-comments    HTML 中のコメントの処理を厳密にする
 
再帰ダウンロード時のフィルタ:
  -A,  --accept=LIST               ダウンロードする拡張子をコンマ区切りで指定する
  -R,  --reject=LIST               ダウンロードしない拡張子をコンマ区切りで指定する
  -D,  --domains=LIST              ダウンロードするドメインをコンマ区切りで指定する
       --exclude-domains=LIST      ダウンロードしないドメインをコンマ区切りで指定する
       --follow-ftp                HTML 文書中の FTP リンクも取得対象にする
       --follow-tags=LIST          取得対象にするタグ名をコンマ区切りで指定する
       --ignore-tags=LIST          取得対象にしないタグ名をコンマ区切りで指定する
  -H,  --span-hosts                再帰中に別のホストもダウンロード対象にする
  -L,  --relative                  相対リンクだけ取得対象にする
  -I,  --include-directories=LIST  取得対象にするディレクトリを指定する
  -X,  --exclude-directories=LIST  取得対象にしないディレクトリを指定する
  -np, --no-parent                 親ディレクトリを取得対象にしない
 
バグ報告や提案は<bug-wget@gnu.org>へ
 
%解凍したディレクトリ%\bin> 

If the power to help, and can be installed correctly.
If you do not output, check for errors on the steps again, please run.
The unzipped directory%% \ bin Please check the following files exist under.
  • libeay32.dll
  • libiconv2.dll
  • libintl3.dll
  • libssl32.dll
  • wget.exe

A man, if it fails to unpack, you may be extracting the wrong destination.

You may surprise becase there are too many parameters . But you will be able to understand why this command have too many parameters after you read all detail of parameter.

Let's run a simple example.
The following is how you download the logo file on this site.

%解凍したディレクトリ%\bin>  wget http://www.example.com/images/logo.png
SYSTEM_WGETRC = c:/progra~1/wget/etc/wgetrc
syswgetrc = E:\public\download\wget-1.11.4-1-bin/etc/wgetrc
--2009-07-11 20:54:12--  http://www.example.com/images/logo.png
www.example.com をDNSに問いあわせています... xxx.xxx.xxx.xxx
www.example.com|xxx.xxx.xxx.xxx|:80 に接続しています... 接続しました。
HTTP による接続要求を送信しました、応答を待っています... 200 OK
長さ: 2579 (2.5K) [image/png]
logo.png' に保存中
 
100%[======================================================================================>] 2,579       --.-K/s 時間 0s
 
2009-07-11 20:54:13 (47.8 MB/s) - logo.png' へ保存完了 [2579/2579]
 
%解凍したディレクトリ%\bin> 

It is very simple.
Logo.png in the current directory that you save the file.

I:
This article is to visit, Wget try this site, please stop.
This site is a very poor site, Wget is tested once, become Taku Shigeru.
Thank you?

Then, by use of color, we will describe how to specify the parameters easily.

Various Uses
To download an entire site, an example of the command to create a mirror disk
%解凍したディレクトリ%\bin>  wget -m http://www.example.com/

Now, in the current directory www.example.com directory is created, all files will be downloaded there.

jpg download an entire site with the file extension only, example of the command to create a mirror disk
%解凍したディレクトリ%\bin>  wget -m -A.jpg http://www.example.com/ 

-A "*.jpg"'
Behaves the same. Also, ". Gif" if you include the file, continue with commas.
-A .jpg,.gif
I like.
Here, you can use regular expressions.
-A "200[0-9].jpg"
I like.
When you do this, 2000.jpg ~ 2009.jpg 10 in the name of each file, and download everything that exists.

Is-R,-A in reverse, do not download the file specified.

An example to download all the files that are related to the page
%解凍したディレクトリ%\bin>  wget -p -k http://www.example.com/page1.html 

page1.html and image files that require the CSS file, and download all the audio files.
-K, so that even if you specify a page on the local disk (offline) to change the link so you can refer to.

Examples of output to a log file for download
%解凍したディレクトリ%\bin>  wget -m http://www.example.com/ -o exec.log

exec.log, usually outputs the information in the output screen.

An example of the output status of the download to stop any
%解凍したディレクトリ%\bin>  wget -m http://www.example.com/ -q

Typically, the information in the output screen, all will not be output.

In addition to these, and proxy settings.
For more information, please see the following pages.
http://www.gnu.org/software/wget/manual/wget.html

So, In closing, GUI version of Let's VisualWget use.

Try VisualWget
Download from the destination, and download.
As also described earlier, this, C # (2008) it has been developed by your environment, ZIP and may only good file,The environment of .NET might be necessary.
See the description below (please see the Overview section), please install.

If you can not judge , first, from the first download, download the installer file, and then try to install.
If work is above. NET Please download and install the Microsoft environment.

This is, C # (2008) it has been developed,. Net may require the latest.
The authors environment, C # (2008) it contains, ZIP extraction was the only work, not in such environment, run the installation from the installer, if you do not work, below. net please try to download. (In most cases, trying to download something, but you need automatically. )

First, run the installation VisualWget.exe.


It has been like this in English, then switch to the Japanese.
Click the button to the right of the toolbar. Screen "Language" to "Japanese", "OK" to switch to Japanese and click the button.




Usage is simple, "new job" ([file] - [New jobs] ) Specify the sites to download now.
The following screen appears.
Left is a basic parameter. Designated sites, and the output file you downloaded.
The right, Wget you can set to screen a set of detailed parameters. (It is better if I have the parameter displayed in the Japanese category. )


"OK" in the immediate run.

"OK" If you do not want to be spontaneous, if you want to run at a later time, "OK" button on the left "OK-click the Start Jobs" check.
If you want to do it later, should be added to the list of job-center of the screen to display the same screen and double-click the screen above.
Now, "OK-click the Start Jobs" You can not check that box, "OK" in the immediate run.

Wget if you understand the meaning of the parameters, the GUI is easy, if not, other than the simple use the "Advanced" tab screen will be low.
But rather than go on the command line, I think many people feel comfortable in, it will be easy to store configuration information files, this is it, I could.

Also, here, wgetrc does not touch on it and can specify the parameters of the proxy.
For more information, please refer to the manual.
http://www.gnu.org/software/wget/manual/wget.html

Comments

Leave a Reply







  • はてなブックマークへ追加する
  • Facebookでシェアする
  • twitter でつぶやく
  • Google Plusでシェアする
  • Pocketでシェアする
ページトップへ