Skip to main content

Зеркало сайта

Понадобилось тут содрать содержимое сайта целиком, использовал wget:

wget -v -m -k -K -E -w 1 --output-file=wget.log http://google.com

-v – показывать процесс списывания;
-m – сделать копию сайта (если говорить на нормальном русском языке, то мирроринг). Заменяет набор ключей “-r -N -l inf –no-remove-listing”.
-k – преобразовать ссылки, адаптируя их для локального просмотра. Например, если списывается /foo/doc.html со ссылкой на /bar/img.gif, то в локальной копии будет записано ../bar/img.gif.
-K – опция осталась для меня загадкой, вроде бы она должна использоваться совместно с ‘-k’ для определения, изменился ли файл на сервере.
-E – если тип списанного контента был ‘application/xhtml+xml’ или ‘text/html’, и его расширение не .html (грубо говоря, а реально не удовлетворяет шаблону ‘\.[Hh][Tt][Mm][Ll]?’), то добавить .html к имени.
-w 1 – ждать 1 секунду перед следующим запросом на списывание файла. Можно поставить больше. Полезно, если сервер блокирует за частое списывание.
–output-file=wget.log – писать процесс работы в лог-файл.