Что такое Веб-архив (Web Archive) и как его использовать

Веб-архив сайтов или Web Archive — это сервис, который собирает и хранит копии сайтов. Это своего рода машина времени интернета, которая позволяет отследить развитие веб-ресурса с начала его создания, просмотреть уже несуществующий сайт, а также восстановить его даже при отсутствии резервной копии.

В этой статье вы найдете обзор базовых возможностей веб-архива сайтов и детальные инструкции по использованию сервиса.

Что такое Web Archive и зачем он нужен

Архив интернета — это некоммерческая библиотека книг, программного обеспечения, сайтов, аудио- и видеозаписей. Наиболее популярный проект — Wayback Machine, также известный как веб-архив сайтов.

Это бесплатный сервис, где собраны архивные копии веб-ресурсов за разные даты. Копии появляются при сохранении вручную, а также когда веб-краулеры посещают сайт.

Веб-краулер, он же паук или бот — это программа, которая посещает сайты, оценивает содержимое, а затем переносит их в базу поисковых систем или веб-архива, как в нашем случае.

С помощью интернет-архива можно узнать, как выглядел сайт раньше: месяц или несколько лет назад.

копия сайта в Web Archive — *Копия сайта hostiq.ua в Wayback Machine за 24 февраля 2018*

Именно это и было изначальной целью проекта. Однако за последнее время функций у машины времени сайтов стало больше.

Веб-архив сайтов используют, чтобы:

просмотреть, как сайт выглядел раньше;
восстановить сайт, даже если у вас нет резервной копии;
проанализировать изменения ресурса в определенный период;
найти уникальную информацию, которую удалили;
проверить репутацию доменного имени перед регистрацией — если ранее его использовали для размещения сомнительного контента, могут возникнуть трудности и сейчас.

Статья по теме:

View Post

Как купить домен с историей

Читать статью

Как пользоваться веб-архивом

Интерфейс веб-архива сайтов интуитивный в использовании.

Перейдите на страницу машины времени сайтов, укажите URL-адрес и нажмите «BROWSE HISTORY»:

поиск в Wayback Machine — *Как найти веб-страницу в Wayback Machine*

По умолчанию веб-архив подгружает секцию «Calendar», где можно посмотреть старые версии нужного сайта:

секция Calendar в веб-архиве — *Секция «Calendar» в Wayback Machine*

После обработки запроса вы сразу же увидите общую информацию о веб-странице: количество сгенерированных архивов и шкалу времени, начиная с первой копии по текущий момент:

общая информация о странице в Web Archive — *Общая информация о веб-странице в Wayback Machine*

Выберите год на шкале времени. Ниже вы увидите календарь, где цветными маркерами обозначены даты, когда веб-краулеры интернет-архива сканировали страницу:

календарь копий веб-ресурса в Web Archive — *Календарь копий веб-ресурса в Wayback Machine*

Маркеры отмечены одним из четырех цветов:

Синий значит, что веб-краулер получил в ответ код со статусом 200 OK, то есть сайт стабильно работал.
Зеленый соответствует коду 3хх — в тот момент создания копии на сайте был настроен редирект.
Оранжевый и красный цвета значат, что веб-ресурс был недоступен, и веб-краулер получил код ошибки 4хх и 5хх.

Диаметр круга зависит от количества обращений робота веб-архива к странице в этот день. Чем больше круг, тем больше копий за этот день создал веб-краулер.

Попробуйте хостинг с кучей плюшек: автоустановщиком 330 движков, конструктором сайтов и теплой поддержкой 24/7!

Тестировать 30 дней бесплатно

Выбрав дату, наведите курсор на нее и нажмите на время сохранения:

Время сохранения копии сайта в Веб Архиве — *Время сохранения копии веб-ресурса в Wayback Machine*

Вы увидите желаемую версию веб-страницы.

Бывают ситуации, когда в интернет-архиве нет старых версий ресурса: правообладатель потребовал удалить принадлежащий ему контент или сайт закрыт из-за нарушения закона о защите интеллектуальной собственности. Дополнительно, на сайте могут быть настройки, которые ограничивают работу веб-краулеров. Таким образом, боты его не сканируют.

Иногда нужный ресурс доступен, но в копии нет картинок или части контента. Это происходит, если сайт был не полностью заархивирован Wayback Machine. В таком случае попробуйте открыть версию сайта за другой день.

Дополнительную информацию о сайте можно найти в секциях «Summary» и «Site Map»:

Summary и Site Map в Wayback Machine — *Секции «Summary» и «Site Map» в Wayback Machine*

В секции «Summary» собрана статистика по типу файлов, например HTML, CSS, PNG, на вашем сайте.

Функционал секции «Site Map» группирует все архивы нужного ресурса по годам, а затем строит визуальную карту сайта — радиальную диаграмму. Центральный круг — это «корень» сайта, его главная страница. Следующие кольца — остальные страницы. При наведении курсора на кольца и ячейки обратите внимание, что URL-адреса вверху меняются. Вы можете выбрать страницу, чтобы перейти к архиву этого URL-адреса.

Чтобы выявить и отобразить изменения в содержимом архивов, используйте секцию «Changes»:

Changes в Wayback Machine — *Секция «Changes» в Wayback Machine*

Выберите две даты и нажмите кнопку «Compare»:

сравнить две версии страницы в Wayback Machine — *Как сравнить две версии веб-страницы в Wayback Machine*

На новой странице появятся две версии сайта. Удаленный контент окрашен в желтый цвет. Синий указывает на добавление содержимого.

Как сохранить текущую версию сайта в веб-архиве

Копии сайтов попадают в веб-архив благодаря веб-краулерам, которые их сканируют. Однако это не единственный способ. Просканировать сайт можно самостоятельно.

Чтобы создать копию одного URL-адреса, найдите опцию «Save page now» на главной странице Wayback Machine, введите ссылку и нажмите «Save page»:

Как сохранить текущую версию сайта в Веб Архиве — *Как сохранить текущую версию веб-ресурса в Wayback Machine*

Таким образом, в веб-архив сайтов добавится текущая версия заданного URL-адреса.

Повторяйте это действие перед важными изменениями на сайте и после них. В случае поломки или утери данных вы всегда сможете восстановить сайт через веб-архив.

Создавать копию всего сайта постранично трудоемко. Интернет-архив предоставляет платный сервис, который архивирует сайт в несколько кликов — Archive It.

Статья по теме:

Как сделать резервное копирование в WordPress

Читать статью

Как запретить добавление сайта в веб-архив

Запретите добавление веб-ресурса в Wayback Machine, если вы:

дорожите уникальностью контента и не хотите, чтобы его использовали даже после удаления сайта;
планируете продать доменное имя и не хотите, чтобы ваш контент ассоциировался с новым владельцем;
хотите удалить личную информацию из открытого доступа.

Запретить добавление сайта в архив интернета можно двумя способами:

обратиться в поддержку веб-архива;
использовать файл robots.txt.

Если вы обратитесь в поддержку, вся существующая информация о сайте будет удалена из архива интернета. Дополнительно, веб-краулеры не будут сканировать сайт в будущем.

Чтобы запросить полное удаление вашего сайта из веб-архива, напишите на адрес info@archive.org, указав доменное имя в тексте сообщения.

Файл robots.txt позволяет лишь заблокировать доступ для веб-краулеров. После этого они не будут сканировать сайт, и информация о нем не попадет в архив интернета. Но весь предыдущий материал будет доступен в Wayback Machine. То есть пользователи смогут посмотреть, как сайт выглядел раньше.

Для запрета доступа добавьте в файл robots.txt директиву:

User-agent: ia_archiver Disallow: /

User-agent: ia_archiver-web.archive.org Disallow: /

Важно, чтобы файл robots.txt был в корневом каталоге для вашего домена.

Также веб-краулеры не посещают сайты, которые защищены паролем.

Как восстановить сайт из веб-архива

Если сайт был утерян или взломан, а резервной копии нет, попробуйте восстановить контент с Wayback Machine. Вот несколько вариантов, как это можно сделать:

скопировать контент вручную;
скопировать контент с помощью скрипта;
обратиться к сторонним службам.

Первый способ лучше использовать, если вам нужна копия всего одной или нескольких страниц. Второй и третий подойдет тем, кто хочет скопировать контент всего сайта.

Последние два варианта — это использование сторонних инструментов. Мы слышали об этих скриптах и сервисах хорошие отзывы, но не можем гарантировать качество их работы. Советуем всегда создавать резервную копию вручную через панель управления хостингом или использовать хостинг с автоматическими бэкапами.

Пробуйте надежный хостинг с автоматическими бэкапами и аптаймом 99,9%!
Наша теплая поддержка на связи 24/7

Тестировать 30 дней бесплатно

Скопируйте контент вручную

У веб-архива сайтов нет услуг по хранению резервных копий и восстановлению работы веб-ресурсов. Потому встроенного функционала, который позволит в несколько кликов получить архив всего сайта, нет. Однако вы можете вручную скопировать текст и код страниц, а также сохранить картинки.

Чтобы скопировать код страницы, перейдите на нее в Wayback Machine, кликните правой кнопкой мыши и выберите «View page source». Скопируйте код и вставьте его в текстовый редактор, где вы можете сохранить его как HTML-файл.

Скопируйте контент с помощью скрипта

Восстановление каждой отдельной HTML-страницы проекта слишком трудоемко, поэтому вы можете использовать специальные скрипты. Они позволяют извлечь все содержимое сайта за один раз.

Некоторые из наиболее популярных вариантов:

Обратитесь к сторонним службам

Существует множество сторонних служб, которые помогают с восстановлением сайта из веб-архива. Цены за услуги будут отличаться в зависимости от объема сайта.

Однако большинство служб дают протестировать их работу бесплатно.

Пара служб, которые могут помочь с восстановлением сайта:

Что запомнить о веб-архиве

Интернет-архив сайтов — бесплатный проект, цель которого сохранить весь размещенный в интернете контент.
Наиболее популярный инструмент проекта — Wayback Machine. Это своеобразная машина времени, которая позволяет посмотреть, как сайт выглядел раньше.
Веб-архив полезен для анализа сайтов, отслеживания изменений и составления статистики, проверки доменов перед покупкой.
Веб-архив — это запасной вариант по восстановлению сайта при отсутствии резервной копии.

Надеемся, что эта информация и практические советы по использованию архива интернета были полезны для вас. Пишите в комментариях, работали ли вы с веб-архивом сайтов или его аналогами.

Нужен сайт?
Сделать сайт самому для бизнеса или хобби с нашими готовыми решениями легко как раз-два-три. Бесплатный тест 30 дней!

Создать сайт