Бесплатный парсер XML-карты сайта

Получите из XML-карты сайта список URL за секунды. Удобно для массовой проверки индексации, ускорения индексации, технических SEO-аудитов и экспорта в TXT/CSV/PDF.

Из «грязного» XML — в данные, готовые к аудиту

Сырой XML (неудобно использовать)
<url>
  <loc>https://site.com/page1</loc>
  <lastmod>2023-10-01</lastmod>
</url>
<url>
  <loc>https://site.com/page2</loc>
  <priority>0.8</priority>
</url>
...
Чистый список URL (готов к проверке)
https://site.com/page1
https://site.com/page2
https://site.com/about
https://site.com/contact
...

Что такое парсер Sitemap (Sitemap URL Extractor)?

Парсер Sitemap — это SEO‑инструмент, который считывает XML‑карту сайта и извлекает из неё чистый текстовый список URL. В отличие от просмотра «сырого» XML с метаданными (<lastmod>, <priority> и т. п.), парсер оставляет только ссылки, которые удобно выгружать и использовать в проверках индексации или для ускорения переобхода. Если вы хотите свериться с первоисточником, начните с официальной документации Google: Google Search Central: Sitemaps (обзор).

Инструмент полезен SEO‑специалистам и вебмастерам для массовых аудитов, проверки индексации, контроля миграций и анализа ссылок — без ручного копирования сотен URL. Также рекомендуем держать под рукой спецификацию протокола карты сайта sitemaps.org (Sitemap Protocol) и справку по отправке sitemap в Search Console: Google Search Console: файлы Sitemap. При парсинге могут возникнуть трудности — изучите таблицу, в ней собраны основные причины проблем с парсингом и способы их решения.

Загрузить карту сайта по URL
Вставить XML‑код

Вставьте ссылку на XML‑карту сайта (например: https://site.com/sitemap.xml).


Найдено URL: 0

Посмотрите, как это работает

Короткое видео: как извлечь все URL из XML‑карты сайта и подготовить список для массовой проверки индексации и техаудита.

Используйте sitemap парсер в веб-версии SpeedyIndex.

Инструмент на этой странице выдаёт текстовый список — этого достаточно для небольших задач. Но в SpeedyIndex Web App вы получаете полный рабочий процесс без «копипасты»:

  • Импорт и анализ: загружайте sitemap прямо в проект.
  • 🔍 Мгновенная проверка: выделите ссылки и запустите массовую проверку индексации (Google, Bing или Яндекс).
  • 🚀 Индексация в 1 клик: нашли страницы «не в индексе»? Отправьте список URL на индексацию.
Использовать парсер в приложении →

Что делать после выгрузки URL: сценарии техаудита

После извлечения списка URL выполните базовые проверки, чтобы быстро оценить здоровье сайта и индексацию.

1) Проверить индексацию

Убедитесь, что URL из sitemap действительно присутствуют в индексе поисковиков Google, Bing, Яндекс. Неиндексируемые URL часто указывают на технические ошибки сайта, дубли страниц, проблемы с качеством контента.

Проверить индексацию в Google →

2) Проверить коды ответа сервера

Найдите битые ссылки (404) и ошибки сервера (5xx), которые расходуют crawl budget и ухудшают обход.

3) Валидировать миграцию

Сравните список URL со старого домена и новую структуру, чтобы убедиться, что 301‑редиректы настроены корректно.

Полный список популярных путей к sitemap.xml

Если стандартный путь /sitemap.xml отдаёт 404, вебмастера часто используют другие варианты — в зависимости от CMS и настроек сервера. Используйте таблицу как справочник, чтобы вручную найти карту сайта.

Шаблон sitemap URL Платформа / сценарий
/sitemap.xml Стандарт. Используется Shopify, Wix, Squarespace, Webflow, Ghost и большинством статических сайтов.
/sitemap_index.xml WordPress (плагины). Дефолтный путь до карты сайта в плагинах Yoast SEO, RankMath и All in One SEO. Также этот вариант применяют крупные сайты, которые дробят карту на несколько файлов.
/wp-sitemap.xml WordPress (встроенная карта). Начиная с WordPress 5.5+, если не установлен SEO‑плагин.
/sitemap.php Динамические PHP‑сайты. Часто встречается в кастомных движках и скриптах, где XML генерируется «на лету».
/sitemap.txt Текстовый формат. Старые системы и простые сайты (1 URL на строку).
/1_index_sitemap.xml PrestaShop. Нередко есть префикс с ID магазина/языка (например, 2_index_sitemap.xml).
/sitemap.xml.gz Сжатая карта сайта. Используется на больших сайтах для экономии трафика. Перед парсингом файл нужно распаковать.
/feeds/posts/default?orderby=updated Blogger (Blogspot). Atom‑лента, которую часто используют как sitemap для Google.
/sitemap/sitemap.xml Фреймворки. Типовая структура для Django, Laravel и сайтов, где sitemap лежит в подпапке.
/news-sitemap.xml Google News. Отдельный файл для издателей (обычно новости за последние 48 часов).
/image-sitemap.xml Image SEO. Отдельная карта для изображений и медиа (часто встречается на портфолио и контентных проектах).
Лайфхак: самый надёжный источник
Если не удалось определить путь до карты сайта, проверьте файл /robots.txt (например, example.com/robots.txt). В robots.txt часто указывают точный путь к карте сайта директивой: Sitemap: https://example.com/custom-name.xml.

Почему не скачивается или не парсится карта сайта (sitemap.xml): диагностика

Если инструмент не смог скачать sitemap (Fetch from URL) или после парсинга вы получили пустой список URL, причина почти всегда в одном из технических ограничений: блокировка антиботом (Cloudflare/WAF), неверный формат (gzip/HTML вместо XML), ошибки XML‑синтаксиса, редиректы и коды ответов (3xx/4xx/5xx), проблемы SSL/TLS, кодировка, или нестандартная структура sitemap. Ниже — максимально полный чек‑лист, который закрывает вопрос: «Почему не парсится карта сайта?»

Тип проблемы Почему не работает (симптом) Что делать (решение)
Сжатая карта сайта (.gz) По ссылке отдаётся .gz (бинарные данные). Браузер может «показывать» содержимое после распаковки, но при копировании/загрузке часто приходит не тот формат. Скачайте файл и распакуйте локально (например, 7‑Zip). Затем используйте вкладку «Вставить XML‑код» или вставьте уже распакованный XML.
Cloudflare / WAF / антибот (403 Forbidden) Сервер блокирует автоматические запросы (cURL/fetch): 403, капча, JS‑challenge, Bot Fight Mode, ModSecurity. Иногда sitemap открывается в браузере, но не скачивается инструментом. Откройте sitemap в браузере, нажмите Ctrl+U (Просмотр кода), скопируйте исходный XML и вставьте вручную. Дополнительно: проверьте, не блокируются ли User‑Agent/страна/ASN на стороне WAF.
Вместо XML отдаётся HTML (страница ошибки/авторизации) По URL карты сайта фактически возвращается HTML: страница 404, страница логина, «Access denied», антибот‑страница или кастомная ошибка. В результате парсер не находит <loc>. Откройте URL и проверьте «View Source»: должен быть XML с тегами <urlset>/<sitemapindex> и <loc>. Если это HTML — исправьте URL карты сайта или настройте сервер/права доступа.
Редиректы (301/302/307/308), цепочки или петли URL карты сайта ведёт через несколько редиректов или попадает в loop. Иногда конечная страница становится 403/404, либо редиректит на другую версию домена/протокола. Проверьте конечный URL: он должен отдавать 200 OK и XML. Сократите цепочку редиректов, используйте корректный канонический адрес sitemap (обычно HTTPS + основная версия WWW/без WWW).
Проблемы SSL/TLS (сертификат, SNI, устаревшие шифры) Сайт на HTTPS, но сертификат просрочен/невалиден, неверная цепочка, проблемы SNI, старые TLS‑настройки. В браузере может «открываться», а автоматические клиенты получают ошибку соединения. Исправьте SSL‑сертификат и TLS‑конфигурацию (полная цепочка, актуальные протоколы). Проверьте доступность sitemap по HTTPS без предупреждений.
Ошибки сервера (5xx), таймауты, нестабильный хостинг При скачивании sitemap сервер отвечает 500/502/503/504, «Connection timed out», либо отдаёт данные слишком медленно. Проверьте логи сервера, лимиты PHP/CPU/RAM, настройки CDN/origin, размер ответа. Увеличьте ресурсы, включите кеширование, сократите объём карты или разбейте её на несколько файлов.
Ограничения доступа (401/403), Basic Auth, закрытый staging Карта сайта доступна только после авторизации (Basic Auth, токены) или закрыта по IP/гео. Парсер получает 401/403. Откройте доступ к sitemap для публичного чтения (как минимум для поисковых роботов). Для staging — либо уберите sitemap, либо ограничьте его корректно.
Неправильный формат: RSS/Atom/JSON вместо Sitemap XML URL выглядит как карта сайта, но это фид, API‑ответ или иной формат. В нём нет структуры sitemap и тегов <loc>. Найдите реальную sitemap: проверьте /robots.txt (директива Sitemap:) и типовые пути (/sitemap.xml, /sitemap_index.xml, /wp-sitemap.xml).
Невалидный XML (ошибка синтаксиса) Не закрыты теги, «ломаные» namespaces, в URL есть неэкранированные символы (например, & вместо &), либо в начале файла есть мусор/текст до первого <. Провалидируйте XML (например, W3C XML Validator), исправьте синтаксис, затем повторите парсинг. Если есть лишний текст до XML — удалите его и оставьте чистый документ.
Проблемы кодировки (BOM, нестандартная encoding) В файле есть BOM/неожиданная кодировка или неправильная декларация encoding, из‑за чего парсер «видит» ошибки. Сохраните файл как UTF‑8 без BOM, проверьте заголовок <?xml version="1.0" encoding="UTF-8"?>, затем вставьте код вручную.
Слишком большой sitemap (размер/лимит браузера) Файл большой (десятки MB), браузеру не хватает памяти, парсинг «зависает», или список URL слишком длинный. Разбейте карту сайта на несколько файлов (стандарт — до 50 000 URL на файл), используйте Sitemap Index, либо обработайте по частям.
Вы загрузили Sitemap Index вместо карты с URL страниц Внутри только ссылки на другие sitemap (дочерние карты), а не URL страниц — поэтому «страниц» в результате может не быть. Сначала извлеките дочерние sitemap из индекса, затем по очереди распарсьте каждую дочернюю карту, чтобы получить финальные URL страниц.
Нет тегов <loc> или нестандартная структура Карта сайта сформирована неправильно (нет <loc>), либо это кастомный XML без стандартов Sitemap Protocol. Исправьте генерацию sitemap на стороне CMS/плагина. Для WordPress проверьте SEO‑плагин (Yoast/RankMath) или встроенный /wp-sitemap.xml.
CDN/кеш отдаёт не тот файл (варианты по региону/UA) Для разных User‑Agent/регионов/языков сервер отдаёт разные ответы: где-то XML, где-то HTML/ошибка. Проверьте правила CDN/WAF (вариации по UA/Geo), отключите «защиту» для sitemap, убедитесь, что всегда возвращается одинаковый XML с кодом 200.
Лимиты запросов (429 Too Many Requests) Сервер ограничивает частоту запросов, возвращая 429. Это бывает на дешёвом хостинге или при строгих правилах безопасности. Увеличьте лимиты, настройте кеш, разрешите доступ к sitemap без строгих rate‑limits. Если блокируется скачивание — используйте ручную вставку XML.

Кому полезен этот инструмент?

Парсер XML‑карт сайта экономит часы ручной работы: вы получаете чистый список URL и используете его в задачах технического SEO, индексации, линкбилдинга, контент‑аудита и контроля миграций — без полного краулинга и копипаста.

Техническим SEO‑аудиторам

Парсер помогает быстро собрать URL для техаудита: проверить HTTP‑коды (404/410/5xx), найти редиректы и цепочки 301/302, отловить дубли и каноникализацию (canonical), а также увидеть, не мешают ли индексации robots.txt и noindex. Это напрямую влияет на crawl budget, скорость обхода и покрытие индекса.

Пример: выгрузите URL из sitemap и массово проверьте коды ответа и редиректы — чтобы за 10–15 минут понять, какие разделы сайта «падают» в ошибки и где теряется обход.

Миграциям сайтов и редизайнам

При смене домена, HTTP→HTTPS, WWW/без WWW и переносе структуры важно, чтобы каждый старый URL корректно вёл на новый через 301 (без петель и длинных цепочек). Список из sitemap — самый быстрый способ проверить миграцию «по факту», а не выборочно.

Пример: возьмите sitemap со старого домена, получите список URL и сравните с новой структурой: какие страницы корректно редиректят на релевантные аналоги, а какие уходят в 404 или в цепочку редиректов.

Контент‑командам и редакторам

Удобно для контент‑инвентаризации и контент‑аудита: собрать все статьи/страницы в одну таблицу, разметить кластеры, оценить дубли и каннибализацию, спланировать обновления, перелинковку и улучшение мета‑тегов.

Пример: выгрузите URL статей из sitemap и сделайте таблицу в Google Sheets: статус индексации, трафик, дата обновления, ответственный, план доработок.

Линкбилдингу и проверке размещений

Если вы покупаете ссылки, размещаете гостевые посты или PR‑статьи, критично понимать, что страницы‑доноры действительно индексируются в Google и не вылетают из выдачи. Парсер помогает быстро собрать пул URL с сайта‑донора, оценить качество страниц‑доноров, сделать backlink audit и понять, где реально остаётся link equity. Это также удобно для анализа конкурентов и их площадок‑доноров.

Пример: распарсьте sitemap сайта‑донора, найдите разделы «blog / news / articles», затем проверьте, индексируются ли страницы с вашими размещениями и бэклинками (и не ушли ли они в деиндексацию).

E‑commerce и крупным каталогам

Для интернет‑магазинов и маркетплейсов sitemap — быстрый источник URL категорий и карточек товаров. Это помогает увидеть покрытие индекса, найти проблемы с параметрами URL, фильтрами (faceted navigation), пагинацией, а также дубли, которые «съедают» обход и мешают нормальной индексации.

Пример: выгрузите sitemap товаров и отдельно sitemap категорий, затем сравните покрытие: что в индексе, а что «не доходит» из‑за дублей/каноникалов/параметров и ограничений crawl budget.

PBN / дроп‑домены / исследования ниш

При работе с дропами, восстановлением сайтов и PBN важно быстро оценить структуру и «остаточный индекс». Если карта сайта доступна, список URL помогает сделать быстрый скрининг: какие страницы существуют, какие потенциально индексируемые, и что имеет смысл восстанавливать в первую очередь.

Пример: перед покупкой или восстановлением домена выгрузите URL из sitemap (если есть), проверьте какие страницы индексируются, оцените структуру и выберите приоритетные разделы.

Часто задаваемые вопросы

Загрузка и парсинг sitemap

Почему инструмент не может скачать (fetch) мой sitemap.xml?

Обычно это блокировка на стороне сервера: Cloudflare/WAF/ModSecurity могут резать автоматические запросы. Решение: откройте sitemap в браузере, нажмите Ctrl+U, скопируйте исходный XML и вставьте его во вкладку «Вставить XML‑код». Это обходит ограничения CORS и часть антибот‑фильтров.

Поддерживается ли Sitemap Index (sitemap_index.xml) и вложенные карты сайта?

Да. Если вы укажете Sitemap Index, инструмент извлечёт ссылки на дочерние карты сайта. Чтобы получить финальные URL страниц, обработайте каждую дочернюю карту отдельно (это стандартная логика для крупных сайтов с 50 000+ URL).

Почему я получаю пустой список URL после парсинга?

Чаще всего причина одна из трёх: (1) sitemap сжат в .gz, (2) файл невалидный XML (ошибка синтаксиса), (3) карта содержит нестандартные теги без <loc>. Попробуйте распаковать файл, провалидировать XML и убедиться, что в нём есть теги <loc>.

Типы карт сайта и метаданные

Поддерживаются ли Image Sitemap и Video Sitemap?

Да. Парсер извлекает значения из стандартных <loc> тегов. Для image/video карт мы ориентируемся на URL страницы‑родителя, чтобы дальше вы могли проверить индексацию страницы в Google и выполнить техаудит.

Сохраняются ли данные <lastmod>, <priority>, <changefreq>?

Нет — и это сделано специально. Инструмент выдаёт чистый список URL, который удобнее всего использовать в массовых чекерах индексации, краулерах и отчётах. Метаданные остаются в исходном XML, но не мешают вам на следующем шаге.

Сохраняет ли инструмент hreflang (альтернативные языковые версии)?

Нет. Мы не парсим <xhtml:link> и атрибуты hreflang, чтобы выходные данные были максимально универсальными для массовых задач: проверка индексации, коды ответа, редиректы, каноникализация.

Лимиты, производительность и безопасность

Сколько URL можно извлечь за один раз?

Обычно без проблем обрабатываются файлы до 10MB (примерно до 50 000 URL). Если sitemap очень большой, лучше разделить его или использовать обработку через несколько дочерних карт (Sitemap Index). Также помогает закрыть лишние вкладки браузера, чтобы освободить память.

Безопасно ли использовать инструмент? Вы сохраняете мою карту сайта?

Да, безопасно. Парсинг выполняется локально в браузере (client-side) или через прокси без хранения состояния. Мы не сохраняем и не логируем содержимое вашей карты сайта — вы просто получаете результат в виде списка URL.

Что делать дальше (после выгрузки URL)

Что делать после выгрузки URL из sitemap: какой следующий шаг в SEO?

Самые частые сценарии: (1) массовая проверка индексации в Google/Bing/Яндекс, (2) проверка HTTP‑кодов (404/410/5xx), (3) аудит редиректов 301/302 после миграции, (4) контроль canonical и устранение дублей, (5) мониторинг ключевых разделов (категории/товары/статьи). Список URL из этого инструмента идеально подходит для загрузки в SpeedyIndex.

Проверьте индексацию выгруженных URL

Загрузите чистый список URL в массовый чекер и подтвердите индексацию в Google, Bing и Яндекс.

Доступ через Web App • 100 бесплатных токенов включено