сверхбольшие архивы спутниковых данных и возможности их распределенного анализа

назад

Метод автоматического переноса тематических продуктов типа Scene Classification Land на данные прибора КМСС-2 (Метеор-М) на основе текстурных признаков, перцентильной нормализации и методов машинного обучения

Колбудаев П.А., Плотников Д.Е.

// Материалы 23-й Международной конференции «Современные проблемы дистанционного зондирования Земли из космоса». Москва: ИКИ РАН, 2025. С.34.

ISBN 978-5-00015-073-3
Предварительная обработка спутниковых данных является одним из важных этапов при создании различных информационных продуктов, обеспечивая корректное восстановление безоблачных временных рядов спутниковых измерений , а также необходимые условия для картографирования растительного покрова и его характеристик, оценке его состояния  и биофизических параметров . Автоматическая оценка качества тематических продуктов, сопровождающих данные дистанционного зондирования Земли (ДЗЗ), таких как маски облачности и теней, имеет существенное значение для их последующего использования в различных прикладных задачах, включая создание обучающих выборок для сверточных нейронных сетей. Особую практическую ценность представляют методы, которые могут работать в автоматическом режиме и требуют минимального количества спектральных каналов, доступных в большинстве систем ДЗЗ.
Данные КМСС-М\КМСС-2 (аппараты серии Метеор-М) являются востребованными для решения задач дистанционной оценки характеристик земной поверхности, оперативного мониторинга и оценки растительного покрова России и континента . В настоящее время в ИКИ РАН развиваются методы предварительной и тематической обработки данных приборов серии КМСС и поддерживается все большее число продуктов для решения множества задач спутникового мониторинга на основе этих данных . В настоящей работе описаны результаты развития методов создания тематических продуктов по данным КМСС на уровне сцен.
В работе использовались согласованные по территории и времени (разница в моментах съемки не превышала 3 часов) пары сцен, полученные с приборов MSI (спутники Sentinel-2) и КМСС-2 (спутники «Метеор-М»). Данные MSI, характеризующиеся пространственным разрешением от 10 до 60 метров в зависимости от спектрального канала, были загрублены до разрешения 60 метров. Для обработки использовались три спектральных канала (зеленый, красный, ближний ИК), общие для обеих спутниковых систем.
В качестве исходного тематического продукта применялась маска Scene Classification Land (SCL), предоставляемая вместе с данными Sentinel-2 (Sentinel-2 User Handbook, 2015). Данный продукт содержит множественные тематические классы, включая различные типы облачности, теней, чистой поверхности, воды и снега. Для целей исследования была выполнена тематическая агрегация классов: все типы облаков и теней были объединены в единые классы «облачность» и «тени» соответственно, все типы чистой поверхности — в класс «чистая поверхность», классы воды и снега сохранены без изменений. Пиксели с маркировкой «неклассифицировано» (unclassified) и «нет данных» были отнесены к единой категории.
Для автоматической оценки качества агрегированной маски SCL использовались текстурные признаки, рассчитанные на основе матрицы совпадения уровней серого Grey Level Co-Occurrence Matrix (GLCM): Contrast, Dissimilarity, Homogeneity, Energy, Correlation и Entropy. Признаки вычислялись для зеленого, красного и ближнего ИК каналов. Отдельным этапом являлся подбор оптимальных параметров расчета GLCM — размера анализируемого окна (patch_size) и расстояния сдвига (distance). Для этого вручную были отобраны 10 пар сцен Sentinel-2 с визуально высоким и низким качеством масок SCL, соответствующих сходным территориям и временным периодам. Для различных комбинаций параметров проводилось обучение классификатора Random Forest и оценка метрики F1-score на тестовых данных. Наилучшее разделение масок по качеству было достигнуто при значениях patch_size=20 и distance=1. В результате анализа значимости признаков было отобрано 6 наиболее информативных текстурных признаков, для расчета которых достаточно данных всего в двух спектральных каналах — зеленом и ближнем ИК.
Разработанный метод был применен для обработки сцен Sentinel-2 в зоне перекрытия с КМСС-2. Сцены разбивались на участки размером 512×512 пикселей с целью идентификации фрагментов с высококачественными масками SCL. Эти фрагменты использовались для формирования обучающей выборки, на основе которой обучался классификатор Random Forest, использующий перцентильные признаки трех спектральных каналов. Обученная модель применялась для построения тематической маски по данным КМСС-2 для каждой пары сцен. Предварительно данные КМСС-2 подвергались уточненной геопривязке с использованием модифицированного алгоритма SIFT (scale-invariant feature transform), где в качестве опорных данных использовались годовые композитные изображения Sentinel-2 в ближнем ИК-диапазоне.
Таким образом, для зон перекрытия данных двух спутниковых систем создавалась тематическая маска, аналогичная агрегированному продукту SCL, но по данным КМСС-2. Качество полученного продукта оценивалось с помощью вышеописанного метода на основе аналогичных текстурных признаков.
В результате автоматической обработки сотен пар сцен Sentinel-2 и КМСС-2 за различные сезоны 2021 года, охватывающих зерновой пояс России, были отобраны участки с наиболее качественными масками. На их основе сформирован набор данных, использованный для обучения сверточных нейронных сетей архитектур U-Net, Attention U-Net и Attention ResU-Net.
Таким образом, в рамках работы создан метод независимой автоматической оценки качества тематического продукта SCL и перенесенной маски по данным КМСС-2 на основе текстурных признаков GLCM. Ключевым преимуществом метода является возможность построения информативных метрик на основе шести наиболее значимых признаков, вычисляемых всего по двум спектральным каналам, что обеспечивает простоту переноса метода на другие системы ДЗЗ. Автоматизированным способом создана обучающая разметка высокого тематического качества для классов «чистая поверхность», «тень», «вода» и «облачность» по данным КМСС-2 и обучены модели сверточных нейронных сетей семейства U-Net.
Ссылка на текст: http://conf.rse.geosmis.ru/files/books/2025/11238.htm
  • Институт космических исследований РАН, Москва
назад