Retrouvez toutes nos autres videos sur notre chaîne YouTube.
Les images issues des capteurs spatiaux et/ou aériens qui ont pu être cités dans la première partie (pour la lire, cliquez ici) requièrent, de par les conditions intrinsèques d’acquisition, des traitements en amont de leur exploitation pour une étude donnée.
1. Le désennuagement :
Les images issues d’acquisition spatiale dans les bandes spectrales visibles présentent souvent des nuages, ce qui nuit à l’interprétation de ce que l’on peut observer sur le sol. Pour éviter de classifier les zones ennuagées dans une des classes de la nomenclature en vigueur, on va chercher à masquer les zones de nuages qui seront ignorées pour les études ultérieures (ou à l’inverse, on se concentrera sur ces régions si les nuages constituent la classe d’intérêt).
Jeppensen et al. [1] font usage d’une architecture type U-Net qui permet de mettre en évidence la possibilité pour un classifieur CNN de distinguer non seulement les nuages du reste des objets avec lesquels ils pourraient être confondus comme la neige, mais également, en proposant une étude spectrale, de démontrer que cette architecture peut se contenter de canaux RGB et InfraRouge (IR) pour dénuager efficacement. Le modèle a été entraîné et évalué sur les jeux de données Landsat 8 Biome et SPARCS contenant des masques labellisés manuellement. Il faut donc reconstituer un jeu de données pour chaque nouveau capteur, les résolutions et bandes spectrales variant d’un satellite à un autre.
Pour pallier ce besoin de données labellisées en chaque pixel, Li et al. [2] propose un modèle reposant sur un apprentissage faiblement supervisé. Au lieu d’affecter un label à chaque pixel dans le jeu d’apprentissage, chaque image du jeu est scindée en blocs de même taille auxquels on attribue la classe de nuage ou non. Une segmentation des nuages est obtenue par le jeu des class activation maps (CAM) qui permettent de déterminer les régions de l’image qui sont sensibles (réponse forte) aux nuages. Le seuil d’activation nuage / non nuage est déterminé en comparant l’activation moyenne sur des blocs ne contenant pas de nuages. Pour améliorer la localisation des activations pour un label donné sur les CAMs à l’issue de la dernière couche de convolution, l’auteur introduit le global convolutional pooling. Enfin, en retirant les opérations de max-pooling pendant l’inférence (local pooling pruning), la carte d’activation résultante conserve la résolution spatiale initiale de l’image : l’étude justifie cela en indiquant que le max-pooling est utilisé ici essentiellement pour l’optimisation mémoire et opérationnelle. Bien que cette opération soit également appréciée pour les propriétés d’invariance locales en rotation et translation qu’il apporte à la phase d’apprentissage, ces invariances sont déjà couvertes par les échantillons de la classe nuage qui sont utilisés.
2. Pan-sharpening :
Pour obtenir des images à haute résolution spatiale et riches sur le plan spectral, les capteurs acquièrent toujours un canal supplémentaire, appelé un canal panchromatique (canal PAN), en plus des canaux spectraux (canaux MS). Chaque pixel (ou photosite) de la matrice d’acquisition d’un canal spectral donné capture un faible nombre de photons du spectre qu’il perçoit du fait de l’altitude d’acquisition et du temps de pose très court (la vitesse de déplacement du satellite est élevée, donc il faut être certain que les photons reçus sont cohérents spatialement par rapport à la région observée par le photosite) : cela contraint la taille minimale des photosites pour avoir un rapport signal sur bruit favorable, avec une conséquence directe sur la résolution spatiale de l’image. Le canal panchromatique perçoit l’ensemble des photons de la région observée, et donc sa résolution peut être rendue meilleure que celle des canaux spectraux. Le processus post-acquisition de pan-sharpening permet de ré-échantillonner les canaux spectraux à la résolution du canal panchromatique qui apporte une information de texture bien plus riche.
En observant l’efficacité des stacked autoencoders (SAE) pour débruiter des images ou restaurer des images détériorées, Huang et al. [3] utilise les SAE en sous-échantillonnant les images PAN à la résolution des images MS, et en sur-échantillonnant les images MS à la résolution des images PAN. Les images à la moins bonne résolution sont dès lors considérées comme images détériorées et les images à la meilleure résolution comme objectif du SAE à l’issu du dernier décodeur. Les SAE permettent d’identifier les caractéristiques essentielles (espace latent) dans un jeu de données fourni pour les reconstruire le plus efficacement possible. Xing et al. [4] ajoute l’apprentissage de géométries spécifiques pour aider à la reconstruction d’images MS à la résolution initiale des images PAN en déployant autant de SAE que de groupes de géométries extraits par un clustering type GCM [5].
Wei et al. [6] propose une méthode d’apprentissage résiduel en adaptant un CNN existant construit lors d’une étude sur la génération d’images super-résolues [7]. Le mécanisme résiduel, très répandu en apprentissage, permet d’augmenter considérablement le nombre de couches du CNN sans pour autant mettre en péril la phase d’entraînement à cause du phénomène de gradients évanescents.
La fusion d’images MS et PAN acquises par un même capteur peut être réalisée tardivement. En extrayant séparément les caractéristiques spectrales issues des images MS et les caractéristiques spatiales issues du canal PAN séparément, puis en fusionnant les informations spectrales et spatiales, Shao et al. [8] parvient à reconstruire des images MS à la résolution PAN par le biais d’un CNN à deux branches, chacune accueillant l’un des types d’images. Pour superviser l’entraînement, l’auteur utilise l’image MS d’origine comme label, puis sous-échantillonne celle-ci ainsi que l’image PAN d’un même facteur (4 généralement, puisque c’est le ratio en terme de résolution spatiale entre image PAN et image MS), pour ensuite ré-échantillonner l’image MS (interpolation) à la résolution de la nouvelle image PAN : cela permet d’obtenir des images PAN et MS dégradées à la même basse résolution, avec pour cible de chaque couple d’images (PAN, MS) l’image MS d’origine (considérée comme à haute résolution). Là encore, l’auteur propose un apprentissage résiduel entre l’image MS basse résolution et l’image MS cible pour que les features appris par le modèle caractérisent bien les différences entre ces deux images, à savoir les hautes fréquences (textures, contours) et non les informations spectrales, très semblables entre ces deux images.
3. Imagerie hyperspectrale (HS) :
Un capteur hyperspectral image une scène dans des centaines de bandes spectrales différentes, à faible résolution. Pour cette raison, une ACP (analyse en composante principale) est quasi-systématiquement conduite au préalable pour éliminer l’information redondante présente sur l’ensemble des canaux et réduire la dimension des images.
Palsson et al. [9] suit un schéma proche de [8] pour la partie de préparation des données : les images HS subissent une ACP, puis les canaux résultants, considérés comme données vraies, sont sous-échantillonnés puis ré-échantillonnés par interpolation (dégradation des images d’entrée). Les images MS subissent la même opération de dégradation. Un CNN à 3 couches prend les données MS et HS (après ACP) dégradées en entrée et génère les mêmes canaux HS correspondant à ceux issus de l’ACP : une hypothèse forte est donc posée, celle que les composantes principales des images HS à résolution dégradée sont les mêmes que celles des images à leur résolution initiale.
L’observation de la corrélation des spectres entre une image HS dégradée et une image HS à résolution initiale conduit Yang et al. [10], à créer un modèle dont le rôle est de faire correspondre au mieux les deux spectres : bien que similaires, l’image dégradée présente un spectre lisse, auquel manquent les hautes fréquences visibles sur le spectre de l’image initiale. Le modèle adopté contient deux branches, l’une pour l’information hyperspectrale, l’autre pour l’image multispectrale qui permet ici aussi d’apporter l’information spatiale plus résolue. Chaque branche extrait des caractéristiques spectrales issues de l’image HS et MS sur une même zone géographique (à un pixel de l’image HS correspond un bloc de pixel sur l’image MS plus résolue) puis des couches communes concatènent ces informations et produisent le spectre de l’image HS à haute résolution attendue. Le spectre reconstruit est ensuite reprojeté en chacune des bandes de sortie pour ce pixel de l’image HS de sortie.
4. Recalage d’images :
Ce processus a pour objectif d’aligner spatialement plusieurs images pour avoir la certitude qu’une région géographique tombe sur les pixels correspondants dans chacune des images utilisées pour une étude donnée. Cela est nécessaire lorsque l’on souhaite mettre en évidence des changements, pour assembler des plusieurs images ensemble (on parle de mosaïque). De même pour la fusion d’images que l’on a passée en revue précédemment, il faut s’assurer que les images MS et HS par exemple sont bien recalées les unes avec les autres. Les processus d’avant deep learning mettent en œuvre une étape de mise en correspondance de caractéristiques spatiales (feature matching) et donc sont sensibles à l’étape d’extraction de ces caractéristiques. Pouvoir s’acquitter de cette étape avec un modèle d’apprentissage profond, qui est justement guidé par les données fournies pour extraire les caractéristiques pertinentes pour la tâche dédiée, est un grand avantage.
Beaucoup de travaux reposent sur l’utilisation de réseaux siamois, consistant en un CNN en Y : deux branches, séparées mais partageant les mêmes paramètres (poids appris à la phase d’entraînement), extraient chacune les caractéristiques des images qui leur sont respectivement soumises puis l’information est concaténer dans une branche commune pour produire le résultat attendu. He et al. [11] propose une telle architecture pour recaler des images d’une même scène géographique comportant (i) une complexité sur la structure spatiale des objets qu’elle contient, (ii) des conditions d’acquisition au cours des années d’observation pouvant fortement varier (éclairement, orientation). Le réseau est entraîné en soumettant des couples de patchs avec un label négatif ou positif selon leur correspondance spatiale ou non. La phase de recalage adopte un mécanisme coarse to fine pour la localisation précise d’une image par rapport à une image de référence : une pyramide d’images est calculée (chaque étage diminue la résolution de l’image initiale d’un facteur 2, le sommet étant l’image la plus sous-résolue) et une approche quadtree permet de faire correspondre de plus en plus précisément les patchs entre les deux images jusqu’à atteindre la pleine résolution. Cela permet d’accélérer les calculs mais aussi de réduire le risque de mise en correspondance de patchs positifs au sens du réseau siamois, mais en réalité situés sur des zones géographiques différentes (même motif, mais à des endroits différents). Puis, une détection de coins type Harris est effectuée pour permettre un recalage au pixel.
Le recalage d’images de capteurs différents est aussi possible : Hughes et al. [12] adopte une architecture à deux branches également, mais dont les poids sont différents, pour recaler images radar et optiques. En effet, les mécanismes physiques étant très différents entre les deux modalités, il n’est pas envisageable de faire correspondre les deux branches en terme de paramétrisation. L’auteur propose également un processus de génération automatique de couple de patchs reposant sur la mise en correspondance dans l’espace entre les images : la tomographie permet de générer un nuage de points à partir des images radar, la photogrammétrie à partir des images optiques. Cela permet d’adresser, en partie, le problème causé par les différences de géométrie lors de l’acquisition des images.
Pour lire la troisième et dernière partie, cliquez ici