Ecran :

Description :
La donnée en entrée est répartie en classes selon la discrétisation choisie. Le résultat en sortie est le numéro de la classe pour chaque entité de départ.

La fenêtre de paramétrage se décompose en 2 onglets :
   - l'onglet Paramètres, contenant le choix du type de discrétisation, le nombre de classes voulues, et le tableau des seuils automatiques et observés.
   - l'onglet Graphiques, contenant les histogrammes et la boîte et moustaches.

Le choix de la discrétisation se fait selon le type de donnée en entrée. Les utilisateurs peu habitués à cette opération apprendront très vite à reconnaître la bonne discrétisation en s'aidant notamment de la boîte et moustaches présente dans l'onglet Graphiques. Celle choisie par défaut (quantiles) est en général assez bonne.

Le nombre de classes peut être un chiffre entre 1 et 512, excepté lors du calcul des moyennes emboîtées, pour lequel le nombre de classes doit être une puissance de 2 (2, 4, 8, 16, 32... 512). ATTENTION : le nombre de classes ne doit en général pas dépasser 12, pour une bonne représentation en couleurs ou symboles qualitatifs.
De plus, il existe deux méthodes permettant de trouver le nombre de classes optimal théorique :
   - selon Brooks et Carruthers :  nombre de classes = partie entière de ( 5*log10(N) + 0.5 )
   - selon Huntsberger :  nombre de classes = partie entière de ( 3.3*log10(N) + 1.5 )
où N = nombre de valeurs de la donnée.

Pour la discrétisation par seuils observés, les seuils sont saisis dans la colonne de droite.
Vous devez valider chacun des seuils que vous saisissez en utilisant les touches "Flèche vers le bas" ou "Tabulation" de votre clavier.

Le bouton représentant une flèche, qui se situe en dessous du tableau des seuils, permet de transférer les valeurs des seuils automatiques dans la colonne des seuils observés.

La zone de texte située en bas de l'onglet Paramètres contient les indices de Jenks et de Tai, les variances inter-groupe et intra-groupe, le nombre d'éléments contenus dans chaque classe, ainsi qu'un résumé statistique de la donnée. Voir le paragraphe consacré aux indices plus loin.

L'onglet Graphiques, dont une copie d'écran se trouve ci-dessus, contient les histogrammes et la boîte et moustaches.
Les histogrammes représentés sont :
   - en bas, un diagramme en fréquences (représentation graphique de la donnée), avec sa courbe de cumuls.
   - en haut, un diagramme en densité, représentant chaque classe avec une hauteur H calculée comme suit :
                   H = nombre d'éléments dans la classe / largeur de la classe

En déplaçant la souris sur les histogrammes ou la boîte et moustaches, la valeur pointée par la souris s'affiche entre les deux zones graphiques.

Le bouton Centrer permet de recentrer les graphiques si vous avez déplacé les dessins par l'intermédiaire des barres de défilement.

En changeant la taille de la fenêtre, les dessins s'adapteront automatiquement à la nouvelle taille.

Types de données :
Ce module change son type de sortie en fonction des données en entrée. Par défaut, il va faire un calcul sur des données continues et fournir une donnée discrétisée. Mais si vous lui connectez en entrée une donnée matricielle, alors sa sortie sera une matrice discrétisée.

En revanche, si le module a déjà des connections en sortie, alors son type d'entrée restera figé. Pour lui connecter une donnée matricielle, il faudra d'abord le déconnecter de ses fils.

Formules utilisées pour les indices :

Indice de Jenks :

écart d'une classe = valeur absolue de :
         ( largeur / moyenne ) - ( largeur / milieu )

     Indice de Jenks = ( somme des écarts de chaque classe ) / nombre de classes

Indice de Tai :

Distance1 = somme des distances entre les valeurs et la moyenne de la classe dans laquelle elles sont
Distance2 = somme des distances entre les valeurs et la moyenne générale

     Indice de Tai = 1 - Distance1 / Distance2

Plus l'indice de Tai est proche de un, plus la discrétisation est bonne.
Plus l'indice de Jenks est proche de zéro plus la discrétisation est bonne.
Ces indices sont plus ou moins précis selon les configurations de classes.

Variance inter-groupe :

Cet indice indique si les classes obtenues sont similaires ou différentes.

Distance = somme des distances carrées entre la moyenne de chaque classe et la moyenne générale des données
                   multipliées par le nombre de données dans la classe

     Variance inter-groupe =  Distance / (nombre de classes - 1)

Variance intra-groupe :

Cet indice indique si les classes obtenues sont homogènes ou disparates.

Distance = somme des distances carrées entre les valeurs et la moyenne de la classe dans laquelle elles sont

     Variance intra-groupe =  Distance / (nombre de données - nombre de classes)

Liste des discrétisations :

Standard :
La discrétisation est faite selon une loi de Gauss sur les valeurs de la donnée. Les classes sont de largeur un écart-type, et elles sont centrées sur la moyenne arithmétique. Si les classes extrêmes sont trop petites pour contenir toute l'étendue des valeurs de la donnée, elles sont élargies au minimum et au maximum.

Cette discrétisation donne lieu à seulement deux répartitions :
   - une première si le nombre de classes est pair.
   - une seconde si le nombre de classes est impair.

En effet, par exemple pour 3, 5, 7 ... classes, la classe centrale sera toujours centrée sur la moyenne, et de largeur un écart-type.

Standard centrée sur zéro :
Cette discrétisation est identique à la discrétisation standard, mais les classes sont cette fois-ci centrées sur zéro, et non pas sur la moyenne arithmétique. Cela permet une représentation en couleurs chaudes et froides pour les classes négatives ou positives.

Quantiles :
Les classes sont calculées pour qu'elles contiennent le même nombre d'éléments. Les classes pourront avoir un nombre d'éléments très légèrement différent selon la répartition.
Exemple de cas où le nombre d'éléments à répartir par classe n'est pas entier :
  valeurs de la donnée : 1 , 4 , 4 , 4 , 4 , 10
  nombre de classes : 4   => 1.5 élément par classe
  on aura alors :
    classe 1 = [1;4[ contient 2 éléments
    classe 2 = [4;4[ contient 1 élément
    classe 3 = [4;10[ contient 2 éléments
    classe 4 = [10;10] contient 1 élément
Remarque : la classe 1 contient les valeurs 1 et 4, malgré les bornes indiquées.

Egales étendues :
L'intervalle sur lequel se trouvent les valeurs de la donnée est partagé équitablement entre les différentes classes.

Moyennes emboîtées :
Les limites de classes sont positionnées aux moyennes emboîtées des valeurs de la donnée. Par exemple, pour 4 classes :
  - les classes 2 et 3 se touchent à la moyenne de toutes les données.
  - les classes 1 et 2 se touchent à la moyenne des données des classes 1 et 2 réunies.
  - les classes 3 et 4 se touchent à la moyenne des données des classes 3 et 4 réunies.

Jenks :
La discrétisation de jenks repose sur la notion de variance, c'est-à-dire sur la dispersion des valeurs de la donnée autour de la moyenne. Elle vise à minimiser la variance intra-classes (donc à maximiser l'homogénéité des classes), et à maximiser la variance inter-classes (donc à accroître les différences entre classes).

Observés :
Les seuils des classes sont fournis par l'utilisateur dans la colonne prévue à cet effet.

Principe commun aux discrétisations (sauf quantiles) :
Si plusieurs classes ont les mêmes bornes, les données concernées seront placées dans la première classe.
Exemple :
  valeurs de la donnée : 12 , 12 , 15 , 15 , 19
  répartition :
    classe 1 = [12;12[
    classe 2 = [12;12[
    classe 3 = [12;19]
  alors :
    la classe 1 contient 2 éléments
    la classe 2 est vide
    la classe 3 contient 3 éléments

Attention :  les seuils sont stockés en simple précision, et par conséquent la discrétisation ne peut distinguer des valeurs dont les 8 premiers chiffres sont identiques.