Fréquence des caractères

Un article de Clavier Dvorak.

(Redirigé depuis Fréquence des lettres)

Attention

Cette page est en reconstruction.

D'un texte à un autre, on constate qu'il y a des variations sensibles de la fréquence des lettres, y compris pour des textes de plus de 200 000 lettres (comme celui utilisé par Francis Leboutte). Pour obtenir des statistiques aussi représentatives que possible, on utilise le corpus de Thomas Tempé, qui vise à avoir un volume critique et à contenir des textes d'origines diverses pour dépasser ces problèmes.

La plupart des analyses fréquentielles de la langue française ne tiennent compte que des lettres et non des caractères de ponctuation. Or ces derniers sont plus fréquents que certaines lettres (,'-.:), il faut donc en tenir compte.

On remarquera que l'analyse fréquentielle du français donne a peu près les même résultats que l'anglais, l'allemand et l'espagnol[1]. Cela pourra servir pour placer les caractères rares en français (surtout vis-à-vis de l'anglais).

Sommaire

Corpus de Thomas Tempé

http://gpl.insa-lyon.fr/Dvorak-Fr/CorpusDeThomasTempé 1 616 343 caractères (72 différents)

e22594713.980
s1218957.542
a1171107.246
i1154657.144
t1111036.874
n1088126.732
r1005006.218
u967855.988
l836685.177
o827625.121
d562693.481
c500033.094
p463352.867
m455212.816
é292061.807
v249751.545
,221731.372
'219581.359
q208891.292
f163511.012
.139210.861
b138220.855
g132880.822
h112980.699
j83510.517
à74490.461
-68870.426
x59280.367
y47250.292
è41600.257
ê34450.213
"33260.206
z20930.129
:19220.119
w17470.108
)16160.100
(15060.093
ç13060.081
011730.073
/11410.071
?10930.068
;9420.058
ù8900.055
!8770.054
17820.048
k7450.046
27250.045
î6950.043
34880.030
92840.018
52810.017
42350.015
71990.012
61980.012
81830.011
*1480.009
œ1080.006
ï840.005
=810.005
@720.004
+680.004
>640.004
]560.003
[540.003
%480.003
<470.003
&200.001
|120.001
#110.001
$100.001
ë70.000
~50.000

Corpus de Nicolas C.

Statistiques des fréquences des symboles

Ces statistiques ont été calculées en vue d'être utilisés pour le placement des touches, donc ne correspondent pas exactement à des stats pures du corpus utilisés. Liste des traitements effectués :

  • regroupement majuscules/minuscules (on cumule les stats de E et de e) ;
  • y'a pas de notion de majuscules/minuscules pour la ponctuation, donc on effectue les regroupements suivants (ce sont pas ceux que j'ai utilisé à l'origine, mais ceux qui ont été fait ensuite, j'ai refait les stats en fonction pour avoir des stats à jour pour l'argumentation des permutations) :
 * @@':' -> '.'@@ ;
 * @@'?' -> ','@@ ;
 * @@';' -> "'"@@ ;
 * @@'!' -> @@dead-^ ;
  • PAS de regroupement chiffres/symboles ;
  • report des stats de âêûîôäëïöü sur aeuio, dead-^ et dead-diaresis

Ce qui donne donc :

lettre	rang	occurence

e	1	229143
s	2	121895
a	3	117758
i	4	116225
t	5	111103
n	6	108812
r	7	100500
u	8	97632
l	9	83668
o	10	83229
d	11	56269
c	12	50003
p	13	46335
m	14	45521
é	15	29206
v	16	24975
,	17	23266
'	18	22965
q	19	20889
f	20	16351
.	21	15843
b	22	13822
g	23	13288
h	24	11298
j	25	8351
à	26	7449
dead-^	27	7225
-	28	6887
x	29	5928
y	30	4725
è	31	4160
"	32	3326
z	33	2093
w	34	1747
)	35	1616
(	36	1506
ç	37	1306
0	38	1173
/	39	1141
ù	40	890
1	41	782
k	42	745
2	43	725
3	44	488
9	45	284
5	46	281
œ	47	256
4	48	235
7	49	199
6	50	198
«	51	191
»	52	187
8	53	183
*	54	148
_	55	107
dead-¨	56	101
=	57	81
@	58	72
+	59	68
>	60	64
]	61	56
[	62	54
%	63	48
<	64	47
¨	65	20
&	66	20
|	67	12
#	68	11
$	69	10
­	70	8
°	71	8
²	72	7
^	73	5
~	74	5
©	75	4
·	76	2
ž	77	1
ð	78	1

Autres analyses fréquentielles

  • 100 000 caractères, sur Ars Cryptographica — Caractères alphabétiques seulement, textes de Flaubert, Verne et trois articles de l'Encyclopædia Universalis.
  • 200 000 caractères, corpus de la disposition Dvorak-fr — Cahier des exigences pour le collégien, un document du ministère de l'éducation nationale française.
  • 1 500 000 à 1 600 000 caractères : Tempé/Crako pour la version 0.1 (pour situer)
  • 482 258 462 caractères sur l’analyse de Jean-Luc Manguin sur lexique.org — 106,8 millions de mots de la base Frantext catégorisée 1830-2000, mots apparaissant plus de dix fois, ponctuation et ligatures absentes, 42 occurences différentes. Les mots analysés forment un ensemble de 112345 graphies et représentent 99,4 % du corpus total qui lui, compte 361887 graphies.
  • >6 000 000 000 caractères (?) dump wikipedia francophone, 24 juillet 2008. À traiter : penser à dégager les mots peu courrant (>10x ?), filtre passe-bas sur les caractères _très_ rares (1ppm?) sinon on va avoir une grosse partie d'unicode.

Certaines analyses regroupent les caractères portant le même diacritique, d'autres omettent les ligatures, le ponctuation ou les encore chiffres. Des analyses plus poussées devraient être faites en tentant compte de tous les caractères rencontrés, avec le moins de filtrage possible. (Crako prépare une analyse fréquentielle basée sur l'encyclopédie wikipédia francophone qui devrait permette de trancher.)

Résumé sommaire

En croisant les diverses analyses (les caractères alphabétique sont entre crochets, l'ordre exact global reste à préciser) :

  • au dessus de 5% : [easintrulo]
    • bépo place « o » et « l » sur la 3ème rangée et non sur celle de garde.
    • le a est 6ème avec seulement 6% sur le corpus Leboutte, cela semble étrange.
  • entre 5 et 2% : [dcmp]
  • entre 2 et 0.5% : é [v] , ' [qf] . [gbhj]
    • ces caractères ont un accès direct
  • entre 0.5 et 0.1% : à - [x] è [y] ê " [z] : ( )
    • à è ê " ( ) ont un accès direct
    • la fréquence du guillemet " est un reliquat de l'azerty qui n'a pas les vrais «»
    • - est en direct sur la touche 8 de la rangée supérieure (voir place du tiret) ;
    • : est en majuscule
  • entre 0.1 et 0.01% : ç 0 / ? ; â ô î ù û ! 1 [kw] 2 î 3 9 5 4 7 6 8
    • place des chiffres : "«»()/ sont plus fréquents que les chiffres mais pas +@=% (le 0 sort du lot).
    • le w devrait être dernier et est trop fréquent dans les corpus Tempé/Chartier ;
  • moins de 0.01% (1 pour 10 000) : * œ ï _ = @ + > ] [ % < ¨ & | # $ ° ² ^ ë ~ © · ž ð ü ö …

Références

  1. http://www.apprendre-en-ligne.net/crypto/stat/freq.gif

Liens externes