Base Gougenheim 2.00
Le fichier Gougenheim.txt présente pour 8774 mots leur fréquence et pour les mots de fréquence supérieure à 20 leur répartition (nombre de textes dans lesquels ils apparaissent). Le corpus sur lequel, il est basé est un corpus de langue oral basé sur un ensembles d'entretiens avec 275 personnes. C'est donc non seulement un corpus de langue orale mais aussi de langue produite (dans le sens où les personnes interrogées avaient une conversation courante ce qui n'est pas forcément le cas dans des corpus radiophoniques ou télévisuels p. ex.). Le corpus original comprend 163 textes, 312.135 mots et 7.995 lemmes différents.
Cette base a été élaborée à partir du livre "L'élaboration du français fondamental", 1964 (pour les mots de fréquence supérieure à 20) et un ensemble de pages dactylographiées pour les mots de fréquence inférieure à 20.
Web: http://www.lexique.org/public/gougenheim.php
Les champs sont les suivants
- mots: le mot
- semgram: indication grammaticale et sémantique sur le lemme
- lemfreq: fréquence brute du lemme (p.ex. adéquat)
- surfreq: fréquence de surface (p.ex. adéquate) (n'existe que pour les mots de fréquence < 20)
- répar: le nombre de textes dans lequel le mot est présent (n'existe que pour les mots de fréquence > 19)
avoir 11552 163 de 10503 163 je 7905 162 il (ou ils) 7515 160 ce (pronom) 6846 163 la (article) 5374 163 pas (négation) 5308 158 à (prépos.) 5236 163 et 5082 161 le (article) 4957 163 on 4266 128 vous 4202 154 un (article) 4188 162 ça (pronom démonstratif) 3972 159 les (article) 3815 162 que (conj.) 3537 162 ne 3283 150 faire 3174 162 qui (relatif) 3096 160 oui 2935 154 alors 2854 155 une (article) 2780 163 mais 2768 159 des (article indéfini) 2646 161 elle (ou elles) 2462 134 en (prépos.) 2405 161 dire 2391 160 y 2391 143 pour 2076 161 dans 2066 162 me 2014 152 se 1993 161 aller 1876 161 bien (adv.) 1697 163 du 1658 154 tu 1536 105 en (pronom-adv.) 1501 153 au 1490 161 là 1468 153 l' (article le) 1465 158 comme 1452 153 voir 1439 153 non 1435 139 savoir 1432 150 nous 1386 141 puis 1384 136 ah 1373 139 l' (article la) 1319 156 oh 1258 141 moi 1218 143 tout (adj.) 1205 149 très 1189 141 que (relatif) 1136 157 pouvoir (verbe.) 1131 157 parce que 1126 148 avec 1087 152 lui 1066 128 falloir 1001 151 enfin 1001 142 par 965 153 quand 964 143 le (pronom) 894 140 vouloir 881 146 petit 863 143 si (conditionnel) 837 141 plus (comparatif) 832 135 même 810 148 sur (prépos.) 801 139 ce (déterminatif) 705 142 ou (conj.) 705 137 autre 695 145 deux 689 139 mon 675 133 ben 620 111 venir 613 136 prendre 608 143 tout (pronom) 608 130 arriver 568 133 beaucoup 561 130 |
heure 545 117 rien 541 124 jour 538 132 mettre 530 125 passer 483 136 un peu 481 120 chose 411 121 les (pronom) 475 120 devoir (verbe.) 472 124 l' (pronom le) 458 102 aussi 454 126 encore 452 138 des (de les) 452 95 trois 450 113 parler 447 118 hein 447 74 toujours 443 117 cette 439 130 trouver 439 123 quoi (exclamatif) 437 85 ma 432 107 grand (adj.) 428 118 temps 426 130 donner 426 128 après 425 120 fois 423 121 eh bien 417 104 te 413 86 an 407 111 son (possessif) 407 103 où (relatif) 406 131 sa 401 113 cent 397 92 comprendre 393 94 maintenant 391 125 bon (adj.) 384 123 tout (adv.) 381 110 quand même 368 97 chez 365 108 plus (temporel) 355 117 moment 337 114 vingt 335 101 qu'est-ce que 328 115 que (après comparaison) 328 106 la (pronom) 328 105 comment 327 106 jamais 325 108 moins 322 106 quatre 322 105 connaître 316 107 monsieur (messieurs) 316 92 ces 314 107 vraiment 314 101 dix 311 97 franc (monnaie) 311 68 cinq 310 109 votre (déterminatif) 306 86 partir 305 100 enfant 305 84 voilà 304 95 assez 302 107 madame (mesdames) 299 70 demander 291 108 trop 286 109 d'ailleurs 283 98 tenir 281 106 maison 278 93 femme 275 74 peut-être 273 114 aimer 267 94 gens 265 87 mois 262 78 penser 258 102 là-bas 257 76 mille 257 70 quelque chose 255 105 soir 253 91 rester 250 100 sans 249 117 année 247 91 donc 243 95 exemple 242 94 déjà 241 107 |
Cette base est tirée du livre "L'élaboration du français fondamental" écrit par G. Gougenheim , P. Rivenc, R. Michéa, A. Sauvageot.Pour la mise sous format électronique: Boris New
in Lexique - Une Base de Données Lexicales Libre