Таблиці кодів символів


ASCII-Table-wide.svg

Для чого використовуються таблиці кодування символів?
Натиснення клавіші на клавіатурі приводить до того, що сигнал надсилається в комп’ютер у вигляді двійко­вого числа, яке зберігається в кодовій таблиці. Кодова таблиця встановлює відповідність між символами та їх двійковими кодами для подання текстових даних у комп’ютері. Для того щоб весь світ однаково кодував тек­стові дані, потрібні єдині таблиці кодування.
У всьому світі за стандарт прийнято таблицю ASCII (American Standard Code for Information Interchange — Американський стандартний код для обміну повідо­мленнями). Створена в 1963 р. система кодування ASCII передбачала кодування 128 символів, коди яких склада­лися із 7 біт (27 = 128). З часом кодування було розшире­не до 256 символів (28 = 256), при цьому коди перших 128 символів не змінилися.
Таблиця кодування ASCII  складається з базової (значення кодів від 0 до 31) і розширеної (значен­ня кодів від 32 до 255) таблиць. Коди з 33 по 127 є інтер­національними й відповідають символам латинського алфавіту, цифрам, знакам арифметичних операцій та знакам пунктуації. Коди зі 128 по 255 є національними, тобто в національних кодуваннях одному й тому самому коду відповідають різні символи.
У світі існують й інші системи кодування. У різних таблицях кодування одні й ті самі символи можуть мати різні коди. Останнім часом серед таблиць кодування, які містять українські літери, найпоширенішими є KOI8-U і Windows-1251. Довжина коду кожного символу в них — 1 байт.
Широкого поширення набув міжнародний стандарт Unicode — Unicode Consortium (UTF 32, UTF 16 і UTF 8), який відводить на кожний символ не один байт, а два, тобто 16 біт, тому за його допомогою можна закодувати не 256, а 216 = 65 536 різних символів.



Як визначити довжину двійкового коду повідомлення?
Щоб обчислити довжину двійкового коду повідомлення, треба кіль­кість символів у тексті помножити на кількість бітів, потрібних для ко­дування одного символу. Наприклад: двійкове число 01010111 займає в пам’яті 8 біт. Якщо його записати у вигляді тексту в кодуванні ASCII, до­вжина коду буде 8 байт, або 64 біти, оскільки кожний символ кодується за допомогою 8 біт. Довжина двійкового коду цього ж тексту в кодуванні Unicode становитиме 16 байт, або 128 біт.
Не слід забувати, що пропуски треба вважати за символи, оскіль­ки вони також набираються на клавіатурі, мають код і зберігаються в пам’яті.

Комментариев нет:

Отправить комментарий