Измерение текстовой информации
Для расчёта объёма текстовой информации используются следующие формулы:
Объём текстовой информации (V) = Количество символов (N) × Информационный вес символа (i).
Для кодирования текстовых символов была введена таблица ASCII
ASCII (American Standard Code for Information Interchange) — стандарт кодирования букв латинского алфавита, цифр, некоторых специальных знаков и управляющих последовательностей, принятый в 1963 году Американской ассоциацией стандартов как основной способ представления текстовых данных в ЭВМ
Первые 128 символов (4 бита) это различные управляющие символы, цифры и специальные знаки. Оставшиеся 128 символов (4 бита) используются под национальные алфавиты (например кириллица) и прочие символы.
Итак, в таблице ASCII представлено 256 различных символов (28), и каждый символ занимает 8 бит в памяти компьютера. Это означает, что если у нас есть текст, закодированный в таблице ASCII и состоящий из 200 символов, то его объём можно рассчитать следующим образом:
V = 200 * 8 = 1600 бит, или 200 байт.
Из-за того, что таблица ASCII отличается в разных странах и на разных устройствах в зависимости от стандарта она имеет разные виды, например:
- US-ASCII (international reference version) — вариант ASCII без национальных символов.
- КОИ8-R. Первая русская кодировка, в которой символы кириллицы расположены не в алфавитном порядке.
- CP866. Русская кодировка, использовавшаяся на компьютерах IBM в системе DOS. Верхняя часть CP866 полностью совпадает с базовым ASCII, а нижняя позволяет закодировать кириллицу и некоторые символы, которых нет на клавиатуре.
- Windows-1251. Русская кодировка, использовавшаяся в русскоязычных версиях операционной системы Windows в начале 90-х годов. Кириллические символы идут в алфавитном порядке, содержат все символы, встречающиеся в типографике обычного текста (кроме знака ударения).
Это повлекло за собой различные несоответствия в кодировках. Можно было открыть сайт в интернете и увидеть, например, такой текст:
Поэтому со временем была разработана универсальная таблица Unicode.
Юнико́д (Unicode) — стандарт кодирования символов, включающий в себя знаки почти всех письменных языков мира. В настоящее время стандарт является преобладающим в Интернете.
Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (Unicode Consortium, Unicode Inc.). Применение этого стандарта позволяет закодировать очень большое число символов из разных систем письменности: в документах, закодированных по стандарту Юникод, могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, символы музыкальной нотной нотации, при этом становится ненужным переключение кодовых страниц.
В таблице Unicode для каждого символа отводится целых 16 бит, что позволяет закодировать 216=65536 символов.
Это означает, что если у нас есть текст, закодированный в таблице Unicode и состоящий из 200 символов, то его объём можно рассчитать следующим образом:
V = 200 * 16 = 3200 бит, или 400 байт.
В результате объём текста увеличился вдвое, но это помогло устранить проблему несовместимости кодировок.
Задания для самостоятельного решения
Задача 1.
Рассказ, набранный на компьютере, содержит 2 страницы, на каждой странице 32 строки, в каждой строке 64 символа. Определите информационный объём рассказа в одной из кодировок Unicode, в которой каждый символ кодируется 16 битами.
1) 16000 бит
2) 8000 бит
3) 8 Кбайт
4) 4 Кбайт
Задача 2.
Информационный объём сообщения, содержащего 1024 символа, составляет 1 Кбайт. Каким количеством бит кодируется каждый символ этого сообщения?
1) 32
2) 16
3) 8
4) 4
Задача 3.
Пользователь создал сообщение из 256 символов в кодировке Unicode, в которой каждый символ кодируется 16 битами. После редактирования информационный объём сообщения составил 3072 бит. Определите, сколько символов удалили из сообщения, если его кодировка не изменилась.
1) 100
2) 64
3) 32
4) 16
Задача 4.
В одном из вариантов кодировки Unicode на каждый символ отводится 4 байта. Определите информационный объём из 32 символов в этой кодировке.
1) 64 байта
2) 256 бит
3) 512 бит
4) 1024 бит
Задача 5.
Статья, набранная на компьютере, содержит 48 страниц, на каждой странице 40 строк, в каждой строке 40 символов. Определите размер статьи в кодировке КОИ-8, в которой каждый символ кодируется 8 битами.
1) 1200 байт
2) 150 Кбайт
3) 600 байт
4) 75 Кбайт