Цитата:
Сообщение от mister
barmalini,
да знаю я это, но тем не менее доковские файлы очень экономны, служебной информации чуток, а остальное голимый текст, а вот сканированное изображение - это все ж таки рисунок, пусть плохого качества - но рисунок и весит он добре.
|
Там хитрее. Картинка делится на мелкие фрагменты, размером с букву, а потом из этих фрагментов набивается страница. В любой книжке не более 100 - 150 таких элементов, буквы, цифры, закорючки всякие... Некоторые группируются с слова, тоже способствует компрессии.
Чем толще книжка тем больше экономия.
Слово "голодание" в Ворде каждый раз будет занимать 9 букв, это 9 байт, не учитывая накладных расходов в виде служебной информации.
В djvu оно первый раз займет байт 200-300, все же картинка, и ему будет присвоен номер. А на следующих страницах вместо самого слова будет использоваться его номер - 1 байт. Значит после примерно 20 повторений djvu уже предпочтительней.
Разумеется, они не буквы запоминают а фрагменты изображений, и все там устроено гораздо сложнее, но принцып именно такой.
А в доковских файлах и шрифты хранятся, и стили, и версии редактирования и много всего прочего оттого он такой толстый
