Конкретный диагноз должен обозначаться совершенно одинаково во всех карточках БД. Например, можно условиться, что сочетание 02 всегда обозначает анемию и только анемию, 08 — ларингит и только ларингит. Такое сочетание называется ко¬дом диагноза (о кодировании мы расскажем в п. 14.9).
Все карточки в текстовом файле должны иметь одинако¬вую длину (например, по 4 строки на пациента), а положение кода диагноза - в каждой карточке должно быть одно и то же (например, с пятого символа второй строки).
Ы Если усложнить правила игры и соответственно — про-грамму, можно научить машину отождествлять «Анемия» и «Анем.», но это другая тема, которой мы коснемся далее.
Процесс приспособления форматов и значений данных к ну-ждам автомата, т. е. устранение произвола в представлении дли¬ны и (или) значений, мы можем условно назвать структурирова¬нием информации. Другими словами, структурирование — это просто введение каких-то соглашений о способах представления данных.
Отсюда ясно, что описанные выше текстовые файлы (и доку-менты Word) содержат «неструктурированную» или в лучшем случае «плохо структурированную» информацию, не пригодную для эффективной обработки автоматом.
Теперь мы можем уточнить определение информационной системы, приведенное в начале главы:
ИС — это совокупность тем или иным способом структуриро¬ванных данных (базы данных) и комплекса аппаратно-программных средств для хранения данных и манипулирования ими.
Кроме того, многие ИС могут одновременно хранить и не-структурированную информацию (об этом рассказано в п. 14.5), а некоторые системы по природе своей предназначены для хране¬ния и обработки неструктурированной информации.