No Image

Что является хранилище информации

СОДЕРЖАНИЕ
0 просмотров
10 марта 2020

Храни́лище да́нных (англ. Data Warehouse ) — предметно-ориентированная информационная база данных, специально разработанная и предназначенная для подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в организации. Строится на базе систем управления базами данных и систем поддержки принятия решений. Данные, поступающие в хранилище данных, как правило, доступны только для чтения.

Данные из OLTP-системы копируются в хранилище данных таким образом, чтобы при построении отчётов и OLAP-анализе не использовались ресурсы транзакционной системы и не нарушалась её стабильность. Есть два варианта обновления данных в хранилище:

  • полное обновление данных в хранилище. Сначала старые данные удаляются, потом происходит загрузка новых данных. Процесс происходит с определённой периодичностью, при этом актуальность данных может несколько отставать от OLTP-системы;
  • инкрементальное обновление — обновляются только те данные, которые изменились в OLTP-системе.

Содержание

Принципы организации хранилища [ править | править код ]

  • Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.
  • Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.
  • Некорректируемость. Данные в хранилище данных не создаются: то есть поступают из внешних источников, не корректируются и не удаляются.
  • Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

Дизайн хранилищ данных [ править | править код ]

Существуют два основных архитектурных направления — нормализованные хранилища данных и хранилища с измерениями.

В нормализованных хранилищах, данные находятся в предметно ориентированных таблицах третьей нормальной формы. Нормализованные хранилища характеризуются как простые в создании и управлении, недостатки нормализованных хранилищ — большое количество таблиц как следствие нормализации, из-за чего для получения какой-либо информации нужно делать выборку из многих таблиц одновременно, что приводит к ухудшению производительности системы. Для решения этой проблемы используются денормализованные таблицы — витрины данных, на основе которых уже выводятся отчетные формы. При громадных объемах данных могут использовать несколько уровней «витрин»/«хранилищ».

Хранилища с измерениями используют схему «звезда» или схему «снежинка». При этом в центре «звезды» находятся данные (таблица фактов), а измерения образуют лучи звезды. Различные таблицы фактов совместно используют таблицы измерений, что значительно облегчает операции объединения данных из нескольких предметных таблиц фактов (пример — факты продаж и поставок товара). Таблицы данных и соответствующие измерения образуют архитектуру «шина». Измерения часто создаются в третьей нормальной форме, в том числе, для протоколирования изменения в измерениях. Основным достоинством хранилищ с измерениями является простота и понятность для разработчиков и пользователей, также, благодаря более эффективному хранению данных и формализованным измерениям, облегчается и ускоряется доступ к данным, особенно при сложных анализах. Основным недостатком является более сложные процедуры подготовки и загрузки данных, а также управление и изменение измерений данных.

При достаточно большом объеме данных схемы «звезда» и «снежинка» также дают снижение производительности при соединениях с измерениями.

Процессы работы с данными [ править | править код ]

Источниками данных могут быть:

  1. Традиционные системы регистрации операций
  2. Отдельные документы
  3. Наборы данных

Операции с данными:

  1. Извлечение — перемещение информации от источников данных в отдельную БД, приведение их к единому формату.
  2. Преобразование — подготовка информации к хранению в оптимальной форме для реализации запроса, необходимого для принятия решений.
  3. Загрузка — помещение данных в хранилище, производится атомарно, путём добавления новых фактов или корректировкой существующих.
  4. Анализ — OLAP, Data Mining, сводные отчёты.
  5. Представление результатов анализа.

Вся эта информация используется в словаре метаданных. В словарь метаданных автоматически включаются словари источников данных. Здесь же описаны форматы данных для их последующего согласования, периодичность пополнения данных, согласованность во времени.Задача словаря метаданных состоит в том, чтобы освободить разработчика от необходимости стандартизировать источники данных.Создание хранилищ данных не должно противоречить действующим системам сбора и обработки информации.Специальные компоненты словарей должны обеспечивать своевременное извлечение данных из них и обеспечить преобразование данных к единому формату на основе словаря метаданных.

Логическая структура данных хранилища данных существенно отличается от структуры данных источников данных. Для разработки эффективного процесса преобразования необходима хорошо проработанная модель корпоративных данных и модель технологии принятия решений.Данные для пользователя удобно представлять в многоразмерных БД, где в качестве измерений могут выступать время, цена или географический регион.

Кроме извлечения данных из БД, для принятия решений важен процесс извлечения знаний, в соответствии с информационными потребностями пользователя. С точки зрения пользователя в процессе извлечения знаний из БД должны решаться следующие преобразования: данные → информация → знания → полученные решения.

Человек хранит информацию в собственной памяти, а также в виде записей на различных внешних (по отношению к человеку) носителях: на камне, папирусе, бумаге, магнитных и оптических носителях и пр. Благодаря таким записям информация передается не только в пространстве (от человека к человеку), но и во времени — из поколения в поколение.

Разнообразие носителей информации

Информация может храниться в различных видах: в виде текстов, в виде рисунков, схем, чертежей; в виде фотографий, в виде звукозаписей, в виде кино- или видеозаписей. В каждом случае применяются свои носители. Носитель — это материальная среда, используемая для записи и хранения информации.

Читайте также:  Error code 1618 при установке java

К основным характеристикам носителей информации относятся: информационный объем или плотность хранения информации, надежность (долговечность) хранения.

Бумажные носители

Носителем, имеющим наиболее массовое употребление, до сих пор остается бумага. Изобретенная во II веке н.э. в Китае, бумага служит людям уже 19 столетий.

Для сопоставления объемов информации на разных носителях будем пользоваться универсальной единицей — байт, считая, что один символ текста “весит” 1 байт. Книга, содержащая 300 страниц, при размере текста на странице примерно 2000 символов имеет информационный объем 600 000 байт, или 586 Кб. Информационный объем средней школьной библиотеки, фонд которой составляет 5000 томов, приблизительно равен 2861 Мб = 2,8 Гб.

Что касается долговечности хранения документов, книг и прочей бумажной продукции, то она очень сильно зависит от качества бумаги, от красителей, используемых при записи текста, от условий хранения. Интересно, что до середины XIX века (с этого времени в качестве бумажного сырья начали использовать древесину) бумага делалась из хлопка и текстильных отходов — тряпья. Чернилами служили натуральные красители. Качество рукописных документов того времени было довольно высоким, и они могли храниться тысячи лет. С переходом на древесную основу, с распространением машинописи и средств копирования, с использованием синтетических красителей срок хранения печатных документов снизился до 200–300 лет.

Магнитные носители

В XIX веке была изобретена магнитная запись. Первоначально магнитная запись использовалась только для сохранения звука. Самым первым носителем магнитной записи была стальная проволока диаметром до 1 мм. В начале XX столетия для этих целей использовалась также стальная катаная лента. Качественные характеристики всех этих носителей были весьма низкими. Для производства 14-часовой магнитной записи устных докладов на Международном конгрессе в Копенгагене в 1908 г. потребовалось 2500 км, или около 100 кг проволоки.

В 20-х годах прошлого века появляется магнитная лента сначала на бумажной, а позднее — на синтетической (лавсановой) основе, на поверхность которой наносится тонкий слой ферромагнитного порошка. Во второй половине XX века на магнитную ленту научились записывать изображение, появляются видеокамеры, видеомагнитофоны.

На ЭВМ первого и второго поколений магнитная лента использовалась как единственный вид сменного носителя для устройств внешней памяти. На одну катушку с магнитной лентой, использовавшейся в лентопротяжных устройствах первых ЭВМ, помещалось приблизительно 500 Кб информации.

С начала 1960-х годов в употребление входят компьютерные магнитные диски: алюминиевый или пластмассовый диск, покрытый тонким магнитным порошковым слоем толщиной в несколько микрон. Информация на диске располагается по круговым концентрическим дорожкам. Магнитные диски бывают жесткими и гибкими, бывают сменными и встроенными в дисковод компьютера. Последние традиционно называют винчестерами, а сменные гибкие диски — флоппи-дисками.

“Винчестер” компьютера — это пакет магнитных дисков, надетых на общую ось. Информационная емкость современных винчестеров измеряется в гигабайтах — десятки и сотни Гб. Наиболее распространенный тип гибкого диска диаметром 3,5 дюйма вмещает 2 Мб данных. Флоппи-диски в последнее время выходят из употребления.

В банковской системе большое распространение получили пластиковые карты. На них тоже используется магнитный принцип записи информации, с которой работают банкоматы, кассовые аппараты, связанные с информационной банковской системой.

Оптические носители

Применение оптического, или лазерного, способа записи информации начинается в 1980-х годах. Его появление связано с изобретением квантового генератора — лазера, источника очень тонкого (толщина порядка микрона) луча высокой энергии. Луч способен выжигать на поверхности плавкого материала двоичный код данных с очень высокой плотностью. Считывание происходит в результате отражения от такой “перфорированной” поверхности лазерного луча с меньшей энергией (“холодного” луча). Благодаря высокой плотности записи оптические диски имеют гораздо больший информационный объем, чем однодисковые магнитные носители. Информационная емкость оптического диска составляет от 190 до 700 Мб. Оптические диски называются компакт-дисками — CD.

Во второй половине 1990-х годов появились цифровые универсальные видеодиски DVD (Digital Versatile Disk) с большой емкостью, измеряемой в гигабайтах (до 17 Гб). Увеличение их емкости по сравнению с CD связано с использованием лазерного луча меньшего диаметра, а также двухслойной и двусторонней записи. Вспомните пример со школьной библиотекой. Весь ее книжный фонд можно разместить на одном DVD.

В настоящее время оптические диски (CD — DVD) являются наиболее надежными материальными носителями информации, записанной цифровым способом. Эти типы носителей бывают как однократно записываемыми — пригодными только для чтения, так и перезаписываемыми — пригодными для чтения и записи.

Флэш-память

В последнее время появилось множество мобильных цифровых устройств: цифровые фото- и видеокамеры, МР3-плееры, карманные компьютеры, мобильные телефоны, устройства для чтения электронных книг, GPS-навигаторы и многое другое. Все эти устройства нуждаются в переносных носителях информации. Но поскольку все мобильные устройства довольно миниатюрные, то и к носителям информации для них предъявляются особые требования. Они должны быть компактными, обладать низким энергопотреблением при работе и быть энергонезависимыми при хранении, иметь большую емкость, высокие скорости записи и чтения, долгий срок службы. Всем этим требованиям удовлетворяют флэш-карты памяти. Информационный объем флэш-карты может составлять несколько гигабайт.

В качестве внешнего носителя для компьютера широкое распространение получили флэш-брелоки (“флэшки” — называют их в просторечии), выпуск которых начался в 2001 году. Большой объем информации, компактность, высокая скорость чтения-записи, удобство в использовании — основные достоинства этих устройств. Флэш-брелок подключается к USB-порту компьютера и позволяет скачивать данные со скоростью около 10 Мб в секунду.

Читайте также:  Расширение opus что это

“Нано-носители”

В последние годы активно ведутся работы по созданию еще более компактных носителей информации с использованием так называемых “нанотехнологий”, работающих на уровне атомов и молекул вещества. В результате один компакт-диск, изготовленный по нанотехнологии, сможет заменить тысячи лазерных дисков. По предположениям экспертов приблизительно через 20 лет плотность хранения информации возрастет до такой степени, что на носителе объемом примерно с кубический сантиметр можно будет записать каждую секунду человеческой жизни.

Организация информационных хранилищ

Информация сохраняется на носителях для того, чтобы ее можно было просматривать, искать нужные сведения, нужные документы, пополнять и изменять, удалять данные, потерявшие актуальность. Иначе говоря, хранимая информация нужна человеку для работы с ней. Удобство работы с такими информационными хранилищами сильно зависит от того, как информация организована.

Возможны две ситуации: либо данные никак не организованы (такую ситуацию иногда называют кучей), либо данные структурированы. С увеличением объема информации вариант “кучи” становится все более неприемлемым из-за сложности ее практического использования (поиска, обновления и пр.).

Под словами “данные структурированы” понимается наличие какой-то упорядоченности данных в их хранилище: в словаре, расписании, архиве, компьютерной базе данных. В справочниках, словарях, энциклопедиях обычно используется линейный алфавитный принцип организации (структурирования) данных.

Крупнейшими хранилищами информации являются библиотеки. Упоминания о первых библиотеках относятся к VII веку до н.э. С изобретением книгопечатания (XV век) библиотеки стали распространяться по всему миру. В библиотечном деле имеется многовековой опыт организации информации.

Для организации и поиска книг в библиотеках создаются каталоги: списки книжного фонда. Первый библиотечный каталог был создан в знаменитой Александрийской библиотеке в III веке до н.э. С помощью каталога читатель определяет наличие в библиотеке нужной ему книги, а библиотекарь находит ее в книгохранилище. При использовании бумажной технологии каталог — это организованный набор картонных карточек со сведениями о книгах.

Существуют алфавитные и систематические каталоги. В алфавитных каталогах карточки упорядочены в алфавитном порядке фамилий авторов и образуют линейную (одноуровневую) структуру данных. В систематическом каталоге карточки систематизированы по тематике содержания книг и образуют иерархическую структуру данных. Например, все книги делятся на художественные, учебные, научные. Учебная литература делится на школьную и вузовскую. Книги для школы делятся по классам и т.д.

В современных библиотеках происходит смена бумажных каталогов на электронные. В таком случае поиск книг осуществляется автоматически информационной системой библиотеки.

Данные, хранящиеся на компьютерных носителях (дисках), имеют файловую организацию. Файл подобен книге в библиотеке. Аналогично библиотечному каталогу операционная система создает каталог диска, который хранится на специально отведенных дорожках. Пользователь ищет нужный файл, просматривая каталог, после чего операционная система находит этот файл на диске и предоставляет пользователю. На первых дисковых носителях небольшого объема использовалась одноуровневая структура хранения файлов. С появлением жестких дисков большого объема стали использовать иерархическую структуру организации файлов. Наряду с понятием “файл” появилось понятие папки (см. “Файлы и файловая система”).

Более гибкой системой организации хранения и поиска данных являются компьютерные базы данных (см.Базы данных”).

Надежность хранения информации

Проблема надежности хранения информации связана с двумя видами угроз для хранимой информации: разрушение (потеря) информации и кража или утечка конфиденциальной информации. Бумажные архивы и библиотеки всегда были подвержены опасности физического исчезновения. Огромный ущерб для цивилизации принесло разрушение упомянутой выше Александрийской библиотеки в I веке до н.э., поскольку большая часть книг в ней существовала в единственном экземпляре.

Основной способ защиты информации в бумажных документах от потери — их дублирование. Использование электронных носителей делает дублирование более простым и дешевым. Однако переход на новые (цифровые) информационные технологии создал новые проблемы защиты информации.

Методические рекомендации

В процессе изучения курса информатики ученики приобретают определенные знания и умения, относящиеся к хранению информации.

Ученики осваивают работу с традиционными (бумажными) источниками информации. В стандарте для основной школы отмечается, что ученики должны научиться работать с некомпьютерными источниками информации: справочниками, словарями, каталогами библиотек. Для этого их следует ознакомить с принципами организации этих источников и с приемами оптимального поиска в них. Поскольку данные знания и умения имеют большое общеучебное значение, то желательно дать их ученикам как можно раньше. В некоторых программах пропедевтического курса информатики этой теме уделяется большое внимание.

Ученики должны овладеть приемами работы со сменными компьютерными носителями информации. Все реже в последнее время используются гибкие магнитные диски, на смену которым пришли емкие и быстрые флэш-носители. Ученики должны уметь определять информационную емкость носителя, объем свободного пространства, сопоставлять с ним объемы сохраняемых файлов. Ученики должны понимать, что для длительного хранения больших объемов данных наиболее подходящим средством являются оптические диски. При наличии пишущего CD-дисковода следует научить их организации записи файлов.

Важным моментом обучения является разъяснение опасностей, которым подвергается компьютерная информация со стороны вредоносных программ — компьютерных вирусов. Следует научить детей основным правилам “компьютерной гигиены”: осуществлять антивирусный контроль всех вновь поступающих файлов; регулярно обновлять базы антивирусных программ.

Применение технологии «клиент-сервер» не дает желаемого резуль­тата для анализа данных и построения систем поддержки и принятия ре­шений. Это связано с тем, что базы данных, которые являются основой технологии «клиент-сервер», ориентированы на автоматизацию рутин­ных операций: выписки счетов, оформления договоров, проверки со­стояния склада и т. д., и предназначены, в основном, для линейного персонала.

Читайте также:  Intel ssd 330 series

Для менеджеров и аналитиков требуются системы, которые бы по­зволяли:

• анализировать информацию во временном аспекте;

• формировать произвольные запро­сы к системе;

• обрабатывать большие объемы дан­ных;

• интегрировать данные из различных регистрирующих систем.

Информационное хранили­ще — предметно-ориентиро­ванная, интегрированная, со­держащая данные, накопленные за большой интервал вре­мени, автоматизированная система, предназначенная для поддержки принятия управленческих решений.

Решением данной проблемы стала реализация технологии информацион­ных хранилищ (складов данных).

Основное назначение информационного хранилища — информаци­онная поддержка принятия решений, а не оперативная обработка дан­ных. Технология информационного хранилища обеспечивает сбор дан­ных из существующих внутренних баз предприятия и внешних источни­ков, формирование, хранение и эксплуатацию информации как единой, хранение аналитических данных в форме, удобной для анализа и приня­тия управленческих решений.

Внутренние базы — локальные базы функцио­нальных подсистем предприятия: • базы бухгалтерского учета; • базы финансового учета; • базы кадрового учета и т.д. Внешние базы — базы, содержащие сведения других предприятий и организаций: • базы предприятий-конкурентов; • базы правительственных и законодательных органов и др.

Основные отличия локальной базы данных от информационного хранилища представлены в следующей таблице.

Отличия базы данных от информационного хранилища

Элемент отличия База данных Информационное хранилище
Данные, содержа­щиеся в системе Оперативные данные организа­ции Внутренние данные организации, внешние данные других источников
Модели данных Поддерживается одна модель данных Поддерживается большое количество моде­лей данных
Выполняемые за­просы Запросы по оперативным дан­ным предприятия, отражаю­щим ситуацию на настоящий момент времени Оперативные и ретроспективные запросы, содержащие данные предприятия и внешних организаций как на настоящий момент вре­мени, так и за предыдущие периоды

Принцип, положенный в основу технологии информационного хра­нилища, заключается в том, что все необходимые для анализа данные извлекаются из нескольких локальных баз, преобразуются посредством статистических методов в аналитические данные, которые помещаются в один источник данных — информационное хранилище.

В процессе перемещения данных из локальной базы данных в ин­формационное хранилище выполняются следующие преобразования:

очищение данных — устранение ненужной для анализа информа­ции (адреса, почтовые индексы, идентификаторы записей и т. д.);

агрегирование данных — вычисление суммарных, средних, мини­мальных, максимальных и других статистических показателей;

преобразование в единый формат — производится в том случае, ес­ли одинаковые по наименованию данные, взятые из разных внешних и внутренних источников, имеют разный формат представления (на­пример, даты).

согласование во времени — приведение данных в соответствие к од­ному моменту времени (например, к единому курсу рубля на текущий момент).

Данные, содержащиеся в информационном хранилище, обладают следующими свойствами:

1. Предметная ори­ентация Данные организованы в соответствии со способом их представления в пред­метных приложениях
2. Целостность Данные объединены едиными наименованиями, единицами измерения и т. д.
3. Отсутствие вре­менной привязки В отличие от локальных баз данных в информационном хранилище содержат­ся данные, накопленные за большой интервал времени (года и десятилетия)
4.Согласованность во времени Данные приведены к единому моменту времени
5. Неизменяемость Данные в информационных хранилищах не обновляются и не изменяются, они считываются из различных источников и доступны только для чтения ‘

Существует три вида информационных хранилищ:

• информационные хранилища двухуровневой архитектуры;

• информационные хранилища трехуровневой архитектуры.

Витрины данных — это небольшие хранилища с упрощенной архи­тектурой. Витрины данных строятся без создания центрального храни­лища, при этом информация поступает из локальных баз данных и огра­ничена конкретной предметной областью, поэтому в разных витринах данных информация может дублироваться. При построении витрин ис­пользуются основные принципы построения хранилищ данных, поэто­му их можно считать хранилищами данных в миниатюре.

Информационные хранилища двухуровневой архитектуры характери­зуются тем, что данные концентрируются в одном источнике, к кото­рому все пользователи имеют доступ. Таким образом, обеспечивается возможность формирования ретроспективных запросов, анализа тен­денций, поддержки принятия решений.

Информационные хранилища трехуровневой архитектуры имеют следующую структуру.

На первом уровне располагаются разнообразные источники дан­ных — локальные базы данных, справочные системы, внешние источни­ки (данные информационных агентств, макроэкономические показате­ли). Второй уровень содержит центральное хранилище, куда стекается информация от всех источников с первого уровня, и, возможно, опера­тивный склад данных, который не содержит исторических данных и вы­полняет две основные функции:

• источник аналитической информации для оперативного управле­ния;

• подготовка данных для последующей загрузки в центральное хра­нилище.

Под подготовкой данных понимают их преобразование и проведе­ние определенных проверок. Наличие оперативного склада данных не­обходимо при различном регламенте поступления информации из ис­точников. Третий уровень представляет собой набор предметно-ориен­тированных витрин данных, источником информации для которых является центральное хранилище данных. Именно с витринами данных и работает большинство конечных пользователей.

Не нашли то, что искали? Воспользуйтесь поиском:

Лучшие изречения: Для студента самое главное не сдать экзамен, а вовремя вспомнить про него. 10238 — | 7597 — или читать все.

91.146.8.87 © studopedia.ru Не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования. Есть нарушение авторского права? Напишите нам | Обратная связь.

Отключите adBlock!
и обновите страницу (F5)

очень нужно

Комментировать
0 просмотров
Комментариев нет, будьте первым кто его оставит

Это интересно
No Image Компьютеры
0 комментариев
No Image Компьютеры
0 комментариев
No Image Компьютеры
0 комментариев
Adblock detector