Про зміни у структурі та складових MeSH

Преамбула 

MeSH постійно змінюється: майже щомісяця з'являються та зникають рубрики, відбуваються зміни у дереві MeSHу, навіть відбулися зміни у підрубриках (вилучено "diagnostic use" - "диагностическое применение"). Останніми роками відбулися зміни й у формальній структурі MeSH (з'явився MeSH у XML-форматі). І це не просто зміна розташування тих самих даних, а суттєві зміни у представленні та складових MeSHу.

Для чого про це потрібно знати бібліотекарям?
По-перше, MeSH є інструментом (насамперед бібліотекарів). Для того щоб досконало володіти інструментом потрібно знати його складові  (не зайве, наприклад, для грамотного використання PUBMED).
По-друге, предметизатори мед. бібліотек України, які не мають змоги скористатися програмним забезпеченням для сучасної версії MeSH, повинні знати хоча б різницю між тим, що є у них та в світі. Крім того, потрібне розуміння, що нові технології неодмінно прийдуть у бібліотеки, і вже зараз можна готувати дані, які відповідають новим стандартам. Не придумувати свої методики, а скористатися оригінальними. Світ почне "бачити" бібліотечні дані України лише тоді, коли вони будуть відповідати сучасним стандартам.
По-третє, це вкрай важливо для створення УкрMeSH, бо тільки на сучасних засадах!
Вчетверте, сучасний бібліотекар повинен знати про семантичний веб, його складові, усіма засобами сприяти розбудові семантичного вебу.

"Семантичний веб” (семантична павутина, “Semantic Web”) – термін, введений винахідником вебу (WWW) Тімом Бернерсом-Лі (Tim Berners-Lee) для позначення сукупності технологій та засобів для автоматичної (комп'ютерної) обробки пов'язаних між собою (Linked Data) спеціалізованих метаданих, вільнодоступних у вебі (Linked Open Data (LOD)), задля покращання результатів пошуку інформації, в тому числі шляхом віднайдення прихованих закономірностей у масштабних розподілених наборах даних, сприяння розвитку та формуванню освітніх ресурсів, часових (історичних), географічних, геологічних та метеорологічних даних тощо. Іншими словами, пропонуються доповнити веб чітко структурованими (за стандартами) сторінками з даними, придатними для комп'ютерної обробки. Головне гасло: "перетворимо комп'ютери із засобу зберігання, передачі і демонстрації даних в засоби пошуку та обробки знань".

Ще 1998 р. Тім Бернерс-Лі запропонував план побудови семантичного вебу. Згодом з'явився так званий "Стек понять семантичної павутини" (Semantic Web Stack), який також називають Semantic Web Cake (Семантичний пиріг або Пиріг Тіма). Чому пиріг? Я б переклала "тортик" :) Семантична мережа являє собою багатошарову структуру, кожний наступний рівень якої відповідає за більш тонкі механізми подання та обробки даних і знань. Реалізація кожного наступного кроку (шару) можлива на підґрунті нижніх шарів.



Отже, для створення зрозумілого комп'ютеру опису ресурсу (метаданих) в семантичній павутині використовується формат RDF (Resource Description Framework), що заснований на синтаксисі XML і використовує ідентифікатори URI для позначення ресурсів. RDF був затверджений як стандарт W3C у лютому 2004 року. Нагадаю, що юридично W3C не є міжнародно-визнаною організацією стандартизації, тим не менше її стандарти є загальновизнаними та вільними від будь-яких платних запатентованих технологій.
Вперше MeSH RDF було представлено на сайті NLM у листопаді 2014р.
З того часу було опубліковано декілька нових релізів https://hhs.github.io/meshrdf/release-notes.html. Докладніше тут:
Winnenburg, R., & Bodenreider, O. (2014). Desiderata for an authoritative Representation of MeSH in RDF. AMIA Annual Symposium Proceedings, 2014, 1218–1227.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4419968/

Ідея підтримки створення семантичного вебу була активна підтримана бібліотекарями в усьому світу. Під егідою IFLA створено Semantic Web Special Interest Group (SWSIG) (http://www.ifla.org/swsig). Linked Data Service існує в багатьох національних бібліотеках. І не тільки у національних! Ось, наприклад:
грантові заявки на підтримку створення Linked Data від університетів https://www.imls.gov/news-events/upnext-blog/2016/05/sharing-and-distributing-authority-six-projects-supporting-linked.
реалізуємий з 2014 р. проект LD4P (Linked Data for Libraries) https://www.ld4l.org/, підтриманий Фондом Ендрю Меллона
Сторінка "OCLC Linked Data" https://www.oclc.org/developer/develop/linked-data.en.html та відповідна стаття 2012 р. http://www.niso.org/apps/group_public/download.php/9408/IP_Fons-etal_OCLC_isqv24no2-3.pdf

Рекомендую послухати натхненну промову Тіма Бернерса-Лі на ТЕD-2009 (дуже популярно! 16 хв.). Є переклад на російську, якщо натиснути "Interactive transcript") - https://www.ted.com/talks/tim_berners_lee_on_the_next_web?language=ru
Ключова теза цього виступу – КОЖНА людина, яка має доступ до Інтернету, може сприяти розбудові глобального інформаційного суспільства, суспільства знань через створення та редагування даних у веб. На мою думку, БІБЛІОТЕКИ в Україні повинні більше уваги приділяти цьому питанню, ніж адвокаційній діяльності (згодна що вона потрібна). І тоді не доведеться доводити суспільству потрібність бібліотек. Нагадаю, що кількість користувачів веб зростає, а реальних (не віртуальних) користувачів бібліотек в Україні знижується.

Зараз не бракує матеріалів для бібліотекарів про семантичний веб, linked data, RDF.
Корисними для мене були статті росіян, бо російською читати легше ніж англійською:
Жлобинская, О.Н. (2012) Semantic web, связанные данные и библиотеки
http://www.rusmarc.ru/publish/SemWeb.pdf
Шварцман, М.Е., & Найдин, О.П. (2015) Linked Open Data как средство обогащения поисковых запросов. Университетская книга, 2015 (12), 66-71.
http://www.unkniga.ru/innovation/tehnology/5467-linked-open-data-kak-sredstvo-obogascheniya-poiskovyh-zaprosov.html
(Хто читає російською, можуть також переглянути http://www.rusmarc.ru/publish/)

MeSH XML та його складові

NLM почала публікувати MeSH у XML-форматі з 2002 року. Зараз MeSH XML містить 82 елементи (тега), опис яких подано тут - https://www.nlm.nih.gov/mesh/xml_data_elements.html
Далі не буде перекладу опису цих елементів. Наведу лише тези, які на мою думку, важливі для розуміння змін, що відбулися.

Останню версію MeSH XML можна завантажити звідси - https://www.nlm.nih.gov/mesh/download_mesh.html. Повний файл desc2016.xml (292 MB), той самий файл заархівований desc2016.zip (15 MB).

У попередніх постах (http://eidea-lib.blogspot.com/2015/11/mesh-difference.html) зазначалось, що зараз для звантаження з сайту NLM, MeSH доступний у форматах XML та  MARC. Структура записів і зміст самих записів в цих форматах – різні.
MeSH у MARC-форматі це плоска таблиця, запис якої може бути одним з 3х видів:
1) дескриптор (або предметна рубрика) = Descriptor
2) модифікатори (підрубрики) = Qualifier
3) синонім або семантично пов'язаний термін (записи містять посилання на дескриптор) = Entry Terms

Зв’язки між дескрипторами визначаються кодом дерева MeSH, а зв’язки між дескриптором та синонімами (семантично зв'язаними термінами) визначаються безпосередньо в записі синоніма. Зв'язки "Див.також" визначаються в записі дескриптора через ім'я дескриптора.

***
Коротко про ХML (безвідносно до MeSH)
XML-документ має ієрархічну структуру, і може представлятись у вигляді дерева. Вузлами цього дерева найчастіше є елементи, фізична структура яких складається із пари відкриваючого та закриваючого тегів <Назва-тега> та </Назва-тега>.

***
На сторінці https://www.nlm.nih.gov/mesh/xml_data_elements.html за абеткою подано повний перелік тегів для MeSH, які використовуються на сьогодні (82 тега).

Для кожного тегу крім його назви та опису подається інформація про
підпорядковані теги (таким чином визначається ієрархія)
до якого типу записів застосовується цей тег – дескриптори (Descriptor=D), модифікатори (Qualifier=Q), синоніми чи семантично зв'язані терміни (Supplementary Concept Records=SCR)
чи може тег повторюватись в межах одного запису
чи є тег обов'язковим

***
Відповідно до вимог специфікації XML, назви тегів підібрані так, щоб полегшити людині розуміння їх значення. Наприклад,
<DateCreated> - календарна дата введення терміну в MeSH.
<SeeRelatedDescriptor> - перехресне посилання на конкретний дескриптор "Див. також". Наприклад, у дескриптора Abdominal Muscles (Брюшные мышцы) є посилання "див.також Abdominal Wall (Брюшная стенка)". Виглядає це в MeSH XML-запису так:
<SeeRelatedDescriptor>
   <DescriptorReferredTo>
      <DescriptorUI>D034861</DescriptorUI>
      <DescriptorName>
           <String>Abdominal Wall</String>
       </DescriptorName>
   </DescriptorReferredTo>
</SeeRelatedDescriptor>
***
Нове!
Для відображення синонімічності термінів MeSH використовується трирівнева структура:
1. Дескриптори = Descriptors
2. Концепти = Concepts
3. Терми = Terms
Дескриптор складається з одного або більшого числа концептів (лат. Conceptus - «поняття»), а кожен концепт складається з одного або більше термів. Один із концептів та один із термів у кожному концепті позначаються як "Найкращі" (Preferred).
Кожен концепт містить терми, які строго синонімічні (один одному) (не плутати з Supplementary Concept).

Приклади повторю з https://www.nlm.nih.gov/mesh/concept_structure.html. Зазначу, що у прикладах наведено схему для ілюстрації підходу, яка включає назви дескриптору (предметної рубрики), концептів та термів і відбиває інкапсуляцію (вкладений порядок) дескриптор-концепт-терм, це не MeSH-запис або його частина.

Приклад 1. Дескриптор складається з двох концептів і п'яти термів.
Cardiomegaly                [Descriptor]
     Cardiomegaly                  [Concept, Preferred]
          Cardiomegaly                    [Term, Preferred]
          Enlarged Heart                  [Term]
          Heart Enlargement             [Term]
     Cardiac Hypertrophy       [Concept, Narrower]
          Cardiac Hypertrophy         [Term, Preferred]
          Heart Hypertrophy            [Term]

Приклад 2. Дескриптор складається з трьох концептів і п'яти термів.
Aspirin                         [Descriptor]
     Aspirin                             [Concept, Preferred]
          Aspirin                                  [Term, Preferred]
          Acetylsalicylic Acid               [Term]
          2-(Acetyloxy)benzoic Acid    [Term]
     Solprin                             [Concept, Narrower]
          Solprin                                 [Term, Preferred]
     Ecotrin                             [Concept, Narrower]
          Ecotrin                                 [Term, Preferred]

Приклад 3. Дескриптор складається з трьох концептів та шести термів.
https://www.nlm.nih.gov/cgi/mesh/2016/MB_cgi?mode=&term=Exercise
Exercise            [Descriptor]
   Exercise                    [Concept, Preferred]          ФИЗИЧЕСКАЯ НАГРУЗКА
        Exercise                      [Term, Preferred]        ФИЗИЧЕСКАЯ НАГРУЗКА
        Exercise, Physical        [Term]                        УПРАЖНЕНИЕ ФИЗИЧЕСКОЕ
   Exercise, Aerobic      [Concept, Narrower]         УПРАЖНЕНИЕ АЭРОБНОЕ
        Exercise, Aerobic         [Term, Preferred]       УПРАЖНЕНИЕ АЭРОБНОЕ
        Aerobic Exercise          [Term]                       АЭРОБНОЕ УПРАЖНЕНИЕ
   Exercise, Isometric     [Concept, Narrower]        УПРАЖНЕНИЕ ИЗОМЕТРИЧЕСКОЕ
        Exercise, Isometric       [Term, Preferred]       УПРАЖНЕНИЕ ИЗОМЕТРИЧЕСКОЕ
        Isometric Exercise        [Term]                       ИЗОМЕТРИЧЕСКОЕ УПРАЖНЕНИЕ

Усередині кожного концепту терми є синонімами між собою. Навпаки, терми різних концептів не є синонімами, а лише семантично пов'язані. По відношенню до дескриптору концепти цього запису є Entry Term, тобто термінами, що входять в поняття, але з певних причин їх не виділили в окремі дескриптори, нижчі за ієрархією у дереві MeSH.

Наприклад, у Прикладі 3: назва дескриптору – Exercise. Відповідна назва у росMeSH - Физическая нагрузка, синонім – Упражнение физическое
У поняття "Физическая нагрузка" включено поняття (входять в поняття) "Ізометричні вправи" та "Аеробні вправи".
Ізометричні вправи - силові вправи, при яких напруга м'язів досягається без руху.
Аеробні вправи - будь-який вид фізичного навантаження, коли необхідна наявність кисню протягом тривалого часу. Наприклад: біг, ходьба, їзда на велосипеді, активні ігри та ін.

***
Один концепт в дескрипторі визначається як  "Найкращий концепт" (Preferred Concept). Див. приклади.
Назва саме цього концепту буде включатись у бібліографічний запис.

***
Один з термів у концепті визначається як "Найкращий" (Preferred Term).

***
Дескриптори бувають 4х видів (про який йдеться визначає тег <DescriptorClass>):
1. Предметна рубрика
2. Тип публікації (https://www.nlm.nih.gov/mesh/pubtypes.html)
3. Обов'язковий дескриптор (https://www.nlm.nih.gov/bsd/indexing/training/CHK_010.html, можуть не мати коду дерева MeSH, наприклад, Male https://www.nlm.nih.gov/cgi/mesh/2016/MB_cgi?mode=&term=MALE)
4. Географічний дескриптор (розділ Z за кодом дерева MeSH)

Зазначу, що відповідно до MARC-формату для предметних рубрик використовується поле 650, для географічних – 651, типу публікацій – 655 (плюс є особливості, які інколи потребують використання інших полів).
Пояснення на сайті NLM - https://www.nlm.nih.gov/tsd/cataloging/MeSH_CatPractices.html
Докладніше тут - https://www.nlm.nih.gov/tsd/cataloging/subjclasspolicy.html
Чинна практика мед.бібліотек України – все в одне поле 996.

***
Кожен дескриптор, кожен концепт, кожен терм має свій унікальний ідентифікатор <DescriptorUI> (Descriptor Unique Identifier).
Це не нове положення, але у записах росМeSH DescriptorUI не було.
Наприклад, у дескриптора "Heart Diseases" (Сердца болезни) унікальний ідентифікатор D006331. Дескриптор "Heart Diseases" має Пов'язане поняття (Entry Term) – "Cardiac Diseases", унікальний ідентифікатор якого – T019183.

При утворенні посилань на дескриптор (наприклад, "див.також" <SeeRelatedDescriptor>, фармакологічна дія <PharmacologicalAction> ) завджи використовується пара - <DescriptorUI> та <DescriptorName>.

***
Для кожного дескриптора встановлено один або декілька кодів дерева (TreeNumber).
Через код дерева визначається місце дескриптора в ієрархії дерева MeSHу.
Це положення старе-старе. Просто нагадаю прикладом
Дескриптор – Eye = Глаз = Око
Має два коди дерева A01.456.505.420 та A09.371, які визначають місце терміна "Око" через ієрархії
1) "Тела анатомические области (A01)-> Голова (A01.456)-> Лицо (A01.456.505)-> Глаз (A01.456.505.420)"
2) "Органы чувств (А09) -> Глаз (A09.371)"

***
Тег <AllowableQualifier> використовується для формування списку припустимих кваліфікаторів.
Все як і раніше. Для кожного дескриптора (предметної рубрики) визначається (якщо потрібно) список припустимих підрубрик.

***
<EntryCombination> вказує заборонену пару рубрика/підрубрика та дає посилання на дозволену рубрику/підрубрику.
Тег <EntryCombination> містить комбінацію двох тегів <ECIN> та <ECOUT>.
<ECIN> позначає пару рубрика/підрубрика, використання якої заборонено.
<ECOUT> позначає рубрику або пару рубрика/підрубрика, які слід використовувати замість заборонених.
Наприклад, рубрика Abdomen (ЖИВОТ).
<EntryCombination>
    <ECIN>
       <DescriptorReferredTo>
         <DescriptorUI>D000005</DescriptorUI>
         <DescriptorName>
             <String>Abdomen</String>
         </DescriptorName>
       </DescriptorReferredTo>
       <QualifierReferredTo>
         <QualifierUI>Q000530</QualifierUI>
         <QualifierName>
             <String>radiography</String>
         </QualifierName>
       </QualifierReferredTo>
   </ECIN>
   <ECOUT>
       <DescriptorReferredTo>
         <DescriptorUI>D011860</DescriptorUI>
         <DescriptorName>
             <String>Radiography, Abdominal</String>
         </DescriptorName>
       </DescriptorReferredTo>
   </ECOUT>
</EntryCombination>
У прикладі вище: заборонено використання Abdomen/radiography. Замість Abdomen/radiography слід використовувати рубрику  Radiography, Abdominal (Рентгенография абдоминальная)

***
Існує 9 видів приміток (як довільний текст), які допомагають користувачам тезауруса MeSH або інформаційних продуктів, що використовують MeSH, швидше знайти інформацію, а бібліотекарям дають поради про застосування елементів MeSH:
1. Annotation
2. ScopeNote
3. ConsiderAlso
4. HistoryNote
5. OnlineNote
6. PreviousIndexing
7. PublicMeSHNote
8. CASN1Name
9. Note

***
<Annotation> - інформація для каталогізаторів та предметизаторів
<ScopeNote> -  визначення змісту дескриптора, що дає можливість зрозуміти область його застосування.
В Ірбісі це було поле #20 в обох випадках.
Наприклад. Декриптор "Hip" (ТАЗОБЕДРЕННОГО СУСТАВА ОБЛАСТЬ)

Annotation - do not confuse with HIP JOINT or PELVIC BONES (os coxae); aseptic or avascular necrosis = FEMUR HEAD NECROSIS; differentiate from HIP JOINT
не плутати з ТАЗОБЕДРЕННЫЙ СУСТАВ або ТАЗА КОСТИ (тазу кістки, лат.); асептичний або аваскулярний некроз = БЕДРА ГОЛОВКИ НЕКРОЗ; відрізняти від ТАЗОБЕДРЕННЫЙ СУСТАВ

Scope Note - The projecting part on each side of the body, formed by the side of the pelvis and the top portion of the femur.
Виступаюча область на кожній стороні тіла, утворена бічною частиною таза та верхньою частиною стегнової кістки.

Про якість Scope Note в росMeSH вже згадувалось тут http://eidea-lib.blogspot.com/2015/11/mesh-difference.html на прикладі Myocarditis (Миокардит).

***
<PreviousIndexing> у предметних рубриках – посилання на дескриптор або пару дескриптор/модифікатор, які використовувались раніше для індексації цього поняття. 
У дужках зазначається роки застосування такого варіанту індексації.
Наприклад, рубрика Intracranial Hemorrhage, Hypertensive (Внутричерепные кровоизлияния гипертензивные)
<PreviousIndexing>
Hypertension/complications (1972-1999)
</PreviousIndexing>
У 1972-1999рр індексували Гіпертензія/ускладнення

***
<ConsiderAlso> рекомендує інші терміни, які можуть бути пов'язані з дескриптором (не синоніми).
Наприклад, рубрика Vasomotor System (Вазомоторная система)
<ConsiderAlso>consider also terms at ANGI-, VASA-, VASC-, and VASO-
ANGI-,      ангіо- (від грец. άγγείον – судина):  ангіографія
VASА-, VASO-,  вазо- (лат. vas – судина): вазомоторний
VASC-,     васк-  (лат. vasculum — судина): васкуліт

***
<CASN1Name> містить систематичну назву речовини, відповідно до "Покажчика хімічних сполук" (Chemical Substance) та "Формульного покажчика" (Formula Index) РЖ "Chemical Abstracts".
Приклад: Calcimycin (Кальцимицин)
<CASN1Name>
4-Benzoxazolecarboxylic acid, 5-(methylamino)-2-((3,9,11-trimethyl-8-(1-methyl-2-oxo-2-(1H-pyrrol-2-yl)ethyl)-1,7-dioxaspiro(5.5)undec-2-yl)methyl)-, (6S-(6alpha(2S*,3S*),8beta(R*),9beta,11alpha))-
</CASN1Name>

***
<PharmacologicalAction> містить назву дескриптора, який відповідає фармакологічній дії.
Наприклад, для Calcimycin (Кальцимицин) це Anti-Bacterial Agents (Антибактериальные средства) та Calcium Ionophores (Кальция ионофоры)

***
<RegistryNumber> містить ідентифікатор UNique Ingredient Identifier (UNII)
Наприклад, Calcimycin - 37H9VM9WZL
Нагадаю, проект PubChem NLM підтримує три вільнодоступні бази даних - PubChem Substance, PubChem Compound, and PubChem BioAssay, пошук в яких можливий й за елементами MeSH https://pubchem.ncbi.nlm.nih.gov/classification/#hid=1.
Наприклад, сторінка Calcimycin в PubChem https://pubchem.ncbi.nlm.nih.gov/compound/11957499

********************************************************************************

Я розумію, що описала не всі елементи MeSH. Але не ставила це за мету.
Метою цієї публікації є демонстрація того, що росMeSH від ЦНМБ, який використовують в медичних бібліотеках України, не відповідає оригіналу. 
MeSH NLM містить значно більше інформації як для дослідників, так й для бібліотекарів. 

Створення укрMeSH є необхідністю для незалежності від росії; як можливість використання найкращих найсучасніших засобів для розвитку україномовних медичних бібліотечних інформаційних систем, до того ж безкоштовних; закладе підґрунтя для побудови систем автоматичного (полуавтоматичного) індексування медичної літератури (на кшталт MeSH on Demand). 


 
Все про MeSH українською © Нежурбіда Г.Г., 2016-2017 | Шаблон блогу Quo від Ciudad Blogger