MTA Open Access

Az MTA Könyvtár és Információs Központban elérhető nyílt hozzáféréssel, online publikálással kapcsolatos szolgáltatások.

A magyar nyelv digitális támogatása

A Magyar Tudományos Akadémia által indított “Tudomány a Magyar Nyelvért Nemzeti Program”  keretében “A magyar nyelv digitális támogatása a tudományosság szolgálatában” alprogramjában a Nyelvtudományi Kutatóközpont az MTA Könyvtár és Információs Központ együttműködésével nyelvtechnológiai eszközöket fejleszt a REAL-ban található magyar nyelvű szövegek felhasználásával.

A REAL repozitórium, az Akadémiai Könyvtár digitális dokumentumgyűjteménye gyorsan gyarapszik. A repozitóriumban található tartalmak mennyisége mára elérte azt a szintet, hogy nem csupán az olvasói igényeket tudja egyes dokumentumokkal kiszolgálni, de az összegyűjtött szövegkorpusz mint egész is felhasználhatóvá vált, szövegbányászatra vagy nyelvtechnológiai eszközök pallérozására. A projekt keretében elkészülő eszközök segítségével a REAL szövegeinek és leíró adatainak javítását, tudománymetriai adatok kinyerését, az MTMT adatainak gazdagítását lehet majd elvégezni.

A REAL ma közel 215 ezer tételt tartalmaz, ezek közül ötezernyi kép, a többi szöveges dokumentum. A jelen projektben a digitális könyvtár modern (nem feltétlenül papírra) nyomtatott, magyar nyelvű szövegeinek – könyveknek, folyóirat füzeteknek, cikkeknek, disszertációknak – feldolgozása történik meg. A feldolgozásra alkalmas szövegek azonosítása is a program része: magyar nyelvű tudományos cikkekben is találhatóak idegen nyelvű összefoglalók, idézetek, és lehet, hogy ki kell zárni majd túlságosan technikai (pl. matematikai) szövegeket is, de nem is minden dokumentumról tartalmaz nyelvi információt az adatbázis.

A nyelv(ek) detektálása mellett reméljük, hogy a tudományos cikkek tudományterületi besorolását is megállapíthatjuk a nyelvtechnológiai eszközök segítségével. A dokumentumok – minél régebbiek, annál gyakrabban – papírról digitalizáltak, a szöveges rétegük optikai karakterfelismerő programok segítségével jött létre. Ezekben a szövegekben a program karaktertévesztéseinek javítását kívánjuk elvégezni.

Míg a nagy adatbázisokban indexelt nemzetközi folyóiratok hivatkozási hálózatáról rendelkezésre állnak adatok, a magyar nyelvű, hazai tudományos lapok hivatkozásainak gyűjteménye hiányos az MTMT-ben. A REAL-ban tárolt szövegkorpusz hivatkozások kinyerésére is alkalmas. De nem csupán cikkekre való hivatkozásokat, de pályázati azonosítókat és a kutatáshoz használt infrastruktúrák azonosítását is megkísérli a projekt. A köszönetnyilvánításokban található ilyen jellegű információkat másutt is szövegbányászati módszerekkel gyűjtik össze.

A projekt befejeztével mind a REAL használati értéke magasabb lesz majd, mind az MTMT is gazdagabb lesz majd számos hivatkozással, elsősorban a bölcsészet- és társadalomtudományok területén.

 

A projektről szóló publikációk:

  • Holl, A., Prószéky, G., Váradi, T., Laki, L. Repozitóriumi gyűjtemény mint adatkorpusz, Tudományos és Műszaki Tájékoztatás, 70(2), p. 164–167, 2023. https://doi.org/10.3311/tmt.13239

 

Információk a REAL-ról:

2008-ban állította fel a REAL repozitóriumot az MTA Könyvtár és Információs Központ, az OTKA kezdeményezésére. Jelenleg nyolc gyűjteménye van: a REAL a kutatók által feltöltött publikációkat, dokumentációkat, a REAL-J hazai kiadású folyóiratokat, a REAL-EOD könyveket (és könyvfejezeteket), a REAL-D akadémiai doktori és régebbi kandidátusi disszertációkat, a REAL-PhD pedig saját repozitóriumi elhelyezési lehetőséget nem használó doktori iskolákban megvédett PhD dolgozatokat tartalmaz. A jelen projektben nem szereplő REAL-MS kéziratokat, a REAL-R régi könyveket tartalmaz. Egyedül a REAL-I nem szöveges dokumentumgyűjtemény – ez a kollekció képeket tartalmaz.

A repozitórium tételeinek túlnyomó része szabadon letölthető, méretkorlátozás nélkül, és a jelenleg zárolt tételek többsége is olvashatóvá válik egy embargó időszak letelte után. Szüreteli a REAL gyűjteményeit a Bielefeld Academic Search Engine (BASE) és a DART-Europe E-theses Portal, más aggregátorok mellett. A többi hazai minősített repozitóriummal együtt kereshetőek a REAL-ban őrzött tartalmak a SZTAKI és az MTA KIK repozitóriumi közös keresőjében, a TuDoKK-ban. Bizonyára a nyitottságnak, a tudományos kommunikációs hálózatokkal való kapcsolatnak, és a gazdag tartalomnak köszönhető, hogy nemzetközi rangsorokban a REAL gyűjteményei szerepelnek a legelőkelőbb helyen a hazai repozitóriumok közül. Egyre több magyar tudományos kiadó archiválja tartalmait a REAL gyűjteményeiben – mint az Akadémiai Kiadó és a l’Harmattan. A repozitóriumból havonta közel fél millió dokumentumot töltenek le.