Íslenskir rithöfundar, sem hafa veitt stofnun Árna Magnússonar heimild til að innlima bækur sínar og aðra texta í svonefnda „risamálheild“, safn orða og setninga sem ætlað er til rannsóknarstarfa, reynast nú þar með, í krafti samstarfs íslenska fyrirtækisins Miðeindar við gervigreindarfyrirtækið OpenAI, hafa gefið því síðarnefnda heimild til hagnýtingar á umræddum textum. Sá er að minnsta kosti skilningur fyrirtækjanna.
Málið er ekki einsdæmi, hliðstæður koma nú upp víða um heim, þegar þróun gervigreindar reynist hafa reitt sig á endurgjaldslausan aðgang að ritmáli, myndefni og fleiri menningarfurðum. Mikil hagnaðarvon er bundin umræddum gervigreindarbúnaði, svo ekki sé minnst á aðrar afleiðingar.
Kynnt sem tæki til að bjarga íslensku frá stafrænum dauða
Sigríður Hagalín Björnsdóttir, rithöfundur og fréttamaður, tók saman minnisblað til stjórnar Rithöfundasambands Íslands (RSÍ) sem hún birti félögum sambandsins í dag, þriðjudag. Þar rekur hún forsögu stöðunnar sem komin er upp. Þann 14. janúar 2008 tók stjórn RSÍ fyrir erindi stofnunar Árna Magnnússonar í íslenskum fræðum (Árnastofnunar) þar sem óskað var eftir viðhorfi stjórnarinnar til verkefnisins Íslensk málheild. Stjórnin tók erindinu vel, með ákveðnum fyrirvörum
Tíu árum síðar var þessu erindi fylgt eftir með kynningu nýs gagnagrunns, Risamálheildar. Hún var kynnt fyrir félagsmönnum RSÍ í maí 2018. Tveimur árum eftir það sendi RSÍ félögum erindi frá Árnastofnun þar sem óskað var eftir leyfi til að höfundarverk þeirra yrðu notuð í Risamálheildina. „Hún var kynnt höfundum,“ skrifar Sigríður, „sem safn fjölbreyttra texta úr ýmsum áttum, prentuðum blöðum, tímaritum og vefmiðlum en einnig væru þar dómar, lagasafnið, Alþingisræður, efni af Vísindavefnum og Wikipediu, og ýmislegt fleira.“
Þá segir að í samráði við RSÍ hafi verkið verið unnið „út frá ætluðu samþykki höfunda“. Það er að segja, ef höfundur hafnaði þátttöku ekki sérstaklega var gert ráð fyrir samþykki hans við að útgefnir textar hans yrði innlimaðir í Risamálheildina.
Ætla má að þeir höfundar sem ekki gerðu athugasemdir við þetta fyrirkomulag hafi gert ráð fyrir að þeir væru fyrst og fremst að leggja akademísku rannsóknarstarfi lið, og jafnvel rannsóknarstarfi sem nauðsynlegt væri til að viðhalda íslenskri tungu, en samkvæmt Sigríði var Risamálheildin kynnt fyrir þeim „sem tæki til að bjarga íslenskunni frá stafrænum dauða.“ Hún bætir við að fæstir hafi þó gert sér í hugarlund „að textar þeirra yrðu notaðir til að þróa gervigreindarforrit á borð við ChatGPT.“ Það hafi þó orðið raunin.
Frá Árnastofnun til Miðeindar til OpenAI
Fyrirtækið Miðeind, í eigu Vilhjálms Þorsteinssonar, styðst við Risamálheildina í sínu þróunarstarfi. Sigríður hefur það eftir Vilhjálmi að aðgangur að þeim gagnagrunni sé þáttur í samstarfi fyrirtækisins við OpenAI, þar á meðal að bókmenntatextum þeirra höfunda sem ekki neituðu sérstaklega að taka þátt í söfnuninni.
Vilhjálmur leggur að sögn Sigríðar áherslu á að Risamálheildin sé þannig gerð að ekki sé hægt að nota hana til að setja höfundarverkin saman aftur og ræna þeim „heldur aðeins sækja upplýsingar um orðaröð, setningafræði, orðaforða og slíkt.“ Á alþjóðavettvangi snúast áhyggjur höfunda og höfundarréttarhafa, bæði ritmáls, myndverka og annarra hugverka, um þessar mundir þó ekki um birtingar á einföldum afritum verka þeirra, heldur snúast þær einkum um tvennt: Annars vegar mögulegan nytjastuld, að höfundarverk séu hagnýtt til þróunar á gervigreind án opinskás leyfis fyrir þeirri hagnýtingu; hins vegar að á þeim grunni séu eða verði þróaðar gervigreindarlausnir sem ef til vill geta ekki reitt fram hreint afrit af umræddum hugverkum, en er ætlað að semja ný á grunni þeirra og leysa höfunda, að minnsta kosti að einhverju leyti, af hólmi, eða hagræða þeim til hliðar. Þó að þær frumstæðari gerðir gervigreindar sem nú eru til staðar reiði ekki fram sannfærandi bókmenntaverk, einar sér, þá ber þegar á þessari viðleitni í þýðingastarfi hérlendis, eins og spurðist á dögunum.
Í samantekt Sigríðar kemur fram að Vilhjálmi Þorsteinssyni þyki ósennilegt að OpenAI hafi stuðst við Risamálheildina til þessa, í ljósi þess hve takmörkuð íslenskugeta ChatGPT sé enn sem komið er. Þá kemur einnig fram að rithöfundum býðst að afturkalla leyfi sitt fyrir nýtingu verka þeirra, sem verða þá dregin úr Risamálheildinni.
Fyrirvari um hagsmunatengsl: blaðamaður er félagi í Rithöfundasambandi Íslands.