Tekninen tausta
Eroottiset novellit ovat täydellinen kohde automaattiseen tekstin generointiin. Ne ovat kaavamaisia ja käsittelevät samaa aihetta. Alla on vertailu eri aineistojen välillä, mikä havainnollistaa tätä.
Tyyppi | Koko | Aiheet | Kaavamaisuus | |
---|---|---|---|---|
Wikipedia | Fakta | 📕📕📕📕📕📕📕 | Lukuisia eri aiheita. | Hyvin kaavamainen, mutta joka artikkelityypillä oma kaava (esim. henkilöartikkelit ja matematiikka-artikkelit noudattavat hyvin erilaisia kaavoja). |
Suomen laki | Fakta | 📕📕 | Monia eri aiheita. | Hyvin kaavamainen. |
Gutenberg-projekti | Fakta, fiktio | 📕📕📕📕📕 | Lukuisia eri aiheita. | Ei kovin kaavamainen, teokset hyvin erilaisia. |
Eroottiset novellit | Fiktio | 📕 | Vain yksi aihe. | Melko kaavamainen (ei niin kaavamainen kuin Wikipedia tai laki, mutta kaavamaisempi kuin Gutenbergin novellit). |
Minun tavoitteeni on tuottaa mahdollisimman hyvin ihmistä jäljittelevää tekstiä. Neuroverkko on tähän hyvä väline, mutta sen muisti on valitettavan huono. Jos lähdeaineistossa on useita eri tyylejä ja tekstilajeja, neuroverkko menee niistä sekaisin. Se unohtaa, mitä tekstiä on kirjoittamassa, ja saattaa vaihtaa aihetta kesken kaiken.
Onneksi eroottiset novellit käsittelevät kaikki samaa aihetta, joten aihetta ei voi vaihtaa! Lisäksi tarinat noudattavat kaikki jonkinlaista kaavaa. Siispä generaattorilla on hyvä mahdollisuus viedä tarina kunnialla loppuun noudattaen "eroottista draaman kaarta".
Wikipediaa ja Gutenberg-projektia voisi käyttää niin, että valikoi vain yhden aihepiirin tekstejä. Vaikka novellit ovat kaavamaisia, ne eivät kuitenkaan ole niin kaavamaisia kuin yksittäiset artikkelityypit Wikipediassa. Enemmistön Wikipedian artikkeleista muodostavat henkilöitä ja paikkoja käsittelevät artikkelit, jotka ovat lyhyitä ja sisältävät yleensä vain perustiedot hyvin lakonisesti. Tällaisia artikkeleita tekevä neuroverkko olisi hyvin tylsä. Yhdestä aiheesta ei myös välttämättä löydy tarpeeksi montaa artikkelia neuroverkon kouluttamiseksi. Sama ongelma on Gutenberg-projektissa.
Vielä eräs syy eroottisten novellien generointiin on se, että novellit eivät ole asiatyylisiä. Wikipedia ja Suomen laki ovat paitsi rakenteellisesti myös kielellisesti kaavamaisia: ne toistavat samoja lauseita pienillä variaatioilla jatkuvasti. Tämä vaikeuttaa neuroverkkoa, joka sekoittaa samankaltaiset lauseet keskenään tai jää silmukkaan luomaan samoja lauseita peräkkäin monta kertaa. Onneksi kaunokirjallisessa tekstissä yleensä vältetään toistoa toisin kuin asiatyylissä.
Jos haluaisi generoida ei-eroottista fiktiota, pitäisi löytää mielellään samaa aihetta käsittelevä hyvin iso novellikokoelma. Tarpeeksi isoa kokoelmaa ei kuitenkaan ole tietääkseni julkaistu, ja novellien hankkiminen useista eri lähteistä olisi haastavaa.
Vaikka eroottiset novellit ovat siis hyvä tekstityyppi, neuroverkon huonomuistisuus tulee silti esiin eri tavoilla:
- Hahmojen nimet, iät ja sukupuolet vaihtuvat kesken tarinan
- Uusia hahmoja ilmestyy tarinaan ilman esittelyä
- Hahmot riisuutuvat ensin alasti ja sitten heti alasti uudestaan
- Tarinan nimellä ei ole välillä mitään tekemistä sisällön kanssa