Linux: Helyesírás-ellenőrző programok versenye

Szeretettel köszöntelek a Linux klub közösségi oldalán!

Csatlakozz te is közösségünkhöz és máris hozzáférhetsz és hozzászólhatsz a tartalmakhoz, beszélgethetsz a többiekkel, feltölthetsz, fórumozhatsz, hírt küldhetsz be, stb.

Ezt találod a közösségünkben:

  • Tagok - 319 fő
  • Képek - 130 db
  • Videók - 66 db
  • Blogbejegyzések - 306 db
  • Fórumtémák - 46 db
  • Linkek - 256 db

Üdvözlettel,
M Imre
Linux klub vezetője

Amennyiben már tag vagy a Networkön, lépj be itt:

Szeretettel köszöntelek a Linux klub közösségi oldalán!

Csatlakozz te is közösségünkhöz és máris hozzáférhetsz és hozzászólhatsz a tartalmakhoz, beszélgethetsz a többiekkel, feltölthetsz, fórumozhatsz, hírt küldhetsz be, stb.

Ezt találod a közösségünkben:

  • Tagok - 319 fő
  • Képek - 130 db
  • Videók - 66 db
  • Blogbejegyzések - 306 db
  • Fórumtémák - 46 db
  • Linkek - 256 db

Üdvözlettel,
M Imre
Linux klub vezetője

Amennyiben már tag vagy a Networkön, lépj be itt:

Szeretettel köszöntelek a Linux klub közösségi oldalán!

Csatlakozz te is közösségünkhöz és máris hozzáférhetsz és hozzászólhatsz a tartalmakhoz, beszélgethetsz a többiekkel, feltölthetsz, fórumozhatsz, hírt küldhetsz be, stb.

Ezt találod a közösségünkben:

  • Tagok - 319 fő
  • Képek - 130 db
  • Videók - 66 db
  • Blogbejegyzések - 306 db
  • Fórumtémák - 46 db
  • Linkek - 256 db

Üdvözlettel,
M Imre
Linux klub vezetője

Amennyiben már tag vagy a Networkön, lépj be itt:

Szeretettel köszöntelek a Linux klub közösségi oldalán!

Csatlakozz te is közösségünkhöz és máris hozzáférhetsz és hozzászólhatsz a tartalmakhoz, beszélgethetsz a többiekkel, feltölthetsz, fórumozhatsz, hírt küldhetsz be, stb.

Ezt találod a közösségünkben:

  • Tagok - 319 fő
  • Képek - 130 db
  • Videók - 66 db
  • Blogbejegyzések - 306 db
  • Fórumtémák - 46 db
  • Linkek - 256 db

Üdvözlettel,
M Imre
Linux klub vezetője

Amennyiben már tag vagy a Networkön, lépj be itt:

Kis türelmet...

Bejelentkezés

 

Add meg az e-mail címed, amellyel regisztráltál. Erre a címre megírjuk, hogy hogyan tudsz új jelszót megadni. Ha nem tudod, hogy melyik címedről regisztráltál, írj nekünk: ugyfelszolgalat@network.hu

 

A jelszavadat elküldtük a megadott email címre.

network.hu

 

Ön mikor fogott utoljára tollat a kezében? Digitalizált világunkban kétségtelenül jóval többet írunk számítógépes szövegszerkesztővel, mint papírra. Ezek a programok nem csak abban segítenek nekünk, hogy szép kinézetű szövegeket hozzunk létre, hanem az igényes megfogalmazásban is támogatnak. Egy rövid „helyesírási versennyel” megvizsgáltuk, hogyan.

 

Mit várhatunk el?

 

Mielőtt eredményt hirdetnénk (és ítéletet mondanánk), nem árt végiggondolni, mire lehet képes egy gépi helyesírás-ellenőrző, illetve hogy mire szeretnénk valójában használni. Az biztos, hogy a számítógépnek nem lehet úgy megtanítani a helyesírási szabályzatot, ahogy azt egy ember ismeri és használja, hiszen mit kezdhetne például a kiejtésre vagy a jelentésváltozásra vonatkozó szabályokkal? Számára a begépelt szó nem jelent többet egy számsornál, és sosem hallotta azt kiejtve. Az elütéseket és az egyszerű hibákat a szótár alapján szűrik a rendszerek, és matematikai módszerrel keresnek a leírt alakhoz közeli, a szótárban megtalálható javaslatot. A szó szintjén nem felismerhető hibákat viszont, mint például az egyeztetés vagy az összetett szavak helyesírása, nagyon nehéz gépi eszközökkel kezelni. Ilyen esetekben már a nyelvi elemző erősségén múlik a hibajavítás sikeressége.

network.hu

 

A csuklós + busz + vezető bemenet kétféle javaslatának elemzései

a helyesiras.mta.hu által (Miháltz–Ludányi 2013)

 

A verseny

 

A versenyben két szövegszerkesztő, egy internetes helyesírási szótár és egy helyesírási tanácsadó portál vett részt. A népszerű Microsoft Word helyesírás-ellenőrzőjének alapja a Morphologic által fejlesztett Helyesek elnevezésű programcsomag. Vetélytársa a Google Chrome, Firefox és a Libre Office által is használt Hunspell nevű szabad szoftver. Emellett versenyeztettük még az MTA nemrég készült weboldalát (amit mi is bemutattunk), a helyesiras.mta.hu-t és a legnagyobb magyarországi helyesírási adatbázist, a magyarhelyesiras.hu-t, bár ez utóbbi nincs egészen azonos súlycsoportban a többiekkel, hiszen csak szótár, nincs elemzőrendszere.

 

A teszt négy feladattípusból állt, ebből három – mind embernek, mind gépnek – kifejezetten nehéznek mondható. Az ellenőrzőknek dönteniük kellett összetett szavak kötőjeles vagy egybeírásáról, javítaniuk kellett földrajzi neveket és azok -i-képzős alakjait, alkalmazniuk kellett toldalékolási és mássalhangzó-egyszerűsítési szabályokat, illetve hosszú és rövid magánhangzók között kellett választaniuk. A felismert és javított szavakért 1 pontot kaptak a versenyzők, ha jót javítottak rosszra -1-et, ha nem volt reakció 0-t, ha pedig felismerték, hogy az alak hibás, de nem adtak rá javaslatot, akkor fél pontot.

 

Az összetett szavak

 

Az összetett szavak gépi ellenőrzésénél leginkább az okoz gondot, hogy a rendszer nem tudja eldönteni, hány szóval van dolga. Ha az összetett szavakat egybe írjuk, javíthatjuk a program esélyeit. További probléma ennél a feladatnál, hogy az összetételek tagjai közötti viszony elemzése nagyon nehéz egy jelentést nem ismerő gép számára. Ezek után nem nagy meglepetés, hogy a teszt első részével mindkét szövegszerkesztőnek meggyűlt a baja.

 

A Hunspell minden harmadik szót talált meg a szótárában, de az ismeretlen szavakat nem tudta kezelni.

 

A Word ezen a feladaton negatív eredményt ért el, azaz ebben a kérdésben, úgy tűnik, többet árt, mint használ.

 

A magyarhelyesiras.hu összetettszó-adatbázisa nagyobbnak és hatékonyabbnak bizonyult a Hunspellénél: 64%-ban kiadta a helyes alakokat.

 

Az MTA portálja külön modult szán az egybe- vagy különírás kérdésének, és ezen a kidolgozott elemzőrendszeren nem lehetett kifogni. A teszt mindegyik szavát hibátlanul javította, sőt, részletes magyarázatokkal is ellátta a felhasználót.

network.hu

 

A földrajzi nevek


A földrajzi nevek helyesírására vonatkozó rész még kevésbé volt sikeres. Ha a vonatkozó szabályokra gondolunk, kiderül, hogy a helyesíráshoz sok esetben világismeretre is szükség van. Ám egy gépi ellenőrzőnek már az sem triviális feladat, hogy rájöjjön, hogy a szó egy földrajzi név, arról már nem is beszélve, hogy természet- vagy emberalkotta-e, vagy hogy mi az alaptag: köznév, tulajdonnév vagy -i képzős alak. A szövegszerkesztők a különírt vagy kötőjeles, illetve a kis- és nagybetűs verziók között alig tudtak különbséget tenni.

 

A Hunspell a megadott 17 földrajzi névből csupán egyet javított jóra és kettőt ismert fel hibásként, de nem kaptunk javaslatot a javításra. A többinél semmilyen szabálytalanságot nem jelzett.

 

Hasonló eredményt kaptunk a Word ellenőrzőjével is, amely bár két hibás alakot felismert és javított, de egy jót is kijavított rosszra (Maros-Körös köze).

 

magyarhelyesiras.hu ebben a körben jól teljesített, a beírt nevek felét ismerte.

 

Az MTA névkereső modulja pedig 59%-ban adott jó választ.

network.hu

 

Toldalékolás és mássalhangzó-egyszerűsítés


A nevek toldalékolása és a mássalhangzó-egyszerűsítés kérdése sem bizonyult könnyű feladatnak. Ehhez sokszor a kiejtés ismeretére van szükség, ami szintén nehezen várható el egy számítógéptől.

 

A Word alig ismerte fel a hibákat, de néha a helyesen leírt szavakat sem tudta értelmezni, ezen a részen is szerzett mínuszpontot. Az összteljesítménye 9%.

 

A Hunspell ennél jóval ügyesebb volt, 59%-ban jó javaslatokat adott.

 

A magyarhelyesiras.hu láthatóan alig tudja kezelni a toldalékolt alakokat, ami nem meglepő, hiszen nem rendelkezik morfológiai elemzővel, mint vetélytársai. Adatbázisban viszont viszonylag erős, a keresett szavak harmadát megtalálta, igaz, nem mindet elsőre. A szótár általános hátránya, hogy nehezen kereshető. Ha nem tudjuk, hogy kell leírni, amire kíváncsiak vagyunk, nem biztos, hogy kapunk találatot.

 

A helyesiras.mta.hu ebben a blokkban is győzött, 5%-kal volt eredményesebb a Hunspellnél.

network.hu

 

A hosszú és rövid magánhangzók


A hosszú és rövid magánhangzós szavak felismerését mindegyik ellenőrző jól végezte, csupán 2-3 hibát vétettek el, ezenkívül minden esetben a jó alakot javasolták.

 

A Hunspell és a Word becsületét ez a feladat mentette meg, ebben mindkettő csak két szónál hibázott (a megszüntet és az anaforikus szavaknál).

 

Az internetes helyesírási szótár a 24 keresett szóból hármat nem ismert (anonim, úti és anaforikus).

 

Az MTA ellenőrzőjén pedig csak az anaforikus szó fogott ki.

network.hu

 

A végeredmény


Az összesítésben jól láthatjuk, hogyan végeztek versenyünkben a helyesírás ellenőrzők. Az MTA portáljának győzelme talán nem véletlen, hiszen mind a Hunspellt, mind pedig a Morphologic által fejlesztett eszközöket (HuMor, Helyes-e?) is használja az eredmények kiadásakor.

 

A pontos működésről ide kattintva lehet olvasni.

network.hu

 

A verseny a teljesség igénye nélkül készült, és inkább játék, mint reprezentatív teszt, de a legfontosabb tanulság így is jól látható: egyik rendszer sem gondolkodik helyettünk (eleget). Bár az egyszerű és tipikus hibákat mindegyik program jól kezelte, a bonyolultabb problémákat már nem bízhatjuk egészen a gépre. A piros aláhúzás jelzés: nézzük meg még egyszer, mit írtunk, gondoljuk át, helyes-e így, és ha kell, nézzünk utána.

 

Üssük fel például A magyar helyesírás szabályait.

 

Dömötör Andrea

 

Forrás:

 

Miháltz Márton – Ludányi Zsófia (2013): helyesírás.mta.hu: automatizált helyesírási tanácsadás nyelvtechnológiai módszerekkel. Magyar Tudomány Ünnepe 2013. Budapest, 2013. november 11. (Prezentáció, kézirat.)

 

_____

 

Használtautó-kereskedés, macskatápszer, papagájkiállítás, nyersselyem ing: külön-, egybe- vagy kötőjellel írjuk ezeket a szavakat? Látszólag nagyon hasonló szerkezetűek, de ki érti, hogy miért írjuk őket különféleképpen? Hogy is volt az a bizonyos „hat szótagos szabály”?

 

Kisebb-nagyobb kutatómunkával utánanézhetünk mindennek a helyesírási szabályzatban… A tapasztalat azonban azt mutatja, hogy ezt többnyire vagy nem tesszük meg, vagy nem kapunk könnyen és gyorsan érthető útmutatást a szabályzattól. Ezért készítette el a Magyar Tudományos Akadémia Nyelvtudományi Intézete a helyesiras.mta.hu helyesírási tanácsadó portált, ahol a fentiekhez hasonló kérdésekre diákok és felnőttek, a helyesírásban és nyelvtani szakkifejezésekben jártasabbak és kevésbé jártasak egyaránt gyors segítséget kapnak. A portál célja, hogy hasznos és hatékony segédeszköze legyen mindazoknak, akik helyesen szeretnének írni – az érvényben lévő akadémiai szabályzat, A magyar helyesírás szabályai 11. kiadása alapján.

 

Hogyan használjuk?

 

A helyesiras.mta.hu alkalmazásait használva könnyen és gyorsan jó választ kaphatunk helyesírási kérdéseinkre. Ehhez csupán azt kell tudnunk, hogy kérdésünket melyik alkalmazásba írjuk be. Az alábbiakban az ehhez szükséges legfontosabb tudnivalókat tekintjük át.

 

Mit nyújt a rendszer?

 

A helyesiras.mta.hu könnyen kezelhető alkalmazásainak segítségével megkaphatjuk egy-egy szó vagy kifejezés lehetséges helyesen írt alakjait. Sokszor előfordul ugyanis, hogy nem egyetlen helyesen leírt alak van: az írásmód ilyenkor attól függ, hogy mit akarunk kifejezni, milyen jelentésben akarjuk használni az adott szót vagy kifejezést. Megtudhatjuk például, hogy a sárga barack és a sárgabarack alakok egyaránt helyesek lehetnek, de mást jelentenek. Különírva egy sárga bélű őszibarackról van szó, egybeírva pedig a sárgabarack nevű gyümölcsfajtáról. Így tehát nem minden sárga barack sárgabarack! Ugyanígy mást jelent az indiai kender (Cannabis sativa var. indica) és indiaikender (Xerophyllum): börtönbüntetés csak az első termesztéséért jár!

 

A helyesiras.mta.hu-n a megfelelő alkalmazás használatával nemcsak azt tudhatjuk meg, hogy mind a sárga barack, mind pedig a sárgabarack alakok helyesek, hanem azt is, hogy melyik mit jelent, és hogy az érvényben lévő akadémiai szabályzat milyen magyarázatokat fűz ezekhez a jelenségekhez. Így a helyesiras.mta.hu nem csupán egy gép, amely kiköpi nekünk a jó megoldást, hanem a tanulást is segíti, hiszen ha egyszer megértettük, hogy mi ez a szabály, a következő esetben – Mi a különbség a magyar tanár és a magyartanár között? – már önállóan fogjuk tudni alkalmazni.

 

Az alábbiakban az alkalmazások hatékony használatához szükséges legfontosabb tudnivalókat tekintjük át.

 

Mit nem tud a rendszer?

 

Először is azt fontos tudni, hogy mi az, amire képes, és mi az, amire nem képes a helyesiras.mta.hu. A portál alkalmazásai úgy működnek, hogy a magyar helyesírás szabályainak szabálypontjait nyelvtechnológiai eszközökkel dolgozzák fel, és ezeknek alapján tesznek javaslatot a helyes írásmódra. Az egyes alkalmazások tehát „nem gondolkodnak” – emberi segítség nélkül, automatikusan dolgozzák fel a felhasználók által beírt szavakat, kifejezéseket, és automatikusan adják meg a szabályzat szerinti helyes alakokat, valamint az egyes helyesírási kérdésekkel kapcsolatos szabálypontokat.

 

Így mint minden számítógépes alkalmazásnak, a helyesiras.mta.hu-n található alkalmazásoknak is megvannak a maguk korlátai. Nélkülözik a – nyelvtechnológiai eszközökkel nem reprodukálható – jelentésre vagy nyelvtani szerkezetre vonatkozó emberi intuíciót, amelyre egyébként a helyesírási szabályzat oly sokszor maga is támaszkodik. A nyelvtechnológiai eszközökkel is nehezen kezelhető részek közé elsősorban az összetett szavak helyesírása tartozik.

 

Abban az esetben, ha bizonytalan a rendszer által felajánlott szóalak helyességében, kérjük, forduljon e-mailben tanácsadó szolgálatunkhoz.

 

Hangsúlyozzuk, hogy a portál elsősorban a köznyelvi helyesírás kérdéseivel foglalkozik. Szaknyelvi helyesírási kérdések esetén előfordulhat – azok specifikussága miatt –, hogy a rendszer nem ad (megfelelő) választ. Különösen igaz a bonyolult helyesírási szabályrendszerrel bíró szaknyelvekre (pl. kémiai vagy orvosi szaknyelv). Ha ilyen kérdése van, kérjük, lapozza fel az adott szaknyelv helyesírási szabályzatát/szótárát, vagy forduljon bizalommal közönségszolgálatunkhoz!

 

Mik a helyesiras.mta.hu oldal előnyei?

 

Korlátai mellett mégis egyedülálló a mai magyar piacon a helyesiras.mta.hu. Az oldal alkalmazásainak működéséhez használt helyesírást feldolgozó elemzők a modern nyelvtechnológia legújabb eredményein alapulnak. Az alkalmazások pontos működésének alapjául szolgáló szótárak nagysága és száma is egyedivé teszi a portál helyesírási szolgáltatását. Így ma dinamikusan működő helyesírás-ellenőrzőt keresve a helyesiras.mta.hu-nál jobbat és pontosabbat nem találhat a felhasználó.

 

Ha helyesírási kérdésünk van, nagyon gyakran hajlamosak vagyunk „megguglizni” a kérdéses szót: ha van rá jó sok találat, nyilván úgy kell írni, ha csak kevés van, akkor nyilván másképp kell. Persze az igencsak nagy kérdés, hogy mennyi az a „jó sok”, mennyi az „elegendő találat”. Ha tényleg helyesen akarunk írni, ez a lehető legrosszabb stratégia, hiszen az interneten nem csak helyesen írt szövegek vannak: nagyon nagy mennyiségű találatot fogunk kapni a helytelen alakokra is. A Google-ben a muszály szóalakra több mint félmillió találatot kapunk. Ez már elég soknak tűnik! Azonban a muszáj alakra – ami a helyesen írt verzió – 3,5 milliót… A gyüjtemény szóalakra (ami helytelen, hiszen szabályosan gyűjtemény) 410 ezer találatot kapunk, és az elsők között néhány egyetemi honlapot… Ezek az eredmények tehát alapvetően nem a szavak helyes írásmódjáról, hanem a nyelvhasználók írásszokásáról árulkodnak.

 

Az is elképzelhető, hogy egy szövegszerkesztő helyesírás-ellenőrző alkalmazására hagyatkozunk. Így a muszáj-t biztosan helyesen fogjuk leírni, de a fenti, összetett szavas példák esetében bajba kerülünk majd, és megint ott állunk, ahol a part szakad, hiszen ezek a szoftverek különírva mindent helyesnek fogadnak el (ugyanis a szavak külön-külön benne vannak a szótárukban), egybeírva azonban sok helyes alakot is aláhúznak pirossal, mert az alkalmi összetételek meg szinte biztosan nem szerepelnek a szótárukban.

 

Ha épp kéznél van, és van hozzá türelmünk, fellapozhatjuk a helyesírási szótárat is. Ennek az előnye, hogy biztosan a „hivatalos megoldást” tartalmazza. Hátránya azonban, hogy nincs benne minden: a fent idézett egyedi összetételekhez hasonlóakat szinte biztos, hogy nem fogunk megtalálni a szótárban. Most arról az esetről nem is beszélve, hogy a szótár nincs mindig kéznél…

 

Végső mentsvárunk A magyar helyesírás szabályai lehet, amelyben a megfelelő szabályra rábukkanva és azt alkalmazva az általunk leírni kívánt szóra, helyesen is írhatunk. Aki már valaha eljutott eddig a pontig, biztosan tapasztalta, hogy ez sem könnyű, és sokszor egyáltalán nem gyorsan elvégezhető feladat. Ahhoz, hogy a szabályzatban a tartalomjegyzék vagy a mutató szerint tájékozódni tudjunk, szaktudásra van szükség: ismernünk kell a szabályzat által használt nyelvtani szakterminológiát! És akkor itt kezdheti el fellapozni az átlagos nyelvtani tudással rendelkező magyar lakos az iskolai nyelvtankönyveit… Világos, hogy mindez nem megoldás!

 

A helyesiras.mta.hu egyesíti a fenti módszerek előnyeit – kiküszöbölve azok hibáit, gyengeségeit. A helyesiras.mta.hu-n megbízható szótárat, szabályzatot és magyarázatokat is talál a felhasználó, és mindezt pillanatok alatt, néhány kattintással elérheti. A megfelelő alkalmazásba gépelve a kérdéses helyesírású szót vagy kifejezést, egyrészt megkapjuk a javasolt helyes alakot vagy alakokat (ha több is lehetséges).

 

Másrészt a helyes verziókhoz kapcsolódóan elolvashatjuk a helyesírási szabályzat vonatkozó szabálypontjait is, amelynek az alkalmazásával megkaptuk a helyes megoldást. A szabályzattal szemben azonban a helyesiras.mta.hu-n nem kell bonyolult, nyelvtani szakkifejezésekkel terhelt szakszöveget feldolgoznia a magyarázatok iránt fogékony felhasználónak. A szabályzat szövegét ugyanis a portálon értelmezve, a nyelvtani szakkifejezések magyarázatával együtt közöljük. A szabályok tehát könnyebben érthetőek, megjegyezhetőek, és a nyelvtani szakkifejezésekben kevésbé jártas felhasználó is könnyen megérti majd a magyarázatokat. Sőt a megértett szabályokat könnyebb is megjegyezni. Tehát a portál akár a helyesírás önálló tanulásához is segítséget nyújthat!

 

Külön vagy egybe?

 

Hogyan működik az eszköz?

 

A külön- és az egybeírás a magyar helyesírás talán egyik legnehezebb fejezete. Rengeteg bizonytalanság övezi, ugyanis az összetett szavak alkotása igen elterjedt szóalkotási módszer, és az összetételek írásszabályai nem minden esetben egyértelműek.

 

A helyesiras.mta.hu-n működő alkalmazásba a felhasználó két vagy több, szóközzel elválasztott szót írhat be, a program a beírt szavakat különböző nyelvi szinteken elemzi, és az elemzései alapján javaslatot tesz a helyes írásmódra. Tegyük fel, hogy az alkalmazásba a szép lány jelzős szerkezetet gépeljük. Ezt a szerkezetet az elemző program (az úgynevezett morfológiai elemző) különféle alaktani (például szófaj, szótagszám stb.) és jelentéstani információkkal látja el.

 

Az elemzés után a szép-ről kiderül, hogy melléknév, hogy egy szótagú stb.; a lány-ról kiderül, hogy főnév, és hogy szintén egy szótagú stb. Azt is megtudjuk, hogy a szerkezet jelentése 'a melléknévben megjelölt tulajdonsággal rendelkező a főnév által megjelölt dolog vagy személy'. Ezeket az információkat használja fel a nyelvtani szerkezetet elemző alkalmazás (az úgynevezett parser).

 

A nyelvtani elemző a nyelvtechnológusok által formalizált helyesírási szabályokat próbálja alkalmazni a kérdező által beírt szavakra. A nyelvtani elemző elemzési szerkezeteket épít a megadott szavakból. A fenti példában tehát jelzős szerkezetként fogja elemezni a beírt szép lány-t. Az elemző balról jobbra (vagy jobbról balra) elindulva vonja össze a szavakat - szószerkezetekké vagy összetételekké a szabályokban megadott elválasztó jeleket (szóköz, kötőjel, nagykötőjel, illetve az egybeírást jelző szimbólum) alkalmazva. Így kapjuk meg végül az eredményt: a szép lány különírandó, hiszen jelzős szószerkezet.

 

Az esetek nagy részében nem csupán a helyes szóalakot kapjuk meg, hanem részletes magyarázatot, valamint hivatkozásokat az akadémiai helyesírási szabályzat, illetve az Osiris-féle Helyesírás releváns szabályaira. Az AkH. után következő hiperhivatkozás (szám) szabálypontot jelöl, míg az OH. utáni szám oldalszámot jelent (pl. AkH. 139b a 139. b) pontot jelöli).

 

A külön- és egybeírási szabályok közül melyeket ismeri az alkalmazás? Milyen helyesírási területeken kapok biztosan választ?

 

A magyar helyesírásnak sok olyan szabálya létezik, amelyeket formálisan is meg tudunk fogalmazni, így automatikusan is végrehajthatók. Az ilyen szabályokat ismeri a helyesiras.mta.hu különírás-egybeírás alkalmazása:

 

- morfológiai típusú összetételek szabályai (például: földalatti, időközben);

 

- morfológiai típusú szószerkezetek szabályai (például: föld alatt, [az eltelt] idő közben);

 

- jelölt és jelöletlen alárendelő összetételek szabályai (alanyos összetétel – napsütötte, tárgyas összetétel – fűnyíró, határozós összetétel – partraszállás, jelzős összetétel – szabadesés és a leggyakoribb jelentéssűrítő összetételek – látványpékség);

 

- folyamatos melléknévi igenévi jelzős összetételek szabályai (például: bukóablak, úszósapka);

 

- főnévi jelzős szerkezetek szabályai (például: olvasó ember);

 

- anyagnevekre vonatkozó szabályok (például: vasgolyó);

 

- színnevekre vonatkozó szabályok (például: zöldeskék, világoskék);

 

- gyűjtőneves szerkezetekre vonatkozó szabályok (például: Illés-együttes, Kölcsey-olvasókör);

 

- a szótagszámlálási szabálya (az úgynevezett 6:3-as szabály) pontosan három tagból álló összetételekre: vitaminhiány-betegség);

 

- mozgószabályok (például: idegennyelv-tanítás);

 

- a leggyakoribb rövidítéseket, betűszókat tartalmazó összetételekre vonatkozó szabályok (például: DNS-vizsgálat, DNS-vizsgálat-kérés, évf.-dolgozat 'évfolyamdolgozat');

 

- a leggyakoribb ikerszókat, álikerszókat (icipici, idres-fodros).

 

A különírás-egybeírás területén azonban sok olyan szóalak is van, amely kivételes írásmódú – például a hagyomány vagy a jelentésváltozás miatt. Ezek ugyan nem fogalmazhatók meg formálisan, de a leggyakoribb ilyen, kivételes írásmódú alakokat ismeri a rendszerünk (például a kis és nagy szavakkal alkotott összetételek és szerkezetek, néhány kivételes írásmódú mellérendelő összetétel).

 

A külön- és egybeírási szabályok közül melyeket nem ismeri az alkalmazás? Melyek azok az esetek, amelyekre biztosan nem kapok választ?

 

A mellérendelő szerkezetek, illetve összetételek (pl. várt, várt; lassan, lassan; édes-bús; ízig-vérig) helyesírásával kapcsolatos kérdésekre nem tudunk választ adni. Kivételt a bizonyos jelentéstöbblettel rendelkező tőismétléses összetételek képeznek, amelyek szerepelnek kivétellistáinkban (például: réges-régi, örökkön-örökké).

 

Tekintve, hogy a harmadik mozgószabályos alakulatok esetén is mellérendelő viszony jön létre a két összetett szó azonos előtagja (ritkábban utótagja) között, amely nem írható le formálisan, a harmadik mozgószabályt is csak korlátozottan kezeli az eszköz: a helyesírási szótárakban fellelhető típuspéldákra képes csupán megfelelő választ adni.

 

A szótagszámlálási szabály kezelése még nem tökéletes. A nehézséget a fő összetételi határ megtalálása okozza. Emiatt főként a hosszú, háromnál több tagból álló összetételek írásmódjának megbízhatósága nem garantálható.

 

Az előző pontban említett gyűjtőnévi közszókat (például: Illés-együttes, Kölcsey-olvasókör) tartalmazó összetételek kivételével az alkalmazás nem kezeli a tulajdonnévvel alkotott összetételeket (például: Csepel-sziget, Geiger–Müller-számláló, Julianus barát szobor). Ha ezekkel kapcsolatos kérdése van, kérjük, próbálkozzon a Névkereső elnevezésű alkalmazással, vagy forduljon a Közönségszolgálathoz.

 

Helyes-e így?

 

Hogyan működik a eszköz?

 

A Helyes-e így? elnevezésű alkalmazás a szóközöket nem tartalmazó jelsorozatok létezését, illetve helyességét vizsgálja. Ha olyan szóalakot írunk a keresőmezőbe, amely nem létezik (tehát helytelen), akkor a rendszer a beírt szóalakhoz karakterben legközelebb álló szóalakokat írja ki nekünk javaslatként – tekintet nélkül a szavak jelentésére. Tegyük fel például, hogy a keresőmezőbe a papagály szót írjuk, mert arra vagyunk kíváncsiak, hogy jól tudjuk-e, hogy ly-nal írják.

 

A rendszer a papagály alakra természetesen azt mondja, hogy „ismeretlen”, és helyette a következő szóalakokat javasolja nekünk: papagáj, papagála, papaggály, papragály, papdagály, papagálya, papapály. A rendszer által javasoltak közül már annak fényében tudunk választani, hogy mit akartunk leírni.

 

A helyesírás-ajánló nem csupán helyesírási, hanem nyelvhelyességi javaslatokat is képes nyújtani. Például ismeri a „nákolás” (*én csinálnák) és az ún. „suksükölés” jelenségét (*ők elosszák a pénzt; *az orromat is tisztítsa). Ilyen esetekben egy-egy helyes példamondattal hívja fel a figyelmet a megfelelő használatra.

 

Az alkalmazás kezeli az ún. alaki hasonlóság vagy paronímia jelenségét is (gondoljunk csak a gyakran összekevert egyelőre ~ egyenlőre, helység ~ helyiség szavainkra). Ilyen esetekben egy példamondattal figyelmezteti a felhasználót, hogy biztosan erre az alakra gondolt-e, illetve felajánlja a szó hasonló alakú párját, amelyre rákattintva annak jelentését is megnézhetjük.

 

Miért javasol a beírt szótól eltérő jelentésű szavakat?

 

A Helyes-e így? alkalmazás a beírt, de számára ismeretlen szóalak esetén a karakterhasonlóság alapján ajánl új szóalakokat. Ennek az az oka, hogy az alkalmazás mögött álló Hunspell és HuMor programok a szótárakban található vagy a szótári tételekből szabályok alapján előállítható szavak közt keresnek, és nem kezelik a beírt szó jelentését.

 

Milyen esetekben nem használható az alkalmazás?

 

A többszörösen összetett szavak esetében az alkalmazás nem tud helyes választ adni, viszont az összetételi tagok nagyobb száma miatt több lehetséges, de nem feltétlenül jó alakot ajánl. Ha többszörösen összetett szó helyesírását akarjuk ellenőrizni, használjuk a Külön vagy egybe? nevű alkalmazást.

 

Névkereső

 

Hogyan működik az eszköz?

 

A Névkereső elnevezésű alkalmazás a tulajdonnevek helyesírásának ellenőrzését segíti. Mivel a rendszer jelenleg több mint kétszázezer tulajdonnevet tárol, nem lehetséges a köztük történő szabad keresés. A tulajdonnevek begépelésekor azonban megjelenik az egyre szűkülő találati lista. Tegyük fel, hogy a Dessewffy név helyesírását akarjuk ellenőrizni. Amint elkezdjük begépelni a szóalakot, úgy szűkül a keresés alatt a lehetséges találatok listája, mígnem elérkezünk a várt alakhoz.

 

Hogyan különíti el a rendszer a különféle tulajdonneveket?

 

A találati mezőkben megjelenő tulajdonnevekre kattintva megjelenik azok névtani kategóriája is (például földrajzi név, személynév, vezetéknév, keresztnév), így az azonos alakú tulajdonnevek esetében kiolvasható, hogy milyen lehetséges kategóriákba tartoznak.

 

Milyen tulajdonneveket nem ismer?

 

A rendszer csak a szótáraiban tárolt földrajzi és személyneveket tartalmazza. Nem tartalmaz azonban magyarországi és nemzetközi intézményneveket és cégneveket (utóbbiakat a szabályostól eltérő, ugyanakkor bejegyzett alakok kezelése miatt).

 

Elválasztás

 

Hogyan működik az eszköz?

 

Az Elválasztás elnevezésű alkalmazás segítségével a szavak elválasztását ellenőrizhetjük. A keresőmezőbe írt szóalakot az alkalmazás az összes lehetséges helyen elválasztja. Ha több szóból álló egységet írunk be a szavakat egymástól szóközökkel elválasztva, akkor mindegyik szóközök közé eső egységet (szóalakot) elválasztja.

 

Milyen információkat közöl az elválasztott alakról?

 

Az alkalmazás a magyar nyelven elérhető legfejlettebb elválasztó program, a huhyphn, illetve a HuMor morfológiai elemző alapján működik. A program, amellett, hogy az összes lehetséges határon elválasztja a szót, összetett szavak esetében virgulával (|) jelöli az összetételi határt is.

 

Mit nem kezel az alkalmazás?

 

Mivel az Elválasztás alkalmazás nem elemzi a beírt szó jelentését, nem létező szavakat is elválaszt (például: ezdegbe = ez-deg-be). A nem létező szavak elválasztására nem nyújt garanciát az eszköz.

 

A tulajdonnevek közül – főként a régies írásmódú magyar családnevek esetén – csak a leggyakrabban előfordulóakat képes helyesen elválasztani.

 

Számok

 

Hogyan működik az eszköz?

 

A Számok elnevezésű alkalmazás a felhasználó által beírt számjegyeket betűvel írt szavakká alakítja át. Tegyük fel, hogy a 2011 számot gépeljük be, erre az alkalmazás a kétezer-tizenegy, illetve a kettőezer-tizenegy lehetséges változatokat adja meg.

 

Milyen számokat és jeleket lehet beírni?

 

A keresőmezőbe a számjegyeken kívül előjelet (-), tizedesvesszőt (,) és törtvonalat (/) is írhatunk. Fontos, hogy a törtszámokat tizedesvesszővel (és ne ponttal) válasszuk el.

 

Mit csinál a rendszer, ha több helyes írásmód is lehetséges?

 

Abban az esetben, ha a számjegyet többféleképpen is át lehet alakítani szóvá, a rendszer igyekszik minden változatot visszaadni és köztük lévő esetleges különbségeket megmagyarázni. Tegyük fel, hogy a keresőmezőbe a 2/3 számot gépeljük. Ebben az esetben négy lehetséges átírást is fogunk kapni: 1. kétharmad csésze liszt, 2. két harmad nagyobb, mint egy harmad, 3. kettőharmad csésze liszt, 4. kettő harmad több, mint egy harmad. A rendszer 1-2. és a 3-4. közötti stílusbeli különbségre is felhívja a felhasználó figyelmét: a kettő alakváltozat nem része a sztenderd nyelvváltozatnak.

 

Dátumok

 

Hogyan működik az eszköz?

 

A Dátumok elnevezésű alkalmazás a felhasználó által évszám-hónap-nap (éééé-hh-nn, azaz például 2013-04-15) formában beírt vagy egy sablonból kiválasztott dátumot a magyar helyesírás szabályai szerinti lehetséges alakokra alakítja át.

 

Amellett, hogy a rendszer visszaadja a magyar helyesírás szerint írt dátumokat, azok toldalékos alakjaiból is feltünteti a leggyakrabban használtakat. Tegyük fel, hogy a keresőmezőbe az 1582-10-10 dátumot írjuk. Erre megkapjuk a lehetséges írásmódokat: 1582. október 10., 1582. okt. 10., 1582. X. 10. stb. Illetve ezeken az alakokon kívül a leggyakrabban használatos toldalékos alakokat is megkapjuk: 1582. október 10-én, 1582. október 10-e óta, 1582 októberében stb..

 

Minden dátumot le tud írni az alkalmazás?

 

A Dátumok alkalmazás kizárólag azt ellenőrzi, lehetséges-e a megadott hónapban annyi nap. Például novemberben maximum a 30. nap lehetséges, míg decemberben a 31. nap is megengedett (de a 32. már nem). Februárban 29. a legnagyobb megengedett napszám – az évszámtól függetlenül.

 

Milyen dátumot nem tud leírni az alkalmazás?

 

A beírható lehetőségek közül a Dátumok alkalmazás csak az éééé-hh-nn formát fogadja el. A más formában beírt dátumokat a rendszer nem kezeli. A rendszer ismeri és kezeli a hónapok napjainak a számát, de nem tudja kezelni a szökőévet vagy a Gergely-naptár bevezetésekor kimaradt napokat.

 

Ábécébe rendezés

 

Hogyan működik az eszköz?

 

Az Ábécébe rendezés elnevezésű alkalmazás célja a felhasználó által megadott latin betűs tételek betűrendbe sorolása A magyar helyesírás szabályai 14–15. pontjainak megfelelően. Az eszköz néhány előfeldolgozási lépést követően – amilyen például az összetételi tagokra bontás, ennek alapján a betűhatárok megállapítása; a kettőzött többjegyű mássalhangzóbetűk feloldása [ccs > cscs] és a kivételes esetek kezelése – a klasszikus rendezési módszert alkalmazza. Ennek során mindig két tételt hasonlít össze balról kezdve, betűnként. Az első különböző betűpár összehasonlítása adja a két tétel egymáshoz képesti rendezését.

 

Mit tud az alkalmazás?

 

Az alkalmazás az úgynevezett általános magyar betűrend szerint tetszőleges tételeket képes betűrendbe sorolni. A szabályok értelmében az alkalmazás csak akkor tesz különbséget az egybeírt, kötőjellel írt vagy különírt alakok között, továbbá a kis- és nagybetűk, a (magyar) magánhangzók hosszú és rövid változatai, illetve az idegen mellékjeles betűk között, ha a tételek között ezeken kívül nincs más különbség (Eger, egér, éger; Jáger, Jäger). A hagyományos írásmód szerint írt neveket az írásképük (nem pedig hangalakjuk) alapján rendezi (így például a Dessewfy nem a Dezső mellé kerül).

 

Mit nem tud az alkalmazás?

 

A magyar helyesírás szabályainak 16. pontja által említett kivételes betűrendbe sorolási eseteket (a bibliográfiai tételek betűrendje), továbbá a számokat is tartalmazó tételeket nem kezeli az eszköz. A magyar ábécén kívül más ábécék szerinti rendezést nem végez az alkalmazás.

 

Archívum

 

A Magyar Tudományos Akadémia több évtizede foglalkozik nyelvi tanácsadással (levélben, e-mailben és telefonon): a tanácsadói tevékenység keretében a nyelvi vagy helyesírási kérdéssel hozzájuk forduló közönséget igyekeznek eligazítani a nyelv használatában, valamint a magyar helyesírás szabályaiban. Ezen az oldalon a helyesírási tanácsadás során összegyűjtött kérdések között lehet böngészni. A kérdéseket kategorizáltuk, így a tudatosabb helyesírók szabadszavas és kulcsszavas (kategóriákal ellátott) keresések segítségével böngészhetnek a valós helyesírási kérdések között.

 

Fogalommagyarázat

 

nyelvtechnológia (számítógépes nyelvészet): A nyelvtechnológia az informatikának az az ága, amelynek nyelvészeti kutatásokon való eredményei úgy épülnek be a különféle számítógépes rendszerekbe, hogy a felhasználók számára a géppel való kommunikáció folyamán a nyelvet jól használó emberéhez hasonló támogatást tudjanak adni. Legfontosabb fejlesztési irányai (többek között): szövegbányászat, gépi fordítás, beszédfelismerés, beszédkeltés, párbeszédes rendszerek stb..

 

morfológiai elemző: Olyan számítógépes program, amely megmondja, hogy egy adott szóalak mely szótöveknek milyen alakja, és milyen szóelemekből (morfémákból) épül fel. Egyes szóalakoknak több elfogadható elemzésük is lehet, pl. a magyar ment szó egyszerre lehet a magyar megy ige múlt idejű és a ment ige jelen idejű alakja, mindkettő egyes szám harmadik személyben, alanyi ragozásban. Többértelműség esetén az elemző az összes lehetséges elemzést feltünteti.

 

nyelvtani elemző (parser): Tágabb értelemben: mindenféle szintaktikai elemzést végző program. Szűkebb értelemben (a helyesiras.mta.hu-ban) azt a programot jelenti, amely balról jobbra vagy jobbról balra elindulva összevonja a szavakat szószerkezetekké vagy összetételekké (a szabályokban megadott elválasztójeleket – szóköz, kötőjel, nagykötőjel, egybeírást jelző szimbólum – alkalmazva).

 

Felhasznált alkalmazások

 

- HuMor morfológiai elemző a MorphoLogic Kft. jóvoltából


- Helyes-e? helyesírás-ellenőrző és ajánló a MorphoLogic Kft. jóvoltából


- Hunspell szabad forrású helyesírás-ellenőrző és ajánló: http://hunspell.sourceforge.net/


- Magyar elválasztási szótár a PyHyphen szabad forrású alkalmazáshoz: http://downloads.sourceforge.net/magyarispell/hyph_hu.zip

 

Publikációink

 

A helyesiras.mta.hu rendszerről további információkat alábbi tanulmányainkban találhat:

 

Ludányi Zsófia, Miháltz Márton, M. Pintér Tibor, Takács Dávid 2014. helyesiras.mta.hu – Az intelligens helyesíróportál. In: Ladányi Mária, Vladár Zsuzsa, Hrenek Éva (szerk.) Nyelv – társadalom – kultúra. Interkulturális és multikulturális perspektívák II. Budapest: MANYE – Tinta Könyvkiadó, 800–806. (Elektronikus dokumentum.)

 

Váradi Tamás, Ludányi Zsófia, Kovács Réka 2014. Géppel segített helyesírás. A helyesírás.mta.hu portál készítéséről. Modern Nyelvoktatás 1–2: 43–58.

 

Miháltz Márton, Ludányi Zsófia 2013. helyesírás.mta.hu: automatizált helyesírási tanácsadás nyelvtechnológiai módszerekkel. Előadás a Magyar Tudomány Ünnepén. MTA Székház, 2013. november 11.

 

Ludányi Zsófia, Miháltz Márton, Hussami Péter 2013. Különírás-egybeírás – automatikusan. In: Váradi Tamás (szerk.) AlkNyelvDok7. Doktoranduszok tanulmányai az alkalmazott nyelvészet köréből. Budapest: MTA Nyelvtudományi Intézet, 116–130.

 

Váradi Tamás 2013. Gépesített helyesírási tanácsadás. Nyelvtechnológiával a helyesírásért. Argumentum 9. Színes ecsetvonások a nyelvészeti palettán. Különszám dr. Hollósy Béla 65. születésnapja alkalmából. 321–331.

 

Helyesírás.hu – Nyelvtechnológiai megoldások automatikus helyesírási tanácsadó rendszerben. Poszter.

 

Miháltz Márton, Hussami Péter, Ludányi Zsófia, Mittelholcz Iván, Nagy Ágoston, Oravecz Csaba, Pintér Tibor, Takács Dávid 2012. Helyesírás.hu – Nyelvtechnológiai megoldások automatikus helyesírási tanácsadó rendszerben. In: Tanács Attila, Vincze Veronika (szerk.) MSZNY 2013. Magyar Számítógépes Nyelvészeti Konferencia, Szeged: JATEPress, 135–148.

 

Pintér Tibor, Mártonfi Attila, Oravecz Csaba 2009. Online helyesírási szótár és megvalósítási nehézségei. In: Tanács Attila, Szauter Dóra, Vincze Veronika (szerk.) MSZNY 2009. Magyar Számítógépes Nyelvészeti Konferencia, Szeged: JATEPress, 172–182.

Címkék: helyesek helyesiras.mta.hu helyesírás helyesírás-ellenörző hunspell kereskedelmi termék magyarhelyesiras.hu microsoft world morphologic open source

 

Kommentáld!

Ez egy válasz üzenetére.

mégsem

Hozzászólások

Ez történt a közösségben:

M Imre írta 9 órája a(z) Fényképezés, képek szerkesztése és minden hasonló témakör fórumtémában:

Különleges fotókon mutatkoznak be a magyar ...

M Imre írta 3 napja a(z) Az internet archívumai fórumtémában:

Nyolcadik 404 Not Found – Ki őrzi meg az internetet? című ...

M Imre írta 4 napja a(z) Fényképezés, képek szerkesztése és minden hasonló témakör fórumtémában:

Harmincöt éve omlott le a berlini fal: így néz ki ma az egykori ...

M Imre írta 5 napja a(z) Mesterséges intelligencia / Artificial Intelligence fórumtémában:

Néma mérget oltanak a zenékbe, és elég hatásos: ...

M Imre írta 6 napja a(z) Debian 12 Bookworm telepítése látássérült felhasználóként blogbejegyzéshez:

Ügyfélkapu+ tájékoztató https://www.meosz.hu/wp-...

M Imre írta 6 napja a(z) Debian 12 Bookworm telepítése látássérült felhasználóként blogbejegyzéshez:

"Informatika a látássérültekért"...

M Imre írta 1 hete a(z) Apple fórumtémában:

iPhone-ja van? Fontos határidő közeleg, nagy törlésbe kezd az ...

M Imre írta 1 hete a(z) Google LLC fórumtémában:

Az amerikai igazságügyi minisztérium (DOJ)...

M Imre 1 hete új blogbejegyzést írt: LibreWolf | Debian 12

M Imre 1 hete új blogbejegyzést írt: Pale Moon | Debian 12

Szólj hozzá te is!

Impresszum
Network.hu Kft.

E-mail: ugyfelszolgalat@network.hu