Megjelent a HuSpaCy, a nyílt forráskódú magyar nyelvi elemzőlánc

Tudomány

TÜKÖR

2026. május 6.

Új módon számolják el az áramszámlákat: Mi változik, és hatással lesz-e a lakossági számlákra?

2026. május 5.

Megosztott ellenzék és kormánypárti előny: Mit eredményezhetnek a szerbiai előrehozott választások?

2026. május 1.

A boszorkányoktól a majálisokig: Május 1. elfeledett történetei

Levelek a Rózsa utcából

Friedrich Anna rovata

Történetek kórházakból

Gaia - ökológiai rovat | Környezettudatos gondolkodás és magatartás

SPORT

Elhunyt Fazekas László 92-szeres válogatott labdarúgó

A FŐSZAKÁCS AJÁNLATA

Lencseköret

ÁLLÁSHIRDETÉSEK

Helységnévtár

Megjelent a HuSpaCy, a nyílt forráskódú magyar nyelvi elemzőlánc

TUDOMÁNY

2022. ÁPRILIS 26.

[ 13:20 ]

Betűméret:

A SZTAKI által koordinált Mesterséges Intelligencia Nemzeti Laboratórium (MILAB) projekt keretében a Szegedi Tudományegyetem kutatói elkészítették, és szabadon hozzáférhetővé tették a HuSpaCy magyar nyelvi elemzőrendszert, amely a mesterséges intelligencia és nyelvtechnológia legújabb kutatási eredményeit ötvözi egy magyar szövegeket elemezni képes könnyen használható eszközzé.

Az elmúlt évtized áttörést hozott a nyelvtechnológiában, nemcsak a kutatásokban, hanem abban is, hogy az akadémiai eredmények eljutottak arra a technológiai érettségi szintre, hogy azok már ipari forgalomban is használhatóak. Ma már olyan - akár kisebb - cégek is képesek szövegelemzési problémák megoldására, amelyek nem rendelkeznek MI-szakértelemmel - olvasható a SZTAKI közleményében.

A most elkészült magyar nyelvi elemzőrendszer már az iparban is használható erőforrásigénnyel és integrálhatósággal dolgozik, használatával egyszerűbbé válik a magyar nyelvű szövegek nyelvtani és jelentéstani értelmezése.

"A kifejezetten magyar nyelvű szöveges tartalmak, mondatok előfeldolgozási eszközkészletét készítettük el. Erre azért van szükség, mert minden alkalmazás, ami valamilyen szöveggel kapcsolatos problémát akar megoldani, csupán nyers karaktersorozatokból még nem tud működni. Természetes nyelvi szövegeken működő algoritmusok emberek által is értelmezhető nyelvtani szimbólumokra építenek, így a HuSpaCy megfelelő alapul szolgálhat csetbotokhoz vagy akár email értelmező rendszerekhez is" - idézik a közleményben Farkas Richárdot, a Szegedi Tudományegyetem kutatóját.

Kitérnek rá, hogy az elmúlt évtizedben forradalom zajlott a mesterséges intelligencia kutatásában: a gépi tanulásos megoldásokon belül előre tört az úgynevezett mélytanulás (deep learning) módszere, ahol mesterséges neurális hálók képesek megtanulni, hogy mit hogy kell értelmezniük.

A ma használatos természetes nyelveket feldolgozó rendszerek nagy része így működik, azaz nem nyelvészek írnak szabályokat, hanem az úgynevezett tanuló algoritmusok képesek mélyebb összefüggések, predikciók elsajátítására.

Az ilyen rendszerek problémája, hogy alapvetően fekete dobozként viselkednek. Működésük alig megfigyelhető, tehát még ha jó eredményt is adnak, akkor sem tudjuk, hogyan jutottak erre a következtetésre. Ebből következik, hogy nem is jól kontrollálhatók, ezért ipari alkalmazásokban sokszor csak korlátozottan használhatóak.

Napjaink angol nyelvet támogató célalkalmazásaiban is gyakran csak a szövegek előelemzésére használnak gépi tanulás alapú megoldásokat, hogy aztán ezek alapján az emberi szakértő által írt szabályok hozzák meg a végső döntést. Így egy-egy döntés átláthatóvá válik, és kérdéses esetben az emberi szakértő akár meg is tudja változtatni a rendszer viselkedését.

A közleményben felidézik, hogy a magyar nyelvű szövegelemző szoftverek fejlesztése nem ma kezdődött. A magyar kutatói közösség már a kétezres években elkezdte építeni a szükséges nyelvi adatbázisokat. Ezeket az adatbázisokat használták a HuSpaCy fejlesztői is, mint tanító adatbázis.

A HuSpaCy rendszer ötvözi a mély tanulási módszerek előnyeit a nyelvészeti elemzések interpretálhatóságával és kontrollálhatóságával. A rendszer képes mondatok teljes nyelvi elemzésére (szótő, szófajok, satöbbi) illetve névelemek (például személynevek, helységek) azonosítására is folyó szövegben.

A HuSpaCy napjaink MI-eszközeiből építkezik: tartalmaz neurális nyelvi modelleket, amelyeket a felhasználó akár szövegek hasonlóságának vizsgálatára is használhat, de a fent említett nyelvtani elemző lépések is mind modern algoritmusokra épülnek - teszik hozzá.

Mint írják, a most létrehozott HuSpaCy rendszer alapja lehet hangalapú vagy írásos csetbotoknak is (ilyeneket a Mesterséges Intelligencia Nemzeti Laboratóriumban is fejlesztenek), de hasznos lehet szövegkategorizálásra (például ügyfélszolgálatra beérkező panaszok automatikus leválogatására), információ kinyerésre és szövegek automatikus generálására is. (MTI)

MTA-közgyűlés: Pósfai Mihály az új elnök

TUDOMÁNY

2026. MÁJUS 5.

[ 16:27 ]

Magyar vállalat fejleszthet Hold körüli... pályára szánt műholdat

TUDOMÁNY

2026. MÁJUS 1.

[ 14:03 ]

Az Oxfordi Egyetem díszdoktori címét kapja meg... Karikó Katalin

TUDOMÁNY

2026. ÁPRILIS 27.

[ 15:34 ]

Washingtonban Karikó Katalin részvételével... nyitották meg a magyar tudomány kiemelkedő alakjait bemutató tárlatot

TUDOMÁNY

2026. ÁPRILIS 27.

[ 8:39 ]

Emberi világcsúcsot döntött meg egy humanoid robot a pekingi félmaratonon

Humanoid robot nyerte meg a pekingi E-Town félmaratont, és idejével az emberi világcsúcsnál is gyorsabbnak bizonyult - jelentette a kínai állami média vasárnap. A Flash nevű robot, amelyet a Shenzhen Honor Smart Technology Development fejlesztett ki, autonóm navigációval 50 perc 26 másodperc alatt teljesítette a 21,09...

TUDOMÁNY

2026. ÁPRILIS 19.

[ 12:21 ]

Várják a jelöléseket a Karikó Katalin alapította JATE-díjra

Várják a jelöléseket a Karikó Katalin alapította JATE-díjra, a pályázatok csütörtöktől nyújthatók be - jelentették be kedden Szegeden. Karikó Katalin elnyerte a 2023-as fiziológiai és orvosi Nobel-díjat, majd 2024 tavaszán a Szegedi Tudományegyetemnek (SZTE) adományozta Nobel-plakettje hiteles másolatát, és a...

TUDOMÁNY

2026. ÁPRILIS 14.

[ 10:44 ]

Szerves anyagokat talált egy nemzetközi kutatócsoport a kínai holdküldetések mintáiban

Új tudományos eredmények szerint a Hold felszínéről származó talajminták részletes információkat őriznek a szerves anyagok naprendszerbeli eredetéről és későbbi átalakulásáról - jelentette a kínai állami média. A Science Advances című tudományos folyóiratban megjelent tanulmány szerint a Csang-o-5 és Csang-o-6...

TUDOMÁNY

2026. ÁPRILIS 12.

[ 16:32 ]

Mutass még!

TÁMOGATÓNK

Ministerelnökség | Nemzetpolitikai Államtitkárság - logó