Rast Studimi: AI biseduese

Mbi 3 mijë orë të dhëna të mbledhura, të segmentuara dhe të transkriptuara për të ndërtuar ASR në 8 gjuhë indiane

Mbledhja e fjalëve
Qeveria synon t'u mundësojë qytetarëve të saj qasje të lehtë në internet dhe shërbime dixhitale në gjuhën e tyre amtare përmes Projektit Bhashini.

BHASHINI, platforma e përkthimit të gjuhës së drejtuar nga AI në Indi, është një pjesë jetike e nismës Digital India.

E krijuar për të ofruar mjete të Inteligjencës Artificiale (AI) dhe Përpunimit të Gjuhës Natyrore (NLP) për MSME-të, startup-et dhe novatorët e pavarur, platforma Bhashini shërben si një burim publik. Qëllimi i tij është të promovojë përfshirjen dixhitale duke u mundësuar qytetarëve indianë të ndërveprojnë me nismat dixhitale të vendit në gjuhët e tyre amtare.

Për më tepër, ai synon të zgjerojë ndjeshëm disponueshmërinë e përmbajtjes së internetit në gjuhët indiane. Kjo është veçanërisht e orientuar drejt fushave të interesit publik si qeverisja dhe politika, shkenca dhe teknologjia, etj. Rrjedhimisht, kjo do të nxisë qytetarët që të përdorin internetin në gjuhën e tyre, duke promovuar pjesëmarrjen e tyre aktive.

Përdorni NLP për të mundësuar një ekosistem të larmishëm të kontribuesve, subjekteve partnere dhe qytetarëve me qëllim të kapërcimit të barrierave gjuhësore, duke siguruar kështu përfshirjen dhe fuqizimin dixhital

Zgjidhja e botës reale

Lëshimi i fuqisë së lokalizimit me të dhëna

India kishte nevojë për një platformë që do të përqendrohej në krijimin e grupeve të të dhënave shumëgjuhëshe dhe zgjidhjeve teknologjike gjuhësore të bazuara në AI, në mënyrë që të ofronte shërbime dixhitale në gjuhët indiane. Për të nisur këtë iniciativë, Instituti Indian i Teknologjisë, Madras (IIT Madras) bashkëpunoi me Shaip për të mbledhur, segmentuar dhe transkriptuar grupe të dhënash të gjuhës indiane për të ndërtuar modele të të folurit shumëgjuhësh.

Sfidat

Për të ndihmuar klientin me udhërrëfyesin e të folurit të teknologjisë së të folurit për gjuhët indiane, ekipit iu desh të merrte, segmentonte dhe transkriptonte vëllime të mëdha të të dhënave trajnimi për të ndërtuar modelin e AI. Kërkesat kritike të klientit ishin:

Mbledhja e të dhënave

  • Merrni 3000 orë të dhëna trajnimi në 8 gjuhë indiane me 4 dialekte për gjuhë.
  • Për secilën gjuhë, furnizuesi do të mbledhë të folurit Extempore dhe
    Fjalim bashkëbisedues nga grupmoshat 18-60 vjeç
  • Siguroni një përzierje të larmishme të folësve sipas moshës, gjinisë, arsimit dhe dialekteve
  • Siguroni një përzierje të larmishme mjedisesh regjistrimi sipas Specifikimeve.
  • Çdo regjistrim audio duhet të jetë së paku 16 kHz por preferohet 44 kHz

Segmentimi i të dhënave

  • Krijoni segmente të të folurit prej 15 sekondash dhe vulosni audion në milisekonda për secilin altoparlant të caktuar, llojin e tingullit (të folurit, llafe, muzikë, zhurmë), kthesat, thëniet dhe frazat në një bisedë
  • Krijo çdo segment për sinjalin e tij të synuar të zërit me një mbushje 200-400 milisekonda në fillim dhe në fund.
  • Për të gjitha segmentet, duhet të plotësohen objektet e mëposhtme, p.sh., Koha e fillimit, Koha e përfundimit, ID-ja e segmentit, Niveli i zhurmës, Lloji i zërit, kodi i gjuhës, ID-ja e folësit, etj.

Transkriptimi i të dhënave

  • Ndiqni udhëzimet e detajeve të transkriptimit rreth karaktereve dhe simboleve speciale, drejtshkrimit dhe gramatikës, shkronjave të mëdha, shkurtesave, kontraktimeve, shkronjave të folura individuale, numrave, shenjave pikësimi, shkurtesave, fjalëve të paqarta, të folurit, të folurit të pakuptueshëm, gjuhëve që nuk synojnë, jo të folurit etj.

Kontrolli i cilësisë dhe komentet

  • Të gjitha regjistrimet do t'i nënshtrohen vlerësimit dhe vërtetimit të cilësisë, do të jepet vetëm fjalimi i vërtetuar

Zgjidhje

Me kuptimin tonë të thellë të AI bisedore, ne e ndihmuam klientin të mbledhë, segmentojë dhe transkriptojë të dhënat me një ekip koleksionistësh ekspertësh, gjuhëtarësh dhe shënues për të ndërtuar një korpus të madh të të dhënave audio në 8 gjuhë indiane

Fusha e punës për Shaip përfshinte, por nuk kufizohej në marrjen e vëllimeve të mëdha të të dhënave të trajnimit audio, segmentimin e regjistrimeve audio në shumëfish, transkriptimin e të dhënave dhe dërgimin e skedarëve korrespondues JSON që përmbajnë meta të dhënat [ID-ja e folësit, mosha, gjinia, gjuha, dialekti,
Gjuha amtare, kualifikimi, profesioni, domeni, formati i skedarit, frekuenca, kanali, lloji i audios, numri i folësve, numri i gjuhëve të huaja, konfigurimi i përdorur, audio me brez të ngushtë ose me brez të gjerë, etj.]. 

Shaip mblodhi 3000 orë të dhëna audio në shkallë duke ruajtur nivelet e dëshiruara të cilësisë së kërkuar për të trajnuar teknologjinë e të folurit për projekte komplekse. Formulari i pëlqimit të qartë u mor nga secili prej pjesëmarrësve.

1. Mbledhja e të dhënave

2. Segmentimi i të dhënave

  • Të dhënat audio që u mblodhën u dyfishuan më tej në segmente të të folurit prej 15 sekondash secili dhe u vulosën në milisekonda për secilin folës të caktuar, llojin e zërit, kthesat, shqiptimet dhe frazat në një bisedë
  • Krijoi çdo segment për sinjalin e zërit të synuar me një mbushje 200-400 milisekonda në fillim dhe në fund të një sinjali zanor.
  • Për të gjitha segmentet, objektet e mëposhtme ishin të pranishme dhe të mbushura, p.sh., ora e fillimit, ora e përfundimit, ID-ja e segmentit, niveli i zërit (me zë të lartë, normal, i qetë), lloji kryesor i zërit (të folurit, zhurma, muzika, zhurma, mbivendosja), altoparlanti i kodit të gjuhës ID, transkriptim etj.

3. Kontrolli i cilësisë dhe reagimet

  • Të gjitha regjistrimet u vlerësuan për cilësinë dhe vetëm regjistrimet e vërtetuara të të folurit me WER prej 90% dhe TER prej 90% u dorëzuan
  • Lista kontrolluese e cilësisë e ndjekur:
       » Maksimumi 15 sekonda i gjatësisë së segmentit
       » Transkriptimi nga fusha specifike, përkatësisht: Moti, lloje të ndryshme lajmesh, shëndetësi, bujqësi, arsim, punë ose financa
       » Zhurmë e ulët në sfond
       » Nuk ka clip audio të fikur – Nuk ka shtrembërim
       » Segmentimi i saktë audio për transkriptim

4. Transkriptimi i të dhënave
Të gjitha fjalët e folura, duke përfshirë hezitimet, fjalët plotësuese, fillimet e rreme dhe tiparet e tjera verbale, u kapën me saktësi në transkriptim. Ne ndoqëm gjithashtu udhëzimet e transkriptimit të detajeve rreth shkronjave të mëdha dhe të vogla, drejtshkrimit, kapitalizimit, shkurtesave, kontraktimeve, numrave,
shenjat e pikësimit, Akronimet, Fjalimi i paqëndrueshëm, zhurmat jo të të folurit etj. Për më tepër, Rrjedha e Punës e ndjekur për Mbledhjen dhe Transkriptimin është si më poshtë: