دادگان استاندارد یکی از نیازهای اساسی در تمامی حوزههای هوش مصنوعی است و حوزهٔ پردازش گفتار هم از این موضوع مستثنی نیست. در سالهای اخیر و با پیشرفت شبکههای عصبی نیاز به دادگان با حجم بالا نیز بیشتر شده است. برای زبانهایی مثل انگلیسی و چندین زبان دیگر دادگانهای زیادی وجود دارد. متأسفانه تا قبل از جمعآوری دادگان دیپماین به دلایل مختلف دادگان مناسبی برای زبان فارسی وجود نداشت. به همین خاطر محققین و شرکتهای فعال در این زمینه همیشه با مشکلاتی روبهرو بودند.
ما بعد از تجربیاتی که در این موضوع در خارج از کشور و از آزمایشگاههای و شرکتهای معتبر در زمینه پردازش گفتار کسب کردیم تصمیم گرفتیم یک دادگان استاندارد برای زبان فارسی جمعآوری کنیم. فاز اول این پروژه با همکاری آزمایشگاه پردازش گفتار شریف انجام شد و هماکنون فاز دوم آن در حال اجرا است. برای مشارکت در این پروژه میتوانید اپ اندروئید ضبط صدا را توسط لینک زیر از کافه بازار نصب کنید.
https://cafebazaar.ir/app/edu.sharif.spl.splrecordingapp/
خروجی فاز اول این پروژه بعد از پردازشهای مختلف و تمیز کردن آن برای استفادهٔ دانشگاهها و شرکتهای مختلف آماده شده است. برای دریافت جزئیات بیشتر در رابطه با دادگان و دانلود نمونههایی از آن میتوانید به صفحهٔ مختص دادگان مراجعه کنید. همچنین برای تهیه دادگان میتوانید با ایمیل زیر ارتباط برقرار کنید.