महाराष्ट्र

एआई के लिए मराठी का ‘लार्ज लैंग्वेज मॉडल’ तैयार

वीजेटीआई इंक्युबेशन सेंटर के विद्यार्थियों की शानदार पहल

मुंबई /दि.2– मराठी भाषा को अभिजात भाषा का दर्जा मिलने के बाद अब भविष्य की दृष्टि से भाषा को लेकर काम होना बेहद आवश्यक है. इस जरुरत को पहचानते हुए माटुंगा स्थित वीर माता जिजाबाई टेक्निकल इंस्टीट्यूट (वीजेटीआई) के इंक्युबेशन सेंटर में दो विद्यार्थियों ने आर्टीफिशियल इंटेलिजन्स हेतु मराठी के सबसे बडे ‘लार्ज लैंग्वेज मॉडल’ को तैयार किया है. जिसके लिए इन विद्यार्थियों ने मराठी भाषा में प्रकाशित हुए 100 जीबी तक आकार वाले डेटा का प्रयोग किया है. जिसमें कई साहित्यकारों के साहित्य से लेकर विश्वकोष एवं राज्य लोकसेवा आयोग की परीक्षा के साहित्य सहित विविध मराठी वेबसाइटस् का समावेश है.
कृत्रिम बुद्धिमत्ता यानि आर्टीफिशियल इंजेलिजन्स के तंत्रज्ञान में मराठी भाषा का समावेश करने को उस भाषा की जानकारी रहना आवश्यक होता है. चैट जीपीटी नामक ओपन एआई स्त्रोत के पास दुनियाभर की जानकारी का ब्यौरा है. परंतु इस प्रणाली से यदि कोई प्रश्न मराठी भाषा में पूछा जाए तो वह विविध भाषाओं में उपलब्ध जानकारी का प्रयोग कर उसका उत्तर देती है. जिसके चलते इस प्रणाली की जानकारी पूरी तरह से मराठी लार्ज लैंग्वेज मॉडल पर आधारित नहीं होती. इस त्रुटी को दूर करने के लिए ओम पाटिल व मंथन नामक दो विद्यार्थियों ने वीजेटीआई के इंक्युबेशन सेंटर की सहायता से एक मॉडल विकसित किया है. इस मॉडल हेतु इंक्युबेशन सेंटर में जबरदस्त क्षमतावाला सर्वर उपलब्ध कराया है. केवल मराठी लार्ज लैंग्वेज मॉडल पर आधारित रहनेवाली प्रणाली में भी अभी फिलहाल 13 जीबी डेटा पर ही काम हुआ है. एआई आधारित प्रणाली के जरिए मराठी भाषा में योग्य परिणाम साध्य करने हेतु यह डेटा अपर्याप्त रहने की बात ध्यान में आते ही इन दोनों विद्यार्थियों ने अपना मोर्चा मराठी भाषा के दर्जेदार साहित्य की ओर मोडा. जिसके तहत वि. स. खांडेकर, पु. ल. देशपांडे, श्री. ना. पेंडसे, दया पवार व अण्णाभाऊ साठे जैसे विविध साहित्यिकों के साहित्य के साथ ही संत साहित्य को भी इस प्रणाली पर लेने हेतु प्रयास किया गया. इसके साथ ही विश्वकोष एवं विविध मराठी वेबसाइट के मटेरियल को भी इस प्रणाली में समाविष्ट किया गया. इसके अलावा संविधान की मराठी आवृत्ती को भी इस प्रणाली पर लेते हुए करीब 100 जीबी तक डेटा प्रक्रिया की गई. ऐसी जानकारी ओम पाटिल द्वारा दी गई.
* प्रशिक्षण देने का भी काम
वहीं मंथन ने बताया कि, केवल इस डेटा को लोड कर देने से ही काम नहीं चलता. बल्कि व्याकरण की विविध कसौटियों का प्रयोग कर उसे प्रशिक्षित करना पडता है. ऐसे में विगत 6 माह के दौरान 100 जीबी का डेटा संकलित कर चैट जीपीटी व एआई को प्रशिक्षित करने का काम पूरा किया गया है. साथ ही अब भी और अधिक डेटा संकलित कर उसके लिहाज से प्रशिक्षण देने का काम किया जा रहा है.
* मराठी के साथ तकनीक का समन्वय
फिलहाल इस मॉडल का उपयोग कुछ सरकारी विभागों हेतु करने की दृष्टि से पडताल चल रही है. इन विद्यार्थियों ने बेहतरीन काम किया है. अभिजात मराठी भाषा के साथ आधुनिक तंत्रज्ञान का समन्वय स्थापित करने हेतु यह प्रकल्प महत्वपूर्ण साबित होगा, ऐसा वीजेटीआई के इंक्युबेशन सेंटर प्रमुख डॉ. फारुख काझी द्वारा कहा गया.

Back to top button