अपरिष्कृत बल से परे: बेंचमार्क संतृप्ति को समझना

एक्सप्लोर करें कि Phi-4 और Gemma-3 जैसे स्मॉल लैंग्वेज मॉडल (SLM) विशिष्ट कार्यों के लिए फ्रंटियर मॉडल से बेहतर प्रदर्शन कैसे कर सकते हैं, जिसमें लागत दक्षता, फाइन-ट्यूनिंग और डिप्लॉयमेंट रणनीतियों पर ध्यान केंद्रित किया गया है।

WHY IT MATTERS

बेंचमार्क मूल बातें

जबरन नहीं, समझ के साथ: बेंचमार्क सैचुरेशन को समझना

बेंचमार्क सैचुरेशन तब होता है जब AI मॉडल किसी दिए गए टेस्ट सेट पर 100% सटीकता के करीब या उससे अधिक प्रदर्शन स्तर प्राप्त कर लेते हैं। सैचुरेटेड बेंचमार्क आगे के सुधारों को अलग करने के लिए कम प्रभावी हो जाते हैं, जिससे मॉडल क्षमताओं में वास्तविक प्रगति का आकलन करना मुश्किल हो जाता है। मॉडल अक्सर वास्तविक सामान्यीकरण योग्य समझ विकसित करने के बजाय टेस्ट डेटासेट को ‘याद’ करके इस सैचुरेशन में योगदान करते हैं।

सीमित डेटासेट की आंतरिक सीमाएं वास्तविक दुनिया की जटिलता का पर्याप्त रूप से प्रतिनिधित्व नहीं कर सकती हैं, जो अक्सर सैचुरेशन से पहले होती है। उदाहरण के लिए, इमेज रिकग्निशन बेंचमार्क, ImageNet Top-5 में, AI मॉडल ने 2015 में मानव प्रदर्शन को पार कर लिया और तब से 99% सटीकता के करीब पहुंच गए हैं। इसी तरह, जनरल लैंग्वेज अंडरस्टैंडिंग इवैल्यूएशन (GLUE) भी सैचुरेटेड हो गया है, जिससे विकल्पों की आवश्यकता है। ग्रेड-स्कूल गणित की समस्याओं के लिए GSM8K बेंचमार्क, जो शुरू में 40% से कम सटीकता दिखा रहा था, अब टॉप लार्ज लैंग्वेज मॉडल (LLM) 95% से अधिक प्राप्त कर रहे हैं।

परिभाषा: बेंचमार्क सैचुरेशन मूल्यांकन मेट्रिक्स को अप्रभावी बना देता है जब मॉडल वास्तविक सामान्यीकृत समझ के बजाय डेटा याद करने के कारण लगभग-सही प्रदर्शन करते हैं।

मॉडल आर्किटेक्चर का यह तीव्र विकास बेंचमार्क निर्माण के दौरान अप्रत्याशित पैटर्न का फायदा उठा सकता है, जिससे सैचुरेशन की घटना और भी तेज हो जाती है। इन सीमाओं को समझना कच्चे प्रदर्शन संख्या से परे भविष्य की AI प्रगति का मूल्यांकन करने के लिए एक महत्वपूर्ण बिंदु है।

Fig. 1 — जबरन नहीं, समझ के साथ: बेंचमार्क सैचुरेशन को समझना

फ्रंटियर स्केल का घटता प्रतिफल

यह लंबे समय से चली आ रही धारणा कि बड़े भाषा मॉडल के लिए बढ़ती कम्प्यूटेशनल संसाधनों के साथ प्रदर्शन लगातार बढ़ता है, अब टूटने लगी है। लार्ज लैंग्वेज मॉडल (LLM) के लिए बेंचमार्क सुधार की गति काफी धीमी हो गई है, जो घटते प्रतिफल के स्पष्ट रुझान का सुझाव देती है। फ्रंटियर मॉडल का आकार बढ़ाने से अब बढ़ते खर्चों और कम्प्यूटेशनल संसाधनों के सापेक्ष कम महत्वपूर्ण प्रदर्शन सुधार होते हैं।

अरबों मापदंडों वाले ये फ्रंटियर मॉडल, प्रशिक्षण और अनुमान दोनों के लिए भारी कम्प्यूटेशनल शक्ति, मेमोरी और ऊर्जा की मांग करते हैं। शोधकर्ताओं ने पाया कि 2025 तक, उन्नत तर्क प्रणालियों में अधिक कम्प्यूटेशनल चरण जोड़ने से अब आनुपातिक सुधार नहीं मिलते हैं। Q4 2022 के बाद से LLM को समर्पित कंप्यूट की मात्रा लगभग हर 3.4 महीने में दोगुनी हो गई है, फिर भी घातीय संसाधन निवेश से घटते प्रतिफल मिलते हैं।

मुख्य निष्कर्ष: फ्रंटियर मॉडल को लगातार बढ़ाने की आर्थिक और पर्यावरणीय लागतें उनके सीमांत प्रदर्शन लाभों से तेजी से अधिक हो रही हैं।

ऐसे विशाल मॉडल को डिप्लॉय करना अक्सर असाधारण रूप से महंगा, अक्षम और संभावित रूप से अस्थिर होता है, खासकर वास्तविक समय के अनुप्रयोगों के लिए जिन्हें कम विलंबता की आवश्यकता होती है। यह एक महत्वपूर्ण बिंदु की ओर इशारा करता है जहाँ उद्योग को AI विकास के लिए अपने दृष्टिकोण पर पुनर्विचार करना चाहिए।

HOW IT WORKS

तकनीकी विश्लेषण

Key Takeaway: सैचुरेटेड बेंचमार्क्स मॉडल क्षमताओं की वास्तविक प्रगति का आकलन करना कठिन बना देते हैं, क्योंकि मॉडल समझ विकसित करने के बजाय डेटा याद कर लेते हैं।

बेंचमार्क सैचुरेशन क्या है?

जब AI मॉडल किसी दिए गए टेस्ट सेट पर 100% सटीकता के करीब पहुंच जाते हैं, तो आगे के सुधारों को अलग करना मुश्किल हो जाता है। यह मूल्यांकन मेट्रिक्स को अप्रभावी बना देता है।

मॉडल अक्सर वास्तविक सामान्यीकरण योग्य समझ विकसित करने के बजाय टेस्ट डेटासेट को ‘याद’ करके इस सैचुरेशन में योगदान करते हैं।

इंजीनियरिंग दक्षता: SLM अपनी क्षमता से बढ़कर प्रदर्शन कैसे करते हैं

स्मॉल लैंग्वेज मॉडल (SLM) शक्तिशाली दावेदारों के रूप में उभर रहे हैं, जो काफी कम कम्प्यूटेशनल आवश्यकताओं के साथ प्रतिस्पर्धी प्रदर्शन प्रदान करते हैं। ये मॉडल आमतौर पर 1 मिलियन से 20 बिलियन पैरामीटर रेंज में काम करते हैं, जो GPT-4 जैसे कुछ फ्रंटियर LLM के विपरीत है, जिनमें 175 बिलियन से अधिक पैरामीटर होते हैं। SLM 80-95% कम कम्प्यूटेशनल आवश्यकताएं प्रदान करते हैं, जबकि अभी भी केंद्रित विकास कार्यों पर प्रतिस्पर्धी प्रदर्शन प्राप्त करते हैं।

आर्किटेक्चरल एन्हांसमेंट अक्सर डोमेन-विशिष्ट अनुप्रयोगों के लिए कच्चे पैरामीटर स्केलिंग से बेहतर प्रदर्शन करता है, यह साबित करता है कि स्मार्ट डिज़ाइन केवल आकार से बेहतर है। यह SLM को अपने बड़े समकक्षों की तुलना में 10-100 गुना कम पैरामीटर के साथ प्रतिस्पर्धी प्रदर्शन प्राप्त करने की अनुमति देता है। Microsoft (Phi-2), Google (Gemma), और Meta (Llama variants) जैसी कंपनियां सक्रिय रूप से इस इंजीनियरिंग दक्षता का प्रदर्शन कर रही हैं।

परिभाषा: स्मॉल लैंग्वेज मॉडल (SLM) कॉम्पैक्ट AI मॉडल हैं जिन्हें विशेष कार्यों के लिए डिज़ाइन किया गया है, जो बड़े पैमाने पर दक्षता और लक्षित प्रदर्शन को प्राथमिकता देते हैं।

SLM ज्ञान आसवन, स्पार्स मॉडल और लो-रैंक फैक्टराइजेशन जैसी उन्नत तकनीकों के माध्यम से यह उल्लेखनीय दक्षता प्राप्त करते हैं। ये तरीके उन्हें अपनी क्षमता से बढ़कर प्रदर्शन करने की अनुमति देते हैं, जिससे वे भविष्य के AI डिप्लॉयमेंट के लिए एक प्रमुख अवधारणा बन जाते हैं।

Fig. 2 — इंजीनियरिंग दक्षता: SLM अपनी क्षमता से बढ़कर प्रदर्शन कैसे करते हैं

सिंथेटिक डेटा के साथ कार्य-विशिष्ट आसवन

ज्ञान आसवन एक तकनीक है जो एक बड़े ‘शिक्षक’ मॉडल के ज्ञान को एक छोटे ‘छात्र’ मॉडल में स्थानांतरित करती है। यह प्रक्रिया कुशल स्मॉल लैंग्वेज मॉडल (SLM) बनाने के लिए महत्वपूर्ण है, खासकर संसाधन-बाधित अनुप्रयोगों के लिए। यह छात्र को भारी ओवरहेड के बिना जटिल पैटर्न सीखने में सक्षम बनाता है।

आसवन प्रक्रिया में आमतौर पर शक्तिशाली शिक्षक मॉडल का उपयोग करके उच्च गुणवत्ता वाला सिंथेटिक डेटा उत्पन्न करना शामिल होता है, जो छात्र के लिए लेबल किए गए उदाहरण प्रदान करता है। उदाहरण के लिए, LLM से विस्तृत, चरण-दर-चरण तर्क आउटपुट बनाने के लिए चेन ऑफ थॉट (CoT) जैसी तकनीकों का उपयोग किया जाता है। छात्र मॉडल का निर्देश-आधारित फाइन-ट्यूनिंग तब इस समृद्ध सिंथेटिक डेटा के निर्माण का अनुसरण करता है।

प्रो टिप: सुनिश्चित करें कि शिक्षक मॉडल द्वारा उत्पन्न सिंथेटिक डेटा उच्चतम गुणवत्ता का है, क्योंकि यह सीधे छात्र मॉडल के अंतिम प्रदर्शन और सामान्यीकरण क्षमता को प्रभावित करता है।

इस सिंथेटिक डेटा जनरेशन की गुणवत्ता एक महत्वपूर्ण बिंदु है, जो सीधे छात्र मॉडल के प्रदर्शन और सामान्यीकरण करने की क्षमता को प्रभावित करती है। GPT-4o जैसे उन्नत मॉडल, जब चेन ऑफ डेंसिटी (CoD) जैसी पद्धतियों के साथ उपयोग किए जाते हैं, तो आसवन के लिए समृद्ध प्रशिक्षण सामग्री बनाने के लिए अमूल्य हो जाते हैं।

प्रूनिंग और क्वांटाइजेशन: वास्तविक दुनिया के डिप्लॉयमेंट के लिए अनुकूलन

वास्तविक दुनिया के डिप्लॉयमेंट के लिए इष्टतम प्रदर्शन प्राप्त करना अक्सर प्रूनिंग और क्वांटाइजेशन जैसी परिष्कृत मॉडल अनुकूलन तकनीकों पर निर्भर करता है। मॉडल प्रूनिंग रणनीतिक रूप से महत्वपूर्ण सटीकता हानि के बिना अनावश्यक कनेक्शन या न्यूरॉन्स को हटाकर एक न्यूरल नेटवर्क के आकार को कम करती है। इसके परिणामस्वरूप छोटे, अधिक कुशल मॉडल बनते हैं जिन्हें कम मेमोरी और कम्प्यूटेशनल शक्ति की आवश्यकता होती है।

इसी तरह, क्वांटाइजेशन वजन और सक्रियण के लिए संख्यात्मक प्रतिनिधित्व की सटीकता को कम करके मॉडल के आकार को नाटकीय रूप से कम करता है और गणना को गति देता है। 32-बिट फ़्लोटिंग-पॉइंट से 8-बिट पूर्णांक में परिवर्तित करने से भंडारण और बैंडविड्थ में पर्याप्त कमी आती है। ये तकनीकें एज डिवाइस पर या कठोर विलंबता बाधाओं के साथ SLM को डिप्लॉय करने के लिए महत्वपूर्ण हैं।

मुख्य निष्कर्ष: प्रूनिंग और क्वांटाइजेशन बड़े, संसाधन-गहन मॉडल को व्यावहारिक अनुप्रयोगों के लिए कॉम्पैक्ट, तेज़ और डिप्लॉय करने योग्य परिसंपत्तियों में बदलने के लिए आवश्यक हैं।

एक साथ, प्रूनिंग और क्वांटाइजेशन अनुकूलन पाइपलाइन में महत्वपूर्ण बिंदु हैं, जो मॉडल को कम्प्यूटेशनल रूप से सीमित सेटिंग्स में भी प्रभावी ढंग से संचालित करने की अनुमति देते हैं। वे तेजी से अनुमान, कम ऊर्जा खपत और कम परिचालन लागत को सक्षम करते हैं, जिससे व्यावहारिक AI डिप्लॉयमेंट अनुप्रयोगों की एक विस्तृत श्रृंखला के लिए एक वास्तविकता बन जाती है।

THE EVIDENCE

व्यावसायिक मूल्य

Pro Tip: विशिष्ट डोमेन के लिए SLMs को फाइन-ट्यून करें—यह जनरल-पर्पस LLMs से कम संसाधनों में बेहतर सटीकता देता है।

संरचनात्मक लाभ

SLMs अपेक्षाकृत छोटे आकार के बावजूद विशिष्ट आर्किटेक्चर अनुकूलन और लक्षित फाइन-ट्यूनिंग के माध्यम से फ्रंटियर मॉडल से बेहतर प्रदर्शन कर सकते हैं।

परिचालन लाभ: लागत, गति और अनुकूलन

स्मॉल लैंग्वेज मॉडल (SLM) के परिचालन लाभ एक आकर्षक मामला प्रस्तुत करते हैं, विशेष रूप से लागत, गति और अनुकूलन के संदर्भ में। SLM चलाने में उनके फ्रंटियर मॉडल समकक्षों की तुलना में काफी कम अनुमान लागत आती है, जो सीधे व्यवसाय के निचले स्तर को प्रभावित करती है। यह लागत दक्षता परिचालन बजट को बढ़ाए बिना अधिक व्यापक और लगातार डिप्लॉयमेंट की अनुमति देती है।

इसके अलावा, SLM नाटकीय रूप से तेज अनुमान गति प्रदान करते हैं, जो वास्तविक समय के अनुप्रयोगों और प्रतिक्रियाशील उपयोगकर्ता अनुभव के लिए एक महत्वपूर्ण बिंदु है। उनके छोटे पदचिह्न का अर्थ है कम शक्तिशाली हार्डवेयर पर तेजी से प्रसंस्करण, विलंबता को कम करना। यह चपलता उच्च अनुकूलन तक फैली हुई है; SLM अद्वितीय डोमेन आवश्यकताओं के लिए फाइन-ट्यूनिंग के लिए अधिक अनुकूल हैं।

यह बेस्पोक प्रशिक्षण अक्सर लक्षित अनुप्रयोगों के लिए बड़े, सामान्य-उद्देश्य वाले मॉडल की तुलना में बेहतर कार्य-विशिष्ट प्रदर्शन की ओर ले जाता है। कम ऊर्जा खपत भी कम पर्यावरणीय पदचिह्न में योगदान करती है। ये कारक SLM को कुशल और लक्षित AI एकीकरण के लिए एक रणनीतिक विकल्प बनाते हैं।

Fig. 3 — परिचालन लाभ: लागत, गति और अनुकूलन

डिप्लॉयमेंट अर्थशास्त्र: छोटे मॉडल कैसे बड़ी बचत करते हैं

स्मॉल लैंग्वेज मॉडल (SLM) को डिप्लॉय करने के आर्थिक निहितार्थ पर्याप्त हैं, जिसके परिणामस्वरूप महत्वपूर्ण बचत होती है। नाटकीय रूप से कम हार्डवेयर आवश्यकताओं का मतलब है कि SLM को प्रशिक्षण और अनुमान के लिए कम शक्तिशाली GPU और मेमोरी की आवश्यकता होती है। यह सीधे व्यवसायों के लिए पूंजीगत व्यय और स्वामित्व की कुल लागत को कम करता है।

इसके अलावा, SLM क्लाउड कंप्यूटिंग खर्चों में पर्याप्त कमी लाते हैं। व्यवसाय कंप्यूट चक्र, डेटा भंडारण और नेटवर्क बैंडविड्थ पर बचत करते हैं, क्योंकि छोटे मॉडल को कम संसाधनों की आवश्यकता होती है। ये बचत मौलिक रूप से AI डिप्लॉयमेंट अर्थशास्त्र को बदल देती हैं, जिससे अधिक संगठनों के लिए उन्नत क्षमताएं सुलभ हो जाती हैं।

बुनियादी ढांचे से परे, SLM तेजी से पुनरावृति चक्र और बाजार तक पहुंचने के लिए कम समय को बढ़ावा देते हैं। उनका छोटा आकार रखरखाव और अपडेट को सरल बनाता है, परिचालन लागत को कम करता है और चपलता बढ़ाता है। ये डिप्लॉयमेंट अर्थशास्त्र फ्रंटियर मॉडल के निषेधात्मक वित्तीय बोझ के बिना शक्तिशाली AI समाधानों की प्रमुख अवधारणा को रेखांकित करते हैं।

LOOKING AHEAD

रणनीति और अनुप्रयोग

Key Takeaway: लागत दक्षता, कम लेटेंसी, और आसान अनुकूलन SLMs को उत्पादन वातावरण में व्यावहारिक विकल्प बनाते हैं।

लागत-प्रभावशीलता अनुपात

छोटे मॉडल्स का परिचालन 10x कम खर्चीला हो सकता है, जिससे स्टार्टअप्स और उद्यम दोनों के लिए AI डेमोक्रेटाइज़ होता है।

रणनीतिक अनुप्रयोग: जब Phi-4 या Gemma-3 GPT-4 को हराता है

रणनीतिक अनुप्रयोगों में, Phi-4 या Gemma-3 जैसे छोटे, अत्यधिक अनुकूलित मॉडल GPT-4 जैसे सामान्य-उद्देश्य वाले मॉडल को निर्णायक रूप से बेहतर प्रदर्शन कर सकते हैं। यह कच्चे सामान्य बुद्धिमत्ता के बारे में नहीं है, बल्कि एक परिभाषित समस्या के लिए इष्टतम प्रदर्शन के बारे में है। विशेष कार्यों के लिए, SLM को प्रासंगिक डोमेन-विशिष्ट डेटा पर फाइन-ट्यून किया जा सकता है, जिससे बेहतर सटीकता और प्रासंगिकता मिलती है।

एज कंप्यूटिंग या ऑन-डिवाइस अनुमान की आवश्यकता वाले परिदृश्यों पर विचार करें, जहां कम्प्यूटेशनल संसाधन बाधित हैं। यहां, SLM का कॉम्पैक्ट आकार और दक्षता एक महत्वपूर्ण बिंदु है, जो डेटा को स्थानीय रखकर वास्तविक समय प्रसंस्करण और उपयोगकर्ता गोपनीयता को सक्षम करता है। उदाहरणों में वॉयस असिस्टेंट या व्यक्तिगत सिफारिशों के लिए एम्बेडेड सिस्टम शामिल हैं।

इस प्रकार, एक SLM का रणनीतिक अनुप्रयोग दक्षता और अनुकूलन में उसकी अंतर्निहित शक्तियों को उजागर करता है। सही उपकरण चुनना अक्सर सबसे बड़े उपलब्ध मॉडल पर डिफ़ॉल्ट रूप से जाने के बजाय एक उद्देश्य-निर्मित और सटीक रूप से ट्यून किए गए SLM का चयन करना होता है।

Fig. 4 — रणनीतिक अनुप्रयोग: जब Phi-4 या Gemma-3 GPT-4 को हराता है

Pro Tip: जब कार्य सीमित डोमेन के हों और रीयल-टाइम प्रसंस्करण आवश्यक हो, तब Phi-4 या Gemma-3 जैसे मॉडल GPT-4 पर प्राथमिकता दें।

Published by Adiyogi Arts. Explore more at adiyogiarts.com/blog.

WHY IT MATTERS

बेंचमार्क मूल बातें

जबरन नहीं, समझ के साथ: बेंचमार्क सैचुरेशन को समझना

Fig. 1 — जबरन नहीं, समझ के साथ: बेंचमार्क सैचुरेशन को समझना

फ्रंटियर स्केल का घटता प्रतिफल

HOW IT WORKS

तकनीकी विश्लेषण

बेंचमार्क सैचुरेशन क्या है?

इंजीनियरिंग दक्षता: SLM अपनी क्षमता से बढ़कर प्रदर्शन कैसे करते हैं

Fig. 2 — इंजीनियरिंग दक्षता: SLM अपनी क्षमता से बढ़कर प्रदर्शन कैसे करते हैं

सिंथेटिक डेटा के साथ कार्य-विशिष्ट आसवन

प्रूनिंग और क्वांटाइजेशन: वास्तविक दुनिया के डिप्लॉयमेंट के लिए अनुकूलन

THE EVIDENCE

व्यावसायिक मूल्य

संरचनात्मक लाभ

परिचालन लाभ: लागत, गति और अनुकूलन

Fig. 3 — परिचालन लाभ: लागत, गति और अनुकूलन

डिप्लॉयमेंट अर्थशास्त्र: छोटे मॉडल कैसे बड़ी बचत करते हैं

LOOKING AHEAD

रणनीति और अनुप्रयोग

लागत-प्रभावशीलता अनुपात

रणनीतिक अनुप्रयोग: जब Phi-4 या Gemma-3 GPT-4 को हराता है

Fig. 4 — रणनीतिक अनुप्रयोग: जब Phi-4 या Gemma-3 GPT-4 को हराता है

Published by Adiyogi Arts. Explore more at adiyogiarts.com/blog.

Executive Summary

जबरन नहीं, समझ के साथ: बेंचमार्क सैचुरेशन को समझना

फ्रंटियर स्केल का घटता प्रतिफल

बेंचमार्क सैचुरेशन क्या है?

इंजीनियरिंग दक्षता: SLM अपनी क्षमता से बढ़कर प्रदर्शन कैसे करते हैं

सिंथेटिक डेटा के साथ कार्य-विशिष्ट आसवन

प्रूनिंग और क्वांटाइजेशन: वास्तविक दुनिया के डिप्लॉयमेंट के लिए अनुकूलन

संरचनात्मक लाभ

परिचालन लाभ: लागत, गति और अनुकूलन

डिप्लॉयमेंट अर्थशास्त्र: छोटे मॉडल कैसे बड़ी बचत करते हैं

लागत-प्रभावशीलता अनुपात

रणनीतिक अनुप्रयोग: जब Phi-4 या Gemma-3 GPT-4 को हराता है

Responses (0)

Related stories

डीपसीक स्पार्स अटेंशन: 1 मिलियन+ टोकन, आधी हुई लागतों का स्पष्टीकरण

एआई के साथ सॉफ्टवेयर इंजीनियरिंग का विकास

एआई एजेंट कैसे काम करते हैं: एक शुरुआती मार्गदर्शिका

गेटेड अटेंशन: सॉफ्टमैक्स की एआई चुनौतियों को सुलझाना

Executive Summary

जबरन नहीं, समझ के साथ: बेंचमार्क सैचुरेशन को समझना

फ्रंटियर स्केल का घटता प्रतिफल

बेंचमार्क सैचुरेशन क्या है?

इंजीनियरिंग दक्षता: SLM अपनी क्षमता से बढ़कर प्रदर्शन कैसे करते हैं

सिंथेटिक डेटा के साथ कार्य-विशिष्ट आसवन

प्रूनिंग और क्वांटाइजेशन: वास्तविक दुनिया के डिप्लॉयमेंट के लिए अनुकूलन

संरचनात्मक लाभ

परिचालन लाभ: लागत, गति और अनुकूलन

डिप्लॉयमेंट अर्थशास्त्र: छोटे मॉडल कैसे बड़ी बचत करते हैं

लागत-प्रभावशीलता अनुपात

रणनीतिक अनुप्रयोग: जब Phi-4 या Gemma-3 GPT-4 को हराता है

Responses (0)

Related stories

डीपसीक स्पार्स अटेंशन: 1 मिलियन+ टोकन, आधी हुई लागतों का स्पष्टीकरण

एआई के साथ सॉफ्टवेयर इंजीनियरिंग का विकास

एआई एजेंट कैसे काम करते हैं: एक शुरुआती मार्गदर्शिका

गेटेड अटेंशन: सॉफ्टमैक्स की एआई चुनौतियों को सुलझाना