लेनोवो एलएलएम साइझिंग कॉम्प्रिहेन्सिव्ह फ्रेमवर्क वापरकर्ता मार्गदर्शक

लेनोवो एलएलएम आकारमान मार्गदर्शक
नियोजन / अंमलबजावणी

सामग्री लपवा

1 एलएलएम आकारमान व्यापक फ्रेमवर्क

2 अंगठ्याचा नियम

3 गोळा करण्याच्या आवश्यकता

4 तांत्रिक सराव: एलएलएम समजून घेणे

5 एलएलएम अनुमान मापन मेट्रिक्स

6 बेंचमार्क समजून घेणे

7 मालकीची एकूण किंमत: क्लाउड विरुद्ध ऑन-प्रीम

8 अतिरिक्त माहिती – आकारमानासाठी आलेख वाचणे

9 संबंधित उत्पादन कुटुंबे

10 कागदपत्रे / संसाधने

10.1 संदर्भ

एलएलएम आकारमान व्यापक फ्रेमवर्क

मोठ्या भाषा मॉडेल्स (LLMs) ने नैसर्गिक भाषा प्रक्रियेच्या क्षेत्रात क्रांती घडवून आणली आहे, ज्यामुळे मजकूर निर्मिती, भावना विश्लेषण आणि भाषा भाषांतर यासारख्या अनुप्रयोगांना सक्षम केले आहे. तथापि, ही मॉडेल्स चालवण्यासाठी संगणकीय आवश्यकता मोठ्या प्रमाणात असू शकतात, ज्यामुळे समाधान आर्किटेक्ट्सना त्यांच्या ग्राहकांच्या गरजा पूर्ण करणाऱ्या प्रणाली डिझाइन आणि कॉन्फिगर करणे आव्हानात्मक बनते.
या आव्हानाला तोंड देण्यासाठी, हे LLM आकारमान मार्गदर्शक तुम्हाला LLM कसे काम करतात, त्यांच्या संगणकीय आवश्यकता आणि त्यांच्या कामगिरीवर परिणाम करणारे प्रमुख घटक याबद्दल सर्वसमावेशक समज प्रदान करण्यासाठी डिझाइन केले आहे. या मार्गदर्शकाचे उद्दिष्ट तुम्हाला ग्राहकांच्या गरजा मूल्यांकन करण्यासाठी, सक्षम प्रणाली डिझाइन करण्यासाठी आणि यशस्वी LLM तैनाती जलद आणि अचूकपणे प्रदान करण्यासाठी आवश्यक असलेले ज्ञान आणि साधने प्रदान करणे आहे.

मार्गदर्शक, ज्यापासून प्रेरणा घेतली NVIDIA चे LLM इन्फरन्स साइझिंग, मध्ये अनुमान आणि प्रशिक्षण/फाइन-ट्यूनिंगसाठी GPU मेमरी आवश्यकतांचा अंदाज लावण्याचे नियम, ग्राहकांकडून आवश्यकता गोळा करणे, बेंचमार्क आणि कामगिरी मेट्रिक्स समजून घेणे आणि मालकीची एकूण किंमत अंदाजे करणे यासारख्या महत्त्वाच्या विषयांचा समावेश असेल. या मार्गदर्शकाचे अनुसरण करून, तुम्ही LLM च्या जटिल लँडस्केपमध्ये नेव्हिगेट करण्यास आणि त्यांच्या ग्राहकांना त्यांच्या विशिष्ट गरजा पूर्ण करणारे ऑप्टिमाइझ केलेले उपाय प्रदान करण्यास सक्षम असाल.
या मार्गदर्शकामध्ये, आम्ही व्यावहारिक उदाहरणे देऊampविविध LLM परिस्थितींसाठी संगणकीय आवश्यकतांचा अंदाज लावण्यासाठी सोल्यूशन आर्किटेक्ट्सना मदत करण्यासाठी लेस, सूत्रे आणि मार्गदर्शक तत्त्वे. मॉडेल, क्वांटायझेशन, टोकन आकार आणि विलंब आवश्यकता यासारख्या ग्राहकांच्या आवश्यकता समजून घेण्याचे महत्त्व आणि हे घटक सिस्टम डिझाइन आणि कार्यक्षमतेवर कसा परिणाम करतात यावर देखील आपण चर्चा करू.
पुढील भागात, आपण GPU मेमरी आवश्यकतांचा अंदाज घेण्यासाठी "रूल ऑफ थंब" सादर करू, ज्याची सुरुवात अनुमानापासून होईल. हे तुम्हाला उत्पादन वातावरणात LLM चालवण्यासाठी किमान GPU मेमरी गरजांचा अंदाज लावण्याचा एक सोपा आणि प्रभावी मार्ग प्रदान करेल.

अंगठ्याचा नियम

रुल ऑफ थंब लार्ज लँग्वेज मॉडेल्स (LLM) चालवण्यासाठी संगणकीय आवश्यकतांचा अंदाज घेण्यासाठी एक सरलीकृत दृष्टिकोन प्रदान करते. हा विभाग GPU मेमरी आवश्यकतांवर परिणाम करणारे प्रमुख घटकांची रूपरेषा देतो आणि अनुमान आणि फाइन-ट्यूनिंग/प्रशिक्षणासाठी किमान मेमरी गरजांचा जलद अंदाज घेण्यासाठी सूत्रे प्रदान करतो.

अनुमान काढणे
इन्फरन्सिंग म्हणजे प्रशिक्षित एलएलएम वापरून मजकूर तयार करण्याची किंवा नवीन, न पाहिलेल्या डेटावर भाकित करण्याची प्रक्रिया. इन्फरन्सिंगसाठी किमान GPU मेमरी आवश्यकतेचा अंदाज घेण्यासाठी, आपण हे करू शकतो खालील सूत्र वापरा.:
एम = पी * झेड * १.२

कुठे:

M = गीगाबाइट्समध्ये व्यक्त केलेली GPU मेमरी

P = अब्जावधींमध्ये मॉडेल (पॅरामीटर) आकार
Z = बाइट्समध्ये क्वांटायझेशन फॅक्टर (१ बाइट = ८ बिट्स) - खाली पहा

१.२ = GPU मेमरीमध्ये अतिरिक्त डेटा लोड करण्यासाठी २०% ओव्हरहेड दर्शवते.

वापरलेल्या अचूकतेनुसार क्वांटायझेशन फॅक्टर Z बदलतो:

INT4: = ०.५
एफपी८/आयएनटी८: = १

एफपी१६: = २
एफपी१६: = २

उदाampतर, १६-बिट क्वांटायझेशन (FP3.1) वर ७० अब्ज पॅरामीटर्ससह लामा ३.१ चालवण्यासाठी किमान GPU मेमरी आवश्यकतेचा अंदाज घेण्यासाठी, आपण खालीलप्रमाणे मूल्ये प्लग इन करू शकतो:
एम = ७० * २ * १.२ = १६८ जीबी

हे सूत्र अनुमान काढण्यासाठी किमान GPU मेमरी आवश्यकता अंदाजित करण्याचा एक जलद आणि सोपा मार्ग प्रदान करते, ज्यामुळे सोल्यूशन आर्किटेक्ट्सना त्यांच्या ग्राहकांच्या गरजा पूर्ण करणाऱ्या सिस्टम डिझाइन करण्याची परवानगी मिळते.

फाइन-ट्यूनिंग/प्रशिक्षण
लार्ज लँग्वेज मॉडेल (LLM) ला फाइन-ट्यूनिंग किंवा प्रशिक्षण देण्यासाठी अनुमानापेक्षा बरीच जास्त संगणकीय संसाधने आवश्यक असतात. फाइन-ट्यूनिंग/प्रशिक्षणासाठी किमान GPU मेमरी आवश्यकता खालील सूत्र वापरून अंदाजित केली जाऊ शकते:
एकूण = (Z + 12 + Z) बाइट्स/पॅरामीटर = P (2Z+12) GB मेमरी आवश्यक आहे
कुठे:

P = मॉडेल (पॅरामीटर) आकार अब्जावधींमध्ये
Z = बाइट्समध्ये परिमाणीकरण घटक (१ बाइट = ८ बिट्स)

तथापि, हे सूत्र एक अत्यंत अंदाज प्रदान करते, कारण ते गृहीत धरते की पूर्ण मॉडेल पॅरामीटर्स, ऑप्टिमायझर स्थिती आणि ग्रेडियंट मेमरीमध्ये संग्रहित आहेत. सराव मध्ये, तंत्रे जसे की कमी-श्रेणी अनुकूलन (LoRA) आणि परिमाणित LoRA (QLORA) मेमरीच्या गरजा मोठ्या प्रमाणात कमी करू शकतात.
तुम्हाला चांगली कल्पना देण्यासाठी, वेगवेगळ्या पद्धती आणि अचूकता वापरून LLMs फाइन-ट्यूनिंगसाठी काही अंदाजे GPU मेमरी आवश्यकता येथे आहेत:

तक्ता 1. VRAM आवश्यकतांची तुलना वेगवेगळ्या मॉडेल आकारांसाठी आणि फाइन-ट्यूनिंग तंत्रांसाठी

पद्धत	सुस्पष्टता	7B	13B	30B	70B	110B
पूर्ण	16	67GB	125GB	288GB	672GB	1056GB
लोरा	16	15GB	28GB	63GB	146GB	229GB
क्यूएलओआरए	8	9GB	17GB	38GB	88GB	138GB
क्यूएलओआरए	4	5GB	9GB	20GB	46GB	72GB

तुम्ही बघू शकता की, LoRA किंवा QLoRA वापरल्याने संपूर्ण फाइन-ट्यूनिंग पद्धतीच्या तुलनेत मेमरीची आवश्यकता ७५-९०% कमी होऊ शकते. कारण या तंत्रांमध्ये फक्त अनुकूलित पॅरामीटर्स साठवले जातात, संपूर्ण मॉडेल नाही, ज्यामुळे मेमरीची लक्षणीय बचत होते.
एलएलएमच्या फाइन-ट्यूनिंग/प्रशिक्षणासाठी सिस्टम डिझाइन करताना, सिस्टम आवश्यक संगणकीय संसाधने पूर्ण करते याची खात्री करण्यासाठी वापरलेली विशिष्ट पद्धत आणि अचूकता तसेच मॉडेल आकार विचारात घेणे महत्वाचे आहे. LoRA किंवा QLoRA सारख्या तंत्रांचा वापर करून, सोल्यूशन आर्किटेक्ट त्यांच्या ग्राहकांच्या गरजा पूर्ण करणाऱ्या अधिक कार्यक्षम आणि किफायतशीर सिस्टम डिझाइन करू शकतात.

गोळा करण्याच्या आवश्यकता

लार्ज लँग्वेज मॉडेल (LLM) तैनातीसाठी आवश्यक सिस्टम कॉन्फिगरेशन अचूकपणे निश्चित करण्यासाठी, ग्राहकांकडून विशिष्ट आवश्यकता गोळा करणे महत्वाचे आहे. या आवश्यकता अनुमान कामगिरीचा अंदाज घेण्यास आणि सिस्टम इच्छित उद्दिष्टे पूर्ण करते याची खात्री करण्यास मदत करतील.

अनुमान कामगिरीचा अंदाज लावण्यापूर्वी खालील पाच माहिती गोळा करावी:
१. मॉडेल निवड:
या प्रकल्पात वापरण्यासाठी असलेले LLM मॉडेल ओळखा. मॉडेलचा आकार विशेषतः अनुमान कामगिरीवर परिणाम करतो, मोठे मॉडेल हळू आणि अधिक महाग असतात. लक्षात ठेवा की लहान मॉडेल्समध्ये अनुमान खर्च कमी करताना विशिष्ट कार्यांसाठी उत्कृष्ट गुणवत्ता असू शकते. म्हणून, लहान मॉडेल्सचा देखील शोध घेण्याची शिफारस केली जाते. निवडलेल्या मॉडेलची वैशिष्ट्ये समजून घेतल्याने आवश्यक संगणकीय संसाधनांचा अंदाज घेण्यास मदत होईल.
एलएलएम वापराच्या बाबतीत आवश्यकता गोळा करताना, इनपुट टोकन लांबीचा विचार करणे अत्यंत आवश्यक आहे, जे मॉडेलचे कार्यप्रदर्शन निश्चित करण्यासाठी एक घटक आहे. इनपुट आणि आउटपुट टोकनची बेरीज म्हणून परिभाषित केलेली संदर्भ विंडो या प्रक्रियेत महत्त्वपूर्ण भूमिका बजावते. लामा 3.1 सारखे नवीन मॉडेल 128,000 टोकन पर्यंतच्या मोठ्या संदर्भ विंडोला समर्थन देतात.

२. इनपुट टोकन:
एलएलएमच्या प्रॉम्प्टमध्ये टोकनची सरासरी संख्या निश्चित करा, ज्यामध्ये हे समाविष्ट आहे:

सिस्टम प्रॉम्प्ट

संदर्भ
वापरकर्ता प्रॉम्प्ट

इंग्रजी भाषेच्या मॉडेल्ससाठी, एक टोकन म्हणजे एका शब्दाच्या अंदाजे ०.७५ असते. टोकन संख्येमध्ये सिस्टम प्रॉम्प्ट आणि संदर्भ समाविष्ट केल्याने कामगिरीचा अंदाज लावताना संपूर्ण इनपुट क्रम विचारात घेतला जातो याची खात्री होते.
इनपुट टोकन संख्या अचूकपणे मोजण्यासाठी, त्यात योगदान देणारे सर्व घटक समाविष्ट करा, जसे की सिस्टम प्रॉम्प्ट (कस्टम सूचना), पुनर्प्राप्त केलेले दस्तऐवज (पुनर्प्राप्ती संवर्धित जनरेशन पाइपलाइनमध्ये), आणि चॅट इतिहास (मागील संभाषण देवाणघेवाण). या प्रत्येक घटकाची गणना मॉडेलमध्ये पास करता येणाऱ्या टोकनच्या कमाल बजेटमध्ये होते.
शब्द एम्बेडिंगमध्ये रूपांतरित होतात आणि KV कॅशे चौकोनी पद्धतीने वाढतो म्हणून मोठ्या इनपुट लांबीमुळे अनुमान कामगिरीवर परिणाम होऊ शकतो. RAG पाइपलाइनसारख्या अनुप्रयोगांना मोठ्या इनपुट लांबीची आवश्यकता असू शकते, परिणामी मोठ्या प्रमाणात डेटा प्रक्रिया केल्यामुळे फर्स्ट-टोकन लेटन्सी वाढते.
या पेपरमध्ये आपण टोकन्स आणि त्यांचा विलंबांवर होणारा परिणाम याबद्दल अधिक खोलवर जाणून घेऊ, एलएलएमच्या कामगिरीवर त्यांचा कसा परिणाम होतो आणि इष्टतम मॉडेल ऑपरेशनसाठी कोणत्या बाबी आवश्यक आहेत याचा शोध घेऊ.

३. आउटपुट टोकन:
एलएलएम आउटपुटमध्ये टोकनची सरासरी संख्या निश्चित करा. हे आवश्यक आहे कारण अधिक टोकन तयार करण्यासाठी अधिक संगणकीय संसाधने आणि वेळ लागतो. अपेक्षित आउटपुट आकार समजून घेतल्यास अशी प्रणाली तयार करण्यात मदत होईल जी विलंब किंवा गुणवत्तेशी तडजोड न करता आवश्यक थ्रूपुट हाताळू शकेल.

४. प्रति सेकंद सरासरी विनंत्या (RPS):
इष्टतम कामगिरी आणि कार्यक्षम संसाधन वापर सुनिश्चित करण्यासाठी, सिस्टमने प्रति सेकंद किती विनंत्या प्रक्रिया कराव्यात हे निश्चित करा. ऑन-प्रिमाइसेस तैनातींसाठी आकार बदलताना, सरासरी वापरापेक्षा पीक वापरावर गणना करणे महत्वाचे आहे.
विनंती नमुन्यांमधील परिवर्तनशीलतेचा हिशेब देण्यासाठी, आम्ही सरासरी RPS (प्रति सेकंद विनंत्या) च्या पॉयसन PPF (पॉइंट संभाव्यता फंक्शन) च्या 95 व्या पर्सेंटाइलचा वापर करतो. हा दृष्टिकोन जास्तीत जास्त अपेक्षित भार ओळखण्यास मदत करते, ज्यामुळे आम्हाला अशी प्रणाली डिझाइन करण्याची परवानगी मिळते जी नॉन-पीक कालावधीत कमी वापर न करता पीक मागणी हाताळू शकते.
या प्रक्रियेमध्ये ग्राहकांकडून सरासरी विनंती दर मिळवणे आणि पॉयसन वितरणाच्या 95 व्या टक्केवारीचा वापर करून पीक रिक्वेस्ट रेटची गणना करणे समाविष्ट आहे. ही पद्धत सिस्टमच्या आवश्यकतांचे अधिक अचूक प्रतिनिधित्व प्रदान करते, कारण ती विनंती नमुन्यांमधील नैसर्गिक परिवर्तनशीलता विचारात घेते. हे लक्षात घेणे विशेषतः महत्वाचे आहे की जर सिस्टम पीक क्षमतेवर चालत नसेल, तर प्रति टोकन प्रभावी खर्च लक्षणीयरीत्या वाढू शकतो.

५. विलंब आवश्यकता:
ग्राहकाची विलंबाची उद्दिष्टे आणि मर्यादा समजून घ्या, ज्यात हे समाविष्ट आहे:

फर्स्ट-टोकन लेटन्सी: मॉडेलला प्रतिसादाचे पहिले टोकन जनरेट करण्यासाठी लागणारा वेळ.
शेवटचा टोकन विलंब: संपूर्ण प्रतिसाद निर्माण करण्यासाठी मॉडेलला लागणारा एकूण वेळ.

अनेक अनुप्रयोगांमध्ये विलंब हा एक महत्त्वाचा घटक आहे, कारण उच्च विलंब वापरकर्त्याच्या अनुभवावर नकारात्मक परिणाम करू शकतो. कमी फर्स्ट-टोकन विलंब (TTFT) वर बंधने आणल्याने मोठ्या प्रमाणात नुकसान होईल.amper थ्रूपुट, म्हणजे एकाच वेळी अनेक विनंत्या प्रक्रिया करण्याची सिस्टमची क्षमता धोक्यात येईल.
म्हणून, ग्राहकांच्या विशिष्ट आवश्यकतांनुसार विलंब आणि थ्रूपुट यांच्यात संतुलन राखणे आवश्यक आहे.
अनुमान कामगिरीचा अंदाज घेण्यासाठी, सिस्टमचा आकार बदलण्यासाठी आणि ग्राहकांच्या अपेक्षा पूर्ण करण्यासाठी या आवश्यकता महत्त्वाच्या आहेत. ही माहिती गोळा करून, तुम्ही ग्राहकांच्या गरजा चांगल्या प्रकारे समजून घेऊ शकाल आणि कार्यक्षमता, किंमत आणि गुणवत्ता संतुलित करणारी योग्य सिस्टम कॉन्फिगरेशन डिझाइन करू शकाल. पुढील विभागांमध्ये, आपण यापैकी काही आवश्यकतांचा सखोल अभ्यास करू आणि त्यांचा LLM तैनातीवर कसा परिणाम होतो ते पाहू.

तांत्रिक सराव: एलएलएम समजून घेणे

या विभागात, आपण मोठ्या भाषा मॉडेल्स (LLMs) च्या तांत्रिक पैलूंमध्ये खोलवर जाऊन त्यांच्या गुंतागुंतीच्या कार्यपद्धतींचा शोध घेऊ. आपण s चा तपास करूtagएलएलएम अंमलबजावणीचे ज्ञान, प्रमुख मापन मेट्रिक्स समजून घेणे आणि अनुमान काढण्यास गती देणाऱ्या तंत्रांचा विचार करणे.

दोन एसtagएलएलएम एक्झिक्युशनचे मुद्दे: प्रीफिल विरुद्ध डिकोडिंग
लार्ज लँग्वेज मॉडेल्स (LLMs) ही जटिल प्रणाली आहेत ज्यात अनेक भाषांचा समावेश असतोtagमानवी मजकूर प्रतिसाद निर्माण करण्यासाठी प्रक्रिया करण्याचे तंत्र. या गोष्टी समजून घेणेtages कामगिरी ऑप्टिमाइझ करण्यासाठी, विलंब कमी करण्यासाठी आणि एकूण वापरकर्ता अनुभव सुधारण्यासाठी उपयुक्त आहे. या विभागात, आपण दोन प्राथमिकtagएलएलएम अंमलबजावणीचे निकष: प्रीफिल आणि डिकोडिंग.

प्रीफिल एसtage
प्रीफिलtage म्हणजे LLM ला वापरकर्त्याच्या इनपुट प्रॉम्प्टवर प्रक्रिया करण्यासाठी आणि पहिले आउटपुट टोकन जनरेट करण्यासाठी लागणारा वेळ, जो अंदाजे शब्दाच्या समतुल्य असतो. हेtage मध्ये खालील पायऱ्यांचा समावेश आहे:

वापरकर्ता प्रॉम्प्ट लोड करणे: वापरकर्त्याचे इनपुट प्राप्त केले जाते आणि सिस्टममध्ये लोड केले जाते.
केव्ही-कॅशे भरणे: या दरम्यानtage, LLM त्याच्या की-व्हॅल्यू (KV) कॅशेमध्ये इनपुट टोकन्समधील माहिती भरते. हे कॅशे संबंधित संदर्भ-विशिष्ट डेटा संग्रहित करण्यासाठी आणि पुनर्प्राप्त करण्यासाठी वापरले जाते.
पहिल्या टोकनसाठी रिसेप्शनची विनंती करा: एलएलएमला इनपुट प्रॉम्प्टवर प्रक्रिया करण्यासाठी आणि पहिले आउटपुट टोकन जनरेट करण्यासाठी लागणारा वेळ.

प्रीफिलtage हे प्रामुख्याने संगणकीयदृष्ट्या बांधलेले आहे, म्हणजेच त्याची कामगिरी मोठ्या प्रमाणात उपलब्ध संगणकीय संसाधनांवर अवलंबून असते. हे पूर्ण करण्यासाठी लागणारा वेळtage फक्त इनपुट टोकनच्या संख्येवर अवलंबून असते, ज्यामुळे ती एक अंदाजे आणि सुसंगत प्रक्रिया बनते.

डीकोडिंग एसtage
डीकोडिंगtage, ज्याला जनरेशन किंवा एक्सपेंशन असेही म्हणतात, ते म्हणजे LLM एकामागून एक प्रतिसाद टोकन तयार करते, प्रीफिल दरम्यान उत्पादित केलेल्या प्रारंभिक आउटपुट टोकनवर आधारित.tage या एसtagई मध्ये समाविष्ट आहे:

इंटर-टोकन लेटन्सी: पहिल्या टोकननंतर प्रत्येक पुढील टोकन जनरेट करण्यासाठी लागणारा वेळ.
टोकन-दर-टोकन जनरेशन: प्रीफिल दरम्यान गोळा केलेल्या संदर्भ आणि माहितीचा वापर करून, एलएलएम शब्द-दर-शब्द प्रतिसाद टोकन तयार करते.tage.
इनपुट आणि आउटपुट टोकनवरील अवलंबित्व: इंटर-टोकन लेटन्सी इनपुट टोकनची संख्या आणि जनरेट होणाऱ्या आउटपुट टोकनची संख्या या दोन्हीवर अवलंबून असते.

प्रीफिलच्या उलटtage, डिकोडिंग सामान्यतः मेमरी-बाउंड असते, म्हणजेच त्याची कार्यक्षमता मेमरी संसाधनांच्या उपलब्धतेमुळे मोठ्या प्रमाणात प्रभावित होते. LLM अधिक टोकन जनरेट करत असल्याने, वाढत्या संदर्भाचे संचय आणि व्यवस्थापन करण्यासाठी त्याला अधिक मेमरी आवश्यक असते, ज्यामुळे विलंब वाढू शकतो.

एलएलएम अनुमान मापन मेट्रिक्स

मोठ्या भाषा मॉडेल्स (LLMs) च्या कामगिरीचे मूल्यांकन करताना, अनुमान गती मोजण्यासाठी अनेक प्रमुख मेट्रिक्स वापरले जातात. यामध्ये हे समाविष्ट आहे:

पहिल्या टोकनसाठी लागणारा वेळ (TTFT): इनपुटवर प्रक्रिया करण्यासाठी आणि पहिले टोकन जनरेट करण्यासाठी लागणारा वेळ.

इंटर-टोकन लेटन्सी (ITL): पहिल्या टोकननंतर प्रत्येक पुढील टोकन जनरेट करण्यासाठी लागणारा वेळ, ज्याला टाइम पर आउटपुट टोकन (TPOT) असेही म्हणतात.
एंड-टू-एंड लेटन्सी (E2E): प्रॉम्प्टवर प्रक्रिया करण्यासाठी आणि इनपुटपासून आउटपुटपर्यंत सर्व टोकन जनरेट करण्यासाठी लागणारा एकूण वेळ.

हे मेट्रिक्स मॉडेलच्या कामगिरीबद्दल अंतर्दृष्टी प्रदान करतात, अडथळे ओळखण्यास आणि अनुमान गती ऑप्टिमाइझ करण्यास मदत करतात.

इनफ्लाइट बॅचिंग
इनफ्लाइट बॅचिंग (IFB) ही एक विशेष तंत्र आहे जी लार्ज लँग्वेज मॉडेल (LLM) अनुमानादरम्यान वापरली जाते जी GPU मेमरी आणि संगणकीय वापर यांच्यात संतुलन साधते, ज्यामुळे शेवटी विलंब कमी होतो. ही पद्धत विशेषतः ऑटो-रिग्रेसिव्ह अनुमानात प्रभावी आहे, जिथे LLM अनुक्रमे टोकन जनरेट करते, पुढील टोकन तयार करण्यासाठी पूर्वी जनरेट केलेल्या टोकनवर अवलंबून असते.
IFB विविध s वर अनुक्रमांना परवानगी देतोtagसर्व विनंत्या पूर्ण होण्याची वाट न पाहता नवीन विनंत्या सादर न करता एकाच बॅचमध्ये प्रक्रिया करण्यासाठी es (प्रीफिल आणि डीकोडिंग दोन्ही). या दृष्टिकोनातून अनेक प्रमुख फायदे मिळतात:

स्थिर बॅच आकार: IFB प्रत्येक टोकन जनरेशनसाठी जवळजवळ स्थिर बॅच आकार सक्षम करते, ज्यामुळे GPU वापर जास्त होतो.
जलद अंमलबजावणी सुरू होते: स्लॉट उपलब्ध झाल्यावर नवीन विनंत्या अधिक जलद अंमलबजावणी सुरू करू शकतात, कारण शेड्यूलर सध्याच्या विनंत्या पूर्ण होण्याऐवजी फक्त पुढील टोकनच्या निर्मितीची वाट पाहतो.

टेन्सरआरटी-एलएलएम एलएलएम सर्व्हिंग दरम्यान GPU वापर ऑप्टिमाइझ करण्यासाठी कस्टम इनफ्लाइट बॅचिंग समाविष्ट करते. हे वैशिष्ट्य:

बॅचमधील पूर्ण झालेल्या विनंत्या बदलते.
एंड-ऑफ-सिक्वेन्स (EoS) मार्कर नंतर विनंत्या काढून टाकते आणि नवीन विनंत्या समाविष्ट करते.

थ्रूपुट, पहिल्या टोकनचा वेळ आणि एकूण GPU वापर सुधारते.

शिवाय, IFB हे TensorRT-LLM Triton बॅकएंडमध्ये अखंडपणे एकत्रित केले आहे आणि TensorRT-LLM बॅच मॅनेजरद्वारे व्यवस्थापित केले जाऊ शकते. मेमरी-बाउंड आणि कॉम्प्युट-बाउंड ऑपरेशन्स, चंक्ड डिकोडिंग, सट्टेबाजी डिकोडिंग आणि स्पॅरसिटी यासारख्या इतर तंत्रांसह एकत्रित केल्यावर, IFB LLM चे थ्रूपुट वाढवते, ज्यामुळे ते एक कार्यक्षम एलएलएम अनुमानासाठी अपरिहार्य साधन.

टेन्सर समांतरता
टेन्सर पॅरॅलिझम (TP) ही एक तंत्र आहे जी लार्ज लँग्वेज मॉडेल (LLM) इन्फरन्समध्ये अनेक GPU मध्ये संगणकीय भार वितरित करण्यासाठी वापरली जाते. या पद्धतीमध्ये एका मॉडेलला अनेक GPU मध्ये विभाजित करणे समाविष्ट आहे, जे या GPU मधील कार्यक्षम डेटा एक्सचेंजवर मोठ्या प्रमाणात अवलंबून असते. TP विशेषतः मोठ्या मॉडेल्ससाठी फायदेशीर आहे जिथे मेमरी आवश्यकता एकाच GPU च्या क्षमतेपेक्षा जास्त असते.

टेन्सर समांतरतेची प्रमुख वैशिष्ट्ये:

कमी विलंब पण कमी थ्रूपुट: TP समांतर संगणन करून विलंब कमी करू शकते, परंतु आंतर-GPU संप्रेषणाशी संबंधित ओव्हरहेडमुळे एकूण थ्रूपुट कमी होऊ शकते.

मोठ्या मॉडेल्ससाठी आवश्यकता: LLaMa-70B सारख्या मोठ्या मॉडेल्ससाठी, किमान 2 (TP >= 2) ची टेन्सर समांतरता आवश्यक आहे. हे सुनिश्चित करते की उपलब्ध मेमरी आणि संगणकीय संसाधनांमध्ये बसण्यासाठी मॉडेलला अनेक GPU मध्ये पुरेसे विभाजित केले जाऊ शकते.
NVLink-सक्षम सर्व्हरसाठी शिफारस: जेव्हा TP 2 पेक्षा जास्त असतो, तेव्हा NVIDIA अनुमानासाठी NVLink-सक्षम सर्व्हर वापरण्याची जोरदार शिफारस करते. NVLink एक उच्च-बँडविड्थ, कमी विलंब इंटरकनेक्ट प्रदान करते जे पारंपारिक PCIe कनेक्शनच्या तुलनेत GPU मधील डेटा ट्रान्सफरमध्ये लक्षणीय सुधारणा करते.

बेंचमार्क समजून घेणे

ग्राहकांसाठी आदर्श कॉन्फिगरेशन आकारमान आणि निवडण्यात बेंचमार्क हे केंद्रस्थानी असतात, कारण ते थ्रूपुट, लेटन्सी आणि रिक्वेस्ट रेट यासारख्या प्रमुख मेट्रिक्समधील ट्रेडऑफचे मूल्यांकन करतात. हे बेंचमार्क समजून घेतल्याने लार्ज लँग्वेज मॉडेल (LLM) अनुमानासाठी इष्टतम कॉन्फिगरेशन निश्चित करण्यात मदत होते, ज्यामुळे हार्डवेअर आणि सॉफ्टवेअर आवश्यकतांबद्दल माहितीपूर्ण निर्णय घेता येतात.

थ्रूपुट विरुद्ध लेटन्सी
एलएलएम अनुमानाच्या संदर्भात, थ्रूपुट आणि लेटन्सी यांच्यातील संतुलन साधणे अत्यंत महत्त्वाचे आहे. थ्रूपुट म्हणजे प्रति युनिट वेळेत प्रक्रिया करता येणाऱ्या विनंत्यांची संख्या, तर लेटन्सी म्हणजे सुरुवातीपासून शेवटपर्यंत एकाच विनंतीवर प्रक्रिया करण्यासाठी लागणारा वेळ.

तडजोड:
विलंब मर्यादा आणल्याने उपलब्ध थ्रूपुट कमी होऊ शकतो. उलट, विलंब मर्यादा शिथिल केल्याने खूप जास्त थ्रूपुट मिळू शकते. ग्राहकांच्या वापराची प्रकरणे समजून घेतल्यास इनपुट टोकन, आउटपुट टोकन आणि प्रति युनिट वेळेच्या सरासरी विनंत्यांचा अंदाज मिळतो, ज्यामुळे आवश्यक विलंब राखून आवश्यक थ्रूपुटशी जुळणारे विशिष्ट हार्डवेअर प्रस्तावित करता येते.
थ्रूपुट वाढवण्यासाठी अनेक विनंत्या एकत्र केल्याने विलंब होऊ शकतो, वैयक्तिक विनंत्यांसाठी विलंब वाढू शकतो. LLM अनुमानात दोन टप्पे समाविष्ट आहेत - प्रीफिल (उच्च विलंब, समांतर प्रक्रियेचे फायदे) आणि डीकोड (कमी विलंब, कमी संगणकीय वापर).

व्यावहारिक परिणाम:

उच्च थ्रूपुट: उच्च विनंती व्हॉल्यूमसह मोठ्या प्रमाणात तैनातींसाठी आदर्श.
कमी विलंब: संभाषणात्मक एआय किंवा परस्परसंवादी प्रणालींसारख्या रिअल-टाइम प्रतिसाद अनुप्रयोगांसाठी महत्त्वपूर्ण.

थ्रूपुट-लेटन्सी ट्रेडऑफ समजून घेऊन आणि व्यवस्थापित करून, विशिष्ट अनुप्रयोग आवश्यकता पूर्ण करण्यासाठी LLM इन्फरन्स सिस्टम ऑप्टिमाइझ केले जाऊ शकतात. कस्टम बेंचमार्किंगसाठी, सारखी साधने NVIDIA द्वारे GenAI-Perf एखाद्या विशिष्ट मॉडेलच्या सिस्टमवरील कामगिरीबद्दल मौल्यवान अंतर्दृष्टी प्रदान करू शकते.

बेंचमार्क आलेखांचे स्पष्टीकरण कसे करायचे हे जाणून घेण्यासाठी, या दस्तऐवजाच्या शेवटी असलेला विषय पहा, अतिरिक्त माहिती - आकारमानासाठी आलेख वाचणे.

कमाल बॅच आकार, समवर्ती, विनंती दर आणि थ्रूपुट समजून घेणे
सर्व शब्दजाल हाताळताना थोडे गोंधळ होऊ शकते, म्हणून चला प्रत्येक संकल्पनांचे विश्लेषण करूया जेणेकरून त्यांचे संबंध आणि सिस्टम मूल्यांकनातील महत्त्व स्पष्ट होईल.

कमाल बॅच आकार
max_batch_size पॅरामीटरमध्ये दोन भूमिका आहेत: एक इंजिन बिल्ड दरम्यान आणि दुसरी रनटाइम दरम्यान.

इंजिन बिल्ड: ही सेटिंग खात्री करते की परिणामी प्रणाली, विशिष्ट बॅच आकाराच्या क्षमतेसह, उपलब्ध मेमरीमध्ये बसते. हे मूलतः अंमलबजावणी दरम्यान मेमरी समस्या टाळण्यासाठी क्षमता नियोजनाबद्दल आहे.
रनटाइम: प्रक्रिया करण्यापूर्वी किती विनंत्या एकत्रितपणे बॅच केल्या जाऊ शकतात हे ही सेटिंग ठरवते. रनटाइम max_batch_size हा बिल्ड-टाइम max_batch_size पेक्षा कमी किंवा समान असावा. वास्तविक परिस्थितींमध्ये विनंत्यांची प्रत्यक्ष बॅचिंग या पॅरामीटरने प्रभावित होते, ज्यामुळे कार्यक्षमता आणि कामगिरीवर थेट परिणाम होतो.

बॅच आकार आणि समांतरता

समवर्ती (C) < कमाल बॅच आकार (MBS): जेव्हा समवर्ती विनंत्यांची संख्या कमाल बॅच आकारापेक्षा कमी असते, तेव्हा इंजिन सामान्यतः समवर्ती पातळीइतके आकार असलेल्या बॅचवर प्रक्रिया करते. याचा अर्थ प्रत्येक बॅचमध्ये मोफत स्लॉट उपलब्ध आहेत, कारण बॅचमधील सर्व संभाव्य पदे भरलेली नाहीत.
समांतरता (C) >= कमाल बॅच आकार (MBS): जर समांतरता कमाल बॅच आकाराच्या समान किंवा त्यापेक्षा जास्त असेल, तर बॅचेस सहसा भरलेले असतात, जास्तीत जास्त क्षमतेवर प्रक्रिया करत असतात. येणाऱ्या विनंत्या मागील बॅचेस पूर्ण होण्याची वाट पाहत असल्याने, नवीन विनंत्यांसाठी रांग वाढू लागेल, सरासरी आकार C – MBS असेल.

निकाल मेट्रिक म्हणून समवर्ती आणि विनंती दर
सिस्टम कामगिरीचे सर्वंकष मूल्यांकन करण्यासाठी, विचारात घ्या:

थ्रूपुट: प्रति युनिट वेळेत सिस्टम प्रक्रिया करू शकणाऱ्या विनंत्यांची संख्या.
एंड-टू-एंड लेटन्सी: सुरुवातीपासून शेवटपर्यंत विनंतीवर प्रक्रिया करण्यासाठी लागणारा एकूण वेळ.

समवर्ती: एकाच वेळी हाताळता येणाऱ्या विनंत्यांची संख्या.

उच्च समांतरता आणि उच्च विलंबता असलेली प्रणाली कमी समांतरता परंतु कमी विलंबता असलेल्या प्रणालीइतकीच थ्रूपुट प्राप्त करू शकते. तथापि, नंतरची प्रणाली अधिक कार्यक्षम आहे कारण ती वैयक्तिक विनंत्यांना जलद प्रतिसाद देते.
म्हणून, सिस्टमचे आकार बदलण्यासाठी आणि भागधारकांशी कामगिरीवर चर्चा करण्यासाठी प्राथमिक उपाय म्हणून "प्रति मिनिट विनंत्या" (किंवा तत्सम वेळ-आधारित मेट्रिक) वापरणे संतुलित प्रदान करते view सिस्टम क्षमतेचे. हे समवर्ती आणि विलंब आवश्यकता दोन्हीमध्ये घटक आणण्यास मदत करते, ज्यामुळे सिस्टम कार्यक्षमतेने काय हाताळू शकते याचे स्पष्ट चित्र मिळते.

इनपुट पॅरामीटर म्हणून समवर्ती आणि विनंती दर
अचूक गती मोजण्यासाठी (थ्रूपुट), एका प्रक्रिया चक्रापासून दुसऱ्या प्रक्रियेत स्थिर इंजिन बॅच आकार राखणे अपरिहार्य आहे.

इनपुट म्हणून कॉन्करन्सीचा वापर: हा दृष्टिकोन बॅच आकार सुसंगत राहतो याची खात्री करतो, ज्यामुळे विश्वसनीय मोजमाप मिळते.
इनपुट पॅरामीटर म्हणून रिक्वेस्ट रेट सेट करणे: हे समस्याप्रधान असू शकते कारण जर रिक्वेस्ट रेट सिस्टमच्या थ्रूपुटपेक्षा जास्त असेल तर क्यू सतत वाढत जाईल, ज्यामुळे लेटन्सी वाढत जाईल. उलटपक्षी, सिस्टमच्या थ्रूपुटपेक्षा कमी रिक्वेस्ट रेट सेट केल्याने सर्व उपलब्ध स्लॉट वापरले जात नाहीत, ज्यामुळे कामगिरी कमी होते.

शिफारशी

इनपुट मेट्रिक्स म्हणून टोकन आकारांसह समवर्ती वापरा: हे नियंत्रित प्रयोगांना अनुमती देते जे सिस्टमला त्याच्या मर्यादेपर्यंत ताण देऊ शकतात किंवा हलक्या भाराखाली तिची प्रतिसादक्षमता मोजू शकतात.
रिझल्ट मेट्रिक म्हणून रिक्वेस्ट रेट वापरा: हे सिस्टम दिलेल्या वेळेत प्रत्यक्षात किती रिक्वेस्ट्सवर प्रक्रिया करू शकते याची अंतर्दृष्टी प्रदान करते, ज्यामुळे तिची क्षमता आणि कार्यक्षमता दोन्ही दिसून येते.

या पॅरामीटर्सवर नियंत्रण ठेवून आणि योग्य मेट्रिक्सवर लक्ष केंद्रित करून, एंटरप्रायझेस अधिक कार्यक्षम प्रणाली डिझाइन करू शकतात ज्या थ्रूपुट, विलंब आणि संसाधन वापर प्रभावीपणे संतुलित करतात.

मालकीची एकूण किंमत: क्लाउड विरुद्ध ऑन-प्रीम

आधुनिक व्यवसायांसाठी लार्ज लँग्वेज मॉडेल (LLM) इन्फरन्सिंग तैनात करणे आवश्यक होत आहे. दोन मुख्य पर्याय आहेत: क्लाउड-आधारित आणि ऑन-प्रिमाइस. तुम्हाला माहितीपूर्ण निर्णय घेण्यास मदत करण्यासाठी आम्ही प्रत्येक पर्यायाचे फायदे आणि मर्यादा शोधू.

क्लाउड-आधारित तैनाती
क्लाउड-आधारित तैनाती "पे-अ‍ॅज-यू-गो" मॉडेल देते, जिथे तुम्ही फक्त वापरलेल्या संसाधनांसाठी पैसे देता.
तथापि, विचारात घेण्यासारखे काही तोटे आहेत:

डेटा सुरक्षा: जोपर्यंत एंटरप्राइझ-ग्रेड परवाना खरेदी केला जात नाही तोपर्यंत, तुमचा डेटा भविष्यातील मॉडेल्सना प्रशिक्षित करण्यासाठी वापरला जाऊ शकतो, ज्यामुळे डेटा लीक होण्याची शक्यता असते.

किंमत अनिश्चितता: किंमती बदलू शकतात आणि मॉडेलवर तुमचे नियंत्रण कमी असते, जे कदाचित फाइन-ट्यूनिंग किंवा कस्टमायझेशनला समर्थन देत नाही.
मर्यादित नियंत्रण: प्रॉम्प्टच्या विलंब आणि थ्रूपुटवर तुमचे मर्यादित नियंत्रण असते.

क्लाउड-आधारित तैनाती खर्च सामान्यतः इनपुट आणि आउटपुट टोकनवर आधारित मोजला जातो, ज्यामध्ये प्रति टोकन एक निश्चित किंमत असते. उदा.ampम्हणजे, दहा लाख इनपुट टोकनची किंमत $१५ असू शकते, तर दहा लाख आउटपुट टोकनची किंमत $६० असू शकते.
खर्चाचा अंदाज घेण्यासाठी, तुम्ही कॅल्क्युलेटर वापरू शकता. जे इनपुट आणि आउटपुट टोकनची संख्या विचारात घेते.

ऑन-प्रिमाइस तैनाती
ऑन-प्रिमाइस तैनातीसाठी मोठ्या प्रमाणात आगाऊ गुंतवणूक आवश्यक आहे परंतु अनेक फायदे देते:

पूर्ण नियंत्रण: तुमचे सिस्टमवर पूर्ण नियंत्रण असते, त्यामुळे गरजेनुसार बदल करता येतात.
किफायतशीर: क्षमतेच्या जवळ स्थिर वापरासह, जागेवर तैनाती दीर्घकाळात किफायतशीर ठरू शकते.

सुरक्षा: तुमचा डेटा सुरक्षित आहे आणि तुमचे सिस्टमवर पूर्ण नियंत्रण आहे.

ऑन-प्रिमाइस तैनातीशी संबंधित खर्चामध्ये हे समाविष्ट आहे:

GPU सर्व्हर खरेदी: GPU सर्व्हर खरेदी करण्याची किंमत, जी हार्डवेअर आणि सिस्टमच्या प्रकारानुसार बदलते.

डेटा सेंटरचा खर्च: वीज, भाड्याने जागा, कर्मचारी आणि इतर खर्चाशी संबंधित खर्च.
परवाना शुल्क: कोणत्याही अतिरिक्त सेवांसाठी वार्षिक परवाना शुल्क उदा. NVAIE

प्रति १ दशलक्ष प्रॉम्प्ट (कॉल) ची किंमत शोधण्यासाठी:

कुठे

Z = प्रति १० लाख प्रॉम्प्टची किंमत

C = एका वर्षातील सरासरी एकूण प्रीमियम खर्च
X = सिस्टमवरील प्रति सेकंद प्रॉम्प्ट (थ्रूपुट)

क्लाउड आणि ऑन-प्रिमाइस डिप्लॉयमेंटची तुलना
क्लाउड आणि ऑन-प्रिमाइस डिप्लॉयमेंटमध्ये योग्य तुलना करण्यासाठी, आम्ही असे गृहीत धरतो की:

दोन्ही प्लॅटफॉर्मवर तैनात केलेले मॉडेल गुणवत्तेत समान आहेत.
दोन्ही प्लॅटफॉर्मवर मिळालेला विलंब आणि थ्रूपुट समान आहे.

योग्य तुलना मिळविण्यासाठी आपण प्रति १ दशलक्ष प्रॉम्प्टवरील ऑन-प्रेम खर्चाची प्रति १ दशलक्ष प्रॉम्प्टवरील ऑन-क्लाउड खर्चाशी तुलना करू शकतो. ऑन-प्रेमसाठी प्रति इनपुट टोकन आणि आउटपुट टोकन खर्च देखील शोधू शकतो.

खर्चाचा आढावा
शेवटी, क्लाउड-आधारित आणि ऑन-प्रिमाइस तैनाती पर्यायांचे त्यांचे फायदे आणि मर्यादा आहेत.
क्लाउड-आधारित तैनाती एक लवचिक आणि स्केलेबल उपाय देते परंतु डेटा सुरक्षितता आणि नियंत्रणाशी तडजोड करू शकते. ऑन-प्रिमाइस तैनाती संपूर्ण नियंत्रण आणि सुरक्षा प्रदान करते परंतु त्यासाठी आगाऊ गुंतवणूक आवश्यक असते.
दीर्घकालीन विचार करता, अशा ब्रेक-इव्हन पॉइंटवर पोहोचले जाते जिथे ऑन-क्लाउड उदाहरणांपेक्षा ऑन-प्रिमाइस तैनाती आर्थिकदृष्ट्या अर्थपूर्ण ठरते.

शिफारस
क्लाउड-आधारित आणि ऑन-प्रिमाइस डिप्लॉयमेंट दरम्यान निर्णय घेताना, खालील गोष्टी विचारात घ्या:

डेटा सुरक्षा: जर ती तुमची सर्वोच्च प्राथमिकता असेल, तर ऑन-प्रिमाइस डिप्लॉयमेंट चांगले आहे.

स्केलेबिलिटी: जर तुम्हाला जलद स्केल करायचे असेल, तर क्लाउड-आधारित डिप्लॉयमेंट अधिक योग्य असू शकते.
बजेट: जर बजेट ही चिंतेची बाब असेल, तर ऑन-प्रिमाइस तैनाती दीर्घकाळात किफायतशीर ठरू शकते.

शेवटी, निर्णय तुमच्या विशिष्ट गरजा आणि प्राधान्यांवर अवलंबून असतो.

निष्कर्ष
शेवटी, लार्ज लँग्वेज मॉडेल (LLM) डिप्लॉयमेंटसाठी सिस्टम डिझाइन करताना कामगिरी आणि संगणकीय आवश्यकतांचा अचूक अंदाज घेणे अत्यंत महत्त्वाचे आहे. हे साध्य करण्यासाठी, ग्राहकांकडून मॉडेल निवड, इनपुट टोकन लांबी, क्वांटायझेशन आणि लेटन्सी गरजा यासारख्या विशिष्ट आवश्यकता गोळा करा. GPU मेमरी आवश्यकतांचा अंदाज लावण्यासाठी "रूल ऑफ थंब" सारखी प्रदान केलेली सूत्रे आणि मार्गदर्शक तत्त्वे, ग्राहकांच्या मागण्या पूर्ण करणाऱ्या सक्षम सिस्टमचे जलद मूल्यांकन आणि डिझाइन करण्यासाठी सोल्यूशन आर्किटेक्ट्ससाठी मौल्यवान साधने म्हणून काम करतात.
मॉडेल आकार, अचूकता आणि क्वांटायझेशन यासारख्या प्रमुख घटकांचा विचार करून, तुम्ही कार्यक्षमता आणि खर्च संतुलित करण्यासाठी सिस्टम कॉन्फिगरेशन ऑप्टिमाइझ करू शकता. याव्यतिरिक्त, लो-रँक अॅडॉप्टेशन (LoRA) आणि क्वांटाइज्ड LoRA (QLoRA) सारख्या तंत्रांमुळे फाइन-ट्यूनिंग आणि प्रशिक्षणादरम्यान मेमरी आवश्यकता आमूलाग्र कमी होऊ शकतात, ज्यामुळे अधिक कार्यक्षम आणि किफायतशीर उपाय शक्य होतात.
हे एलएलएम इन्फरन्स साइझिंग गाइड एलएलएमच्या जटिल लँडस्केपमध्ये नेव्हिगेट करण्यासाठी, यशस्वी तैनाती देण्यासाठी आणि त्यांच्या ग्राहकांच्या अद्वितीय गरजा पूर्ण करणारे अनुकूलित उपाय प्रदान करण्यासाठी आवश्यक असलेले ज्ञान आणि कौशल्य प्रदान करते. या मार्गदर्शक तत्त्वांचे आणि सर्वोत्तम पद्धतींचे पालन करून, तुम्ही नैसर्गिक भाषा प्रक्रियेच्या वेगाने विकसित होणाऱ्या क्षेत्रात इष्टतम कामगिरी सुनिश्चित करू शकता, खर्च कमी करू शकता आणि व्यवसाय यश मिळवू शकता.

अतिरिक्त माहिती – आकारमानासाठी आलेख वाचणे

यावर आधारित आलेख NVIDIA NIMs कडून बेंचमार्क डेटा असे दिसते:

आकृती 5: एसamp२००० इनपुट आणि २००० आउटपुट टोकनसह लामा ३ ८बी मॉडेलसाठी थ्रूपुट विरुद्ध फर्स्ट टोकन लेटन्सी ग्राफ
परस्परसंवादी आलेख तुम्हाला मॉडेल्स, डिव्हाइसेस, इनपुट + आउटपुट टोकन संयोजन, X-अक्ष मेट्रिक आणि Y-अक्ष निकाल निवडण्याची परवानगी देतात. X-अक्षासाठी आपल्याकडे टोकनसाठी TTFT, TTLT किंवा ITL सारखे इनपुट पॅरामीटर्स असू शकतात. Y-अक्षासाठी आपल्याकडे प्रति सेकंद प्रॉम्प्ट्स किंवा प्रति सेकंद आउट_टोकन्स किंवा प्रति GPU उदाहरण असे आउटपुट पॅरामीटर्स आहेत.
एक माजीampआकार बदलणे:
एका ग्राहकाला llama2000 2000B मॉडेलसह 3 इंच, 8 आउट टोकन हवे आहे आणि त्याला 1 सेकंदापेक्षा कमी TTFT हवे आहे. मर्यादा वापरून आपल्याला 1 सेकंद TTFT (FTL) च्या डावीकडे आलेखावर एक बिंदू सापडतो, तो असा दिसेल:

हे तुम्हाला सांगते की TRT-LLM वापरताना एकच 8xH100 सिस्टीम 400 समवर्ती (पीक) वापरकर्त्यांना हाताळू शकते. तथापि, आम्हाला आढळते की यात एकूण लेटन्सी 38 सेकंदांपेक्षा जास्त आहे. जर आम्हाला कमी एकूण लेटन्सी हवी असेल (म्हणजे 20 सेकंदांपेक्षा कमी), तर आम्हाला थ्रूपुटचा त्याग करावा लागेल, X-अक्षाला एकूण लेटन्सी (TTLT) म्हणून सुधारित करावे लागेल, आमच्याकडे आहे:

येथे आपल्याला ३५८ms TTFT आणि २०s पेक्षा कमी TTLT असलेले १०० समवर्ती वापरकर्ते मिळण्याची शक्यता आहे. जसे आपण पाहतो, लेटन्सी मर्यादा सेट केल्याने थ्रूपुट आणि कमाल समवर्तीतेवर मोठा परिणाम होतो.
तुमच्या स्वतःच्या सिस्टमवर बेंचमार्क चालविण्यासाठी, पहा एलएलएम बेंचमार्किंग मार्गदर्शकासाठी एनव्हीआयडीएचा एनआयएम वापरण्यासाठी GenAIPerf बद्दल एलएलएम मेट्रिक्स मिळविण्यासाठी.

लेखक
सचिन गोपाल वाणी हे लेनोवो येथे एआय डेटा सायंटिस्ट आहेत, जे वेगवेगळ्या ग्राहकांसाठी एंड-टू-एंड मशीन लर्निंग (एमएल) अॅप्लिकेशन्सवर काम करतात आणि न्यूटॉक एआय फ्रेमवर्क विकसित करतात. त्यांनी रटगर्स विद्यापीठातून मशीन लर्निंगमध्ये विशेष सुवर्णपदक विजेता म्हणून पदवी प्राप्त केली आहे आणि जेएन टाटा शिष्यवृत्ती मिळवली आहे.
डेव्हिड एलिसन हे लेनोवो आयएसजीचे मुख्य डेटा सायंटिस्ट आहेत. लेनोवोच्या यूएस आणि युरोपियन एआय डिस्कव्हर सेंटर्सद्वारे, ते एका टीमचे नेतृत्व करतात जी अत्याधुनिक एआय तंत्रांचा वापर करून बाह्य ग्राहकांना उपाय प्रदान करते आणि त्याचबरोबर वर्ल्ड वाइड इन्फ्रास्ट्रक्चर सोल्युशन्स ग्रुपसाठी एकूण एआय धोरणाला अंतर्गत समर्थन देते. लेनोवोमध्ये सामील होण्यापूर्वी, ते एक आंतरराष्ट्रीय वैज्ञानिक विश्लेषण आणि उपकरणे कंपनी चालवत होते आणि यूएस पोस्टल सर्व्हिससाठी डेटा सायंटिस्ट म्हणून काम करत होते. त्यापूर्वी, त्यांनी जॉन्स हॉपकिन्स विद्यापीठातून बायोमेडिकल इंजिनिअरिंगमध्ये पीएचडी प्राप्त केली. त्यांच्याकडे उच्च श्रेणीतील जर्नल्समध्ये असंख्य प्रकाशने आहेत ज्यात नॅशनल अकादमी ऑफ द सायन्सेसच्या कार्यवाहीत दोन समाविष्ट आहेत.

कागदपत्रे / संसाधने

लेनोवो एलएलएम साइझिंग कॉम्प्रिहेन्सिव्ह फ्रेमवर्क [pdf] वापरकर्ता मार्गदर्शक
एलएलएम आकारमान व्यापक चौकट, एलएलएम आकारमान, व्यापक चौकट, चौकट

संदर्भ

वापरकर्ता मॅन्युअल