اگر آپ نے کبھی ایسا ماڈل بھیجا ہے جو نوٹ بک میں چمکا ہوا ہو لیکن پروڈکشن میں ٹھوکر کھائی ہو، تو آپ کو یہ راز پہلے ہی معلوم ہوگا: AI کی کارکردگی کی پیمائش کرنے کا طریقہ کوئی جادوئی میٹرک نہیں ہے۔ یہ حقیقی دنیا کے اہداف سے منسلک چیک کا ایک نظام ہے۔ درستگی پیاری ہے۔ وشوسنییتا، حفاظت، اور کاروباری اثرات بہتر ہیں۔
اس کے بعد آپ جو مضامین پڑھنا پسند کر سکتے ہیں:
🔗 AI سے بات کرنے کا طریقہ
مسلسل بہتر نتائج کے لیے AI کے ساتھ مؤثر طریقے سے بات چیت کرنے کے لیے گائیڈ۔.
🔗 AI اشارہ کیا ہے۔
وضاحت کرتا ہے کہ اشارہ کس طرح AI ردعمل اور آؤٹ پٹ کوالٹی کو تشکیل دیتا ہے۔.
🔗 AI ڈیٹا لیبلنگ کیا ہے؟
تربیتی ماڈلز کے لیے ڈیٹا کو درست لیبل تفویض کرنے کا جائزہ۔.
🔗 AI اخلاقیات کیا ہے؟
ذمہ دار AI کی ترقی اور تعیناتی کی رہنمائی کرنے والے اخلاقی اصولوں کا تعارف۔.
کیا اچھی AI کارکردگی بناتا ہے؟ ✅
مختصر ورژن: اچھی AI کارکردگی کا مطلب ہے کہ آپ کا سسٹم مفید، قابل بھروسہ، اور گندے، بدلتے ہوئے حالات میں دہرایا جا سکتا ہے۔ ٹھوس طور پر:
-
کام کا معیار - اسے صحیح وجوہات کی بنا پر صحیح جوابات ملتے ہیں۔
-
کیلیبریشن - اعتماد کے اسکور حقیقت کے مطابق ہوتے ہیں، تاکہ آپ ہوشیار کارروائی کر سکیں۔
-
مضبوطی - یہ بڑھے ہوئے، کنارے کے معاملات، اور مخالف دھندلا پن کے تحت رکھتا ہے۔
-
حفاظت اور انصاف - یہ نقصان دہ، متعصبانہ یا غیر تعمیل والے رویے سے بچتا ہے۔
-
کارکردگی - یہ کافی تیز، کافی سستا، اور پیمانے پر چلنے کے لیے کافی مستحکم ہے۔
-
کاروباری اثر - یہ دراصل KPI کو منتقل کرتا ہے جس کی آپ کو فکر ہے۔
اگر آپ میٹرکس اور خطرات کو سیدھ میں لانے کے لیے ایک باضابطہ حوالہ جات چاہتے ہیں، NIST AI رسک مینجمنٹ فریم ورک قابل اعتماد نظام کی تشخیص کے لیے ایک ٹھوس شمالی ستارہ ہے۔ [1]

AI کارکردگی کی پیمائش کرنے کے لیے اعلیٰ سطحی نسخہ 🍳
تین تہوں میں سوچیں :
-
ٹاسک میٹرکس - کام کی قسم کے لیے درستگی: درجہ بندی، رجعت، درجہ بندی، نسل، کنٹرول، وغیرہ۔
-
سسٹم میٹرکس - لیٹنسی، تھرو پٹ، فی کال لاگت، ناکامی کی شرح، ڈرفٹ الارم، اپ ٹائم SLAs۔
-
نتائج کے میٹرکس - کاروبار اور صارف کے نتائج جو آپ اصل میں چاہتے ہیں: تبدیلی، برقراری، حفاظتی واقعات، دستی جائزہ کا بوجھ، ٹکٹ کا حجم۔
ایک عظیم پیمائش کا منصوبہ جان بوجھ کر تینوں کو ملا دیتا ہے۔ بصورت دیگر آپ کو ایک راکٹ ملے گا جو لانچ پیڈ کو کبھی نہیں چھوڑتا ہے۔.
مسئلے کی قسم کے لحاظ سے بنیادی میٹرکس - اور کب استعمال کرنا ہے 🎯
1) درجہ بندی
-
Precision, Recall, F1 - ایک دن کی تینوں۔ F1 درستگی اور یاد کا ہارمونک مطلب ہے۔ مفید ہے جب کلاسیں غیر متوازن ہوں یا اخراجات غیر متناسب ہوں۔ [2]
-
ROC-AUC - درجہ بندی کرنے والوں کی حد-ایگنوسٹک درجہ بندی؛ جب مثبتات نایاب ہوں تو PR-AUC کا ۔ [2]
-
متوازن درستگی - تمام کلاسوں میں یاد کی اوسط؛ skewed لیبل کے لئے آسان. [2]
پٹ فال واچ: اکیلے درستگی عدم توازن کے ساتھ انتہائی گمراہ کن ہوسکتی ہے۔ اگر 99% صارفین جائز ہیں، تو ایک گونگا ہمیشہ جائز ماڈل 99% اسکور کرتا ہے اور لنچ سے پہلے آپ کی فراڈ ٹیم کو ناکام بنا دیتا ہے۔
2) رجعت
-
انسانی قابل فہم غلطی کے لیے MAE RMSE جب آپ بڑی کمی کو سزا دینا چاہتے ہیں؛ تغیر کے لیے
R² اس کے بعد تقسیم اور بقایا پلاٹوں کو چیک کریں۔ [2] (ڈومین کے موافق یونٹ استعمال کریں تاکہ اسٹیک ہولڈرز غلطی کو محسوس کر سکیں۔)
3) درجہ بندی، بازیافت، سفارشات
-
nDCG - پوزیشن اور درجہ بندی کی مطابقت کا خیال رکھتا ہے؛ تلاش کے معیار کے لیے معیاری۔
-
MRR - اس بات پر توجہ مرکوز کرتا ہے کہ پہلی متعلقہ شے کتنی جلدی ظاہر ہوتی ہے ("ایک اچھا جواب تلاش کریں" کاموں کے لیے بہترین)۔
(عمل درآمد کے حوالہ جات اور کام کی مثالیں مرکزی دھارے کی میٹرک لائبریریوں میں ہیں۔) [2]
4) متن کی تخلیق اور خلاصہ
-
BLEU اور ROUGE - کلاسک اوورلیپ میٹرکس؛ بنیادی خطوط کے طور پر مفید ہے۔
-
ایمبیڈنگ پر مبنی میٹرکس (مثلاً، BERTScore ) اکثر انسانی فیصلے کے ساتھ بہتر تعلق رکھتے ہیں۔ سٹائل، وفاداری، اور حفاظت کے لئے ہمیشہ انسانی درجہ بندی کے ساتھ جوڑیں. [4]
5) سوال کا جواب دینا
-
Exact Match اور ٹوکن لیول F1 نکالنے والے QA کے لیے عام ہیں۔ اگر جوابات میں ذرائع کا حوالہ دینا ضروری ہے، تو گراؤنڈنگ کی (جواب کی معاونت کی جانچ)۔
کیلیبریشن، اعتماد، اور برئیر لینس 🎚️
اعتماد کے اسکور وہ ہیں جہاں بہت سارے سسٹم خاموشی سے جھوٹ بولتے ہیں۔ آپ ایسے امکانات چاہتے ہیں جو حقیقت کی عکاسی کریں تاکہ آپس حدیں، انسانوں کے لیے راستہ، یا قیمت کا خطرہ متعین کر سکیں۔.
-
انشانکن منحنی خطوط - پیش گوئی شدہ امکان بمقابلہ تجرباتی تعدد کا تصور کریں۔
-
برئیر سکور - امکانی درستگی کے لیے ایک مناسب اسکورنگ اصول؛ کم بہتر ہے. یہ خاص طور پر مفید ہے جب آپ امکان کے معیار [3]
فیلڈ نوٹ: تھوڑا سا "بدتر" F1 لیکن بہت بہتر انشانکن بڑے پیمانے پر ٹرائیج کو بہتر بنا سکتا ہے - کیونکہ لوگ آخر کار اسکور پر بھروسہ کر سکتے ہیں۔
حفاظت، تعصب، اور انصاف - اس بات کی پیمائش کریں کہ کیا اہمیت ہے 🛡️⚖️
ایک نظام مجموعی طور پر درست ہو سکتا ہے اور پھر بھی مخصوص گروہوں کو نقصان پہنچا سکتا ہے۔ گروپ کردہ میٹرکس اور انصاف کے معیار کو ٹریک کریں
-
آبادیاتی برابری - تمام گروپوں میں مساوی مثبت شرحیں۔
-
مساوی مشکلات / مساوی مواقع - تمام گروپوں میں مساوی غلطی کی شرح یا حقیقی مثبت شرح؛ ٹریڈ آف کا پتہ لگانے اور ان کا انتظام کرنے کے لیے ان کا استعمال کریں، نہ کہ ون شاٹ پاس فیل سٹیمپ کے طور پر۔ [5]
عملی ٹپ: ڈیش بورڈز کے ساتھ شروع کریں جو کلیدی صفات کے لحاظ سے بنیادی میٹرکس کاٹیں، پھر آپ کی پالیسیوں کی ضرورت کے مطابق مخصوص فیئرنس میٹرکس شامل کریں۔ یہ فضول لگتا ہے، لیکن یہ ایک واقعے سے سستا ہے۔.
LLMs اور RAG - پیمائش کی ایک پلے بک جو حقیقت میں کام کرتی ہے 📚🔍
پیدا کرنے والے نظاموں کی پیمائش کرنا … squirmy ہے. یہ کریں:
-
نتائج کی وضاحت کریں : درستگی، مددگار، بے ضرر، طرز کی پابندی، آن برانڈ ٹون، حوالہ گراؤنڈنگ، انکار کا معیار۔
-
بیس لائن ایولز کو خودکار بنائیں (مثلاً، آپ کے اسٹیک میں ایویلیویشن ٹولنگ) اور انہیں اپنے ڈیٹا سیٹس کے ساتھ ورژن میں رکھیں۔
-
سیمنٹک میٹرکس (ایمبیڈنگ پر مبنی) اور اوورلیپ میٹرکس (BLEU/ROUGE) شامل کریں۔ [4]
-
انسٹرومنٹ گراؤنڈنگ : بازیافت ہٹ ریٹ، سیاق و سباق کی درستگی/ریکال، جوابی معاونت اوورلیپ۔
-
معاہدے کے ساتھ انسانی جائزہ - ریٹر کی مستقل مزاجی کی پیمائش کریں (مثال کے طور پر، Cohen's κ یا Fleiss' κ) تاکہ آپ کے لیبلز وائبس نہ ہوں۔
بونس: لاگ لیٹینسی پرسنٹائلز اور ٹوکن یا حساب کی لاگت فی کام۔ اگلے منگل کو آنے والا شاعرانہ جواب کسی کو پسند نہیں ہے۔
موازنہ کی میز - ٹولز جو آپ کو AI کارکردگی کی پیمائش کرنے میں مدد کرتے ہیں 🛠️📊
(ہاں یہ مقصد پر تھوڑا سا گندا ہے - اصلی نوٹ گندے ہیں۔)
| ٹول | بہترین سامعین | قیمت | یہ کیوں کام کرتا ہے - جلدی لے لو |
|---|---|---|---|
| سکیٹ لرن میٹرکس | ایم ایل پریکٹیشنرز | مفت | درجہ بندی، رجعت، درجہ بندی کے لیے اصولی نفاذ؛ ٹیسٹ میں پکانا آسان ہے. [2] |
| MLflow Evaluate / GenAI | ڈیٹا سائنسدان، MLOps | مفت + ادا شدہ | سنٹرلائزڈ رنز، خودکار میٹرکس، ایل ایل ایم ججز، کسٹم اسکوررز؛ نوادرات کو صاف طور پر لاگ کرتا ہے۔. |
| ظاہر ہے۔ | ٹیمیں تیزی سے ڈیش بورڈز کی خواہاں ہیں۔ | OSS + بادل | 100+ میٹرکس، ڈرفٹ اور کوالٹی رپورٹس، مانیٹرنگ ہکس - ایک چٹکی میں اچھے ویژول۔. |
| وزن اور تعصبات | تجربہ - بھاری تنظیمیں | مفت درجے | پہلو بہ پہلو موازنہ، ایول ڈیٹاسیٹس، ججز؛ میزیں اور نشانات صاف ستھرے ہیں۔. |
| لینگ سمتھ | ایل ایل ایم ایپ بنانے والے | ادا کیا | ہر قدم کا سراغ لگائیں، اصول یا ایل ایل ایم ایویلیوٹرز کے ساتھ انسانی جائزے کو ملا دیں۔ RAG کے لیے بہت اچھا۔. |
| ٹرو لینس | اوپن سورس ایل ایل ایم ایول سے محبت کرنے والے | او ایس ایس | زہریلے پن، زمینی پن، مطابقت کے لیے فیڈ بیک افعال؛ کہیں بھی ضم کریں۔. |
| بڑی توقعات | ڈیٹا کوالٹی - پہلے orgs | او ایس ایس | ڈیٹا پر توقعات کو باضابطہ بنائیں - کیونکہ خراب ڈیٹا بہرحال ہر میٹرک کو برباد کر دیتا ہے۔. |
| گہری جانچ پڑتال | ایم ایل کے لیے ٹیسٹنگ اور CI/CD | OSS + بادل | ڈیٹا ڈرفٹ، ماڈل کے مسائل، اور نگرانی کے لیے بیٹریوں میں شامل ٹیسٹنگ؛ اچھی چوکیاں. |
قیمتیں بدلتی ہیں - دستاویزات چیک کریں۔ اور ہاں، آپ ٹول پولیس کے دکھائے بغیر ان کو ملا سکتے ہیں۔.
دہلیز، اخراجات، اور فیصلے کے منحنی خطوط - خفیہ چٹنی 🧪
دہلیز اور لاگت کے تناسب کے لحاظ سے بہت مختلف کاروباری قدر رکھتے ہیں ۔
بنانے کے لیے فوری شیٹ:
-
پیسے یا وقت میں جھوٹے مثبت بمقابلہ جھوٹے منفی کی قیمت مقرر کریں۔.
-
حد کو صاف کریں اور فی 1k فیصلوں کی متوقع لاگت کا حساب لگائیں۔.
-
کم از کم متوقع لاگت کی منتخب کریں ، پھر اسے نگرانی کے ساتھ مقفل کریں۔
جب مثبتات نایاب ہوں تو PR منحنی خطوط استعمال کریں، عمومی شکل کے لیے ROC منحنی خطوط، اور جب فیصلے امکانات پر انحصار کرتے ہیں تو کیلیبریشن کروز استعمال کریں۔ [2][3]
منی کیس: ایک سپورٹ ٹکٹ ٹرائیج ماڈل جس میں معمولی F1 ہے لیکن بہترین کیلیبریشن کٹ مینوئل ری روٹس کے بعد آپریشنز کو سخت حد سے ٹائرڈ روٹنگ میں تبدیل کیا گیا (مثال کے طور پر، "خودکار حل،" "انسانی جائزہ،" "اسکیلیٹ") کیلیبریٹڈ اسکور بینڈ سے منسلک۔
آن لائن مانیٹرنگ، ڈرفٹ، اور الرٹنگ 🚨
آف لائن ایالز آغاز ہیں، اختتام نہیں۔ پیداوار میں:
-
سیگمنٹ کے لحاظ سے ان پٹ ڈرفٹ ، آؤٹ پٹ ڈرفٹ ، اور کارکردگی کی کمی کو ٹریک کریں
-
گارڈریل چیک سیٹ کریں - زیادہ سے زیادہ فریب کاری کی شرح، زہریلے پن کی حدیں، فیئرنس ڈیلٹا۔.
-
p95 لیٹنسی، ٹائم آؤٹ اور لاگت فی درخواست کے لیے کینری ڈیش بورڈز شامل کریں
-
اس کو تیز کرنے کے لیے مقصد سے بنی لائبریریوں کا استعمال کریں۔ وہ باکس سے باہر بڑھے ہوئے، معیار، اور نگرانی کی پیش کش کرتے ہیں۔.
چھوٹا ناقص استعارہ: اپنے ماڈل کے بارے میں ایک کھٹی سٹارٹر کی طرح سوچیں - آپ صرف ایک بار بیک نہیں کرتے اور چلے جاتے ہیں۔ آپ کھانا کھلاتے ہیں، دیکھتے ہیں، سونگھتے ہیں اور کبھی کبھی دوبارہ شروع کرتے ہیں۔
انسانی تشخیص جو ٹوٹتی نہیں 🍪
جب لوگ آؤٹ پٹ کو گریڈ کرتے ہیں، تو عمل آپ کے خیال سے زیادہ اہمیت رکھتا ہے۔.
-
پاس بمقابلہ بارڈر لائن بمقابلہ فیل کی مثالوں کے ساتھ سخت روبرکس لکھیں
-
جب بھی ہو سکے نمونوں کو بے ترتیب اور اندھا کریں۔.
-
انٹر ریٹر معاہدے کی پیمائش کریں (مثال کے طور پر، کوہن کا κ دو ریٹرز کے لیے، Fleiss' κ بہت سے لوگوں کے لیے) اور اگر معاہدہ سلپ ہو جاتا ہے تو روبرکس کو ریفریش کریں۔
یہ آپ کے انسانی لیبلز کو موڈ یا کافی کی فراہمی کے ساتھ بہتے جانے سے روکتا ہے۔.
گہرا غوطہ: RAG 🧩 میں LLMs کے لیے AI کارکردگی کی پیمائش کیسے کریں
-
بازیافت کا معیار - recall@k، precision@k، nDCG؛ سونے کے حقائق کی کوریج. [2]
-
وفاداری کا جواب دیں - چیکس کا حوالہ دیں اور تصدیق کریں، زمینی اسکورز، مخالفانہ تحقیقات۔
-
صارف کا اطمینان - انگوٹھا، کام کی تکمیل، تجویز کردہ مسودوں سے فاصلہ میں ترمیم کریں۔
-
حفاظت - زہریلا، PII لیکیج، پالیسی کی تعمیل۔
-
لاگت اور تاخیر - ٹوکنز، کیش ہٹس، p95 اور p99 تاخیر۔
ان کو کاروباری کارروائیوں سے جوڑیں: اگر زمینی پن ایک لکیر سے نیچے آ جائے، خود کار طریقے سے سخت موڈ یا انسانی جائزہ۔.
آج شروع کرنے کے لیے ایک سادہ پلے بک 🪄
-
کام کی وضاحت کریں - ایک جملہ لکھیں: AI کو کیا کرنا چاہیے اور کس کے لیے۔
-
2–3 ٹاسک میٹرکس کا انتخاب کریں - نیز کیلیبریشن اور کم از کم ایک فیئرنس سلائس۔ [2][3][5]
-
قیمت کا استعمال کرتے ہوئے حد کا فیصلہ کریں - اندازہ نہ لگائیں۔
-
ایک چھوٹا سا ایول سیٹ بنائیں - 100-500 لیبل والی مثالیں جو پروڈکشن مکس کو ظاہر کرتی ہیں۔
-
اپنے ایالز کو خودکار بنائیں - CI میں وائر ایویلیویشن/مانیٹرنگ تاکہ ہر تبدیلی ایک جیسی جانچ کرے۔
-
پیداوار میں مانیٹر کریں - بڑھے ہوئے، تاخیر، لاگت، واقعہ کے جھنڈے۔
-
ماہانہ-ایش کا جائزہ لیں - میٹرکس کی کٹائی جو کوئی استعمال نہیں کرتا ہے۔ ایسے لوگوں کو شامل کریں جو حقیقی سوالات کے جوابات دیں۔
-
دستاویزی فیصلے - ایک زندہ سکور کارڈ جسے آپ کی ٹیم اصل میں پڑھتی ہے۔
جی ہاں، یہ لفظی ہے. اور یہ کام کرتا ہے۔.
عام گٹچے اور انہیں کیسے چکنا ہے 🕳️🐇
-
ایک میٹرک میں اوور فٹنگ - ایک میٹرک ٹوکری جو فیصلے کے سیاق و سباق سے مماثل ہو۔ [1][2]
-
انشانکن کو نظر انداز کرنا - انشانکن کے بغیر اعتماد صرف اُڑکتا ہے۔ [3]
-
کوئی سیگمنٹنگ نہیں - ہمیشہ صارف گروپس، جغرافیہ، ڈیوائس، زبان کے حساب سے سلائس کریں۔ [5]
-
غیر متعین قیمتیں - اگر آپ غلطیوں کی قیمت نہیں لگاتے ہیں، تو آپ غلط حد منتخب کریں گے۔
-
ہیومن ایول ڈرفٹ - معاہدے کی پیمائش کریں، روبرکس کو تازہ کریں، جائزہ لینے والوں کو دوبارہ تربیت دیں۔
-
کوئی حفاظتی سازوسامان نہیں - انصاف، زہریلا، اور پالیسی چیک ابھی شامل کریں، بعد میں نہیں۔ [1][5]
وہ جملہ جس کے لیے آپ آئے ہیں: AI کارکردگی کی پیمائش کیسے کریں - The Too Long, I Don't Read it 🧾
-
واضح نتائج کے ساتھ شروع کریں ، پھر اسٹیک ٹاسک ، سسٹم ، اور بزنس میٹرکس۔ [1]
-
ملازمت کے لیے صحیح میٹرکس کا استعمال کریں - درجہ بندی کے لیے F1 اور ROC-AUC؛ درجہ بندی کے لیے nDCG/MRR؛ اوورلیپ + سیمنٹک میٹرکس برائے نسل (انسانوں کے ساتھ جوڑا)۔ [2][4]
-
کیلیبریٹ کریں اور حد منتخب کرنے کے لیے اپنی غلطیوں کی قیمت لگائیں [2][3]
-
فیئرنس شامل کریں اور واضح طور پر ٹریڈ آف کا انتظام کریں۔ [5]
-
ایولز اور مانیٹرنگ کو خودکار بنائیں تاکہ آپ بغیر کسی خوف کے اعادہ کر سکیں۔
آپ جانتے ہیں کہ یہ کیسا ہے - اس بات کی پیمائش کریں کہ کیا فرق پڑتا ہے، یا آپ اس کو بہتر کر لیں گے جو نہیں ہے۔.
حوالہ جات
[1] NIST. AI رسک مینجمنٹ فریم ورک (AI RMF)۔ مزید پڑھیں
[2] scikit-learn. ماڈل کی تشخیص: پیشین گوئیوں کے معیار کو درست کرنا (یوزر گائیڈ)۔ مزید پڑھیں
[3] scikit-learn. امکان کیلیبریشن (انشانکن منحنی خطوط، برئیر سکور)۔ مزید پڑھیں
[4] Papineni et al. (2002)۔ BLEU: مشینی ترجمہ کی خودکار تشخیص کا طریقہ۔ ACL مزید پڑھیں
[5] Hardt, Price, Srebro (2016). زیر نگرانی سیکھنے میں مواقع کی مساوات۔ نیور آئی پی ایس۔ مزید پڑھیں