AI اپنی معلومات کہاں سے حاصل کرتا ہے؟

کبھی وہاں بیٹھ کر اپنا سر کھجاتے ہو، جیسے… یہ چیزیں دراصل کہاں سے آرہی ہیں؟ میرا مطلب ہے، AI خاک آلود لائبریری کے ڈھیروں سے نہیں چل رہا ہے یا YouTube شارٹس کو ہوشیار نہیں کر رہا ہے۔ پھر بھی کسی نہ کسی طرح یہ ہر چیز کے جوابات تیار کرتا ہے - لاسگنا ہیکس سے لے کر بلیک ہول فزکس تک - جیسے اس کے اندر کچھ بے حد فائلنگ کیبنٹ موجود ہے۔ حقیقت زیادہ عجیب ہے، اور شاید آپ کے اندازے سے زیادہ دلچسپ ہے۔ آئیے اسے تھوڑا سا کھولتے ہیں (اور ہاں، شاید راستے میں ایک دو افسانوں کو توڑ دیں)۔

کیا یہ جادو ہے؟ 🌐

یہ جادو نہیں ہے، حالانکہ کبھی کبھی ایسا محسوس ہوتا ہے۔ ہڈ کے نیچے کیا ہو رہا ہے بنیادی طور پر پیٹرن کی پیشن گوئی۔ حقائق کو اس طرح محفوظ جس طرح سے آپ کا دماغ آپ کی دادی کی کوکی کی ترکیب پر رکھتا ہے۔ اس کے بجائے، انہیں اگلے لفظ (ٹوکن) کا اندازہ لگانے کی تربیت دی جاتی ہے جو اس سے پہلے آیا تھا [2]۔ عملی طور پر، اس کا مطلب ہے کہ وہ رشتوں میں جڑ جاتے ہیں: کون سے الفاظ ایک ساتھ ملتے ہیں، جملے عام طور پر کیسے شکل اختیار کرتے ہیں، پورے خیالات کیسے سہاروں کی طرح بنتے ہیں۔ یہی وجہ ہے کہ آؤٹ پٹ لگتا ہے ، اگرچہ پوری ایمانداری ہے- یہ شماریاتی نقالی ہے، فہم نہیں [4]۔

تو اصل میں کیا چیز AI سے تیار کردہ معلومات کو کارآمد؟ مٹھی بھر چیزیں:

ڈیٹا تنوع - ان گنت ذرائع سے کھینچنا، ایک تنگ ندی سے نہیں۔
اپ ڈیٹس - ریفریش سائیکل کے بغیر، یہ تیزی سے باسی ہو جاتا ہے۔
فلٹرنگ - مثالی طور پر ردی کے اندر جانے سے پہلے اسے پکڑنا (حالانکہ، آئیے حقیقی بنیں، اس جال میں سوراخ ہیں)۔
کراس چیکنگ - اتھارٹی کے ذرائع پر جھکاؤ (سوچئے ناسا، ڈبلیو ایچ او، بڑی یونیورسٹیاں)، جو زیادہ تر AI گورننس پلے بکس میں ہونا ضروری ہے [3]۔

پھر بھی، کبھی کبھی یہ اعتماد کے ساتھ گھڑتا ہے۔ وہ نام نہاد hallucinations؟ ایک سیدھے چہرے کے ساتھ بنیادی طور پر پالش بکواس کی فراہمی [2][3]۔

اس کے بعد آپ جو مضامین پڑھنا پسند کر سکتے ہیں:

🔗 کیا AI لاٹری نمبروں کی پیش گوئی کر سکتا ہے؟
AI لاٹری کی پیشین گوئیوں کے بارے میں خرافات اور حقائق کو تلاش کرنا۔.

🔗 AI کے لیے ایک جامع نقطہ نظر اختیار کرنے کا کیا مطلب ہے؟
اخلاقیات اور اثرات پر متوازن نقطہ نظر کے ساتھ AI کو سمجھنا۔.

🔗 بائبل مصنوعی ذہانت کے بارے میں کیا کہتی ہے۔
ٹیکنالوجی اور انسانی تخلیق پر بائبل کے نقطہ نظر کی جانچ کرنا۔.

فوری موازنہ: AI کہاں سے کھینچتا ہے 📊

ہر ذریعہ برابر نہیں ہوتا، لیکن ہر ایک اپنا کردار ادا کرتا ہے۔ یہاں ایک سنیپ شاٹ منظر ہے۔.

ماخذ کی قسم	اسے کون استعمال کرتا ہے (AI)	قیمت/قیمت	یہ کیوں کام کرتا ہے (یا نہیں کرتا...)
کتابیں اور مضامین	زبان کے بڑے ماڈل	انمول (ish)	گھنا، منظم علم-بس جلدی عمر بڑھ جاتی ہے۔.
ویب سائٹس اور بلاگز	بہت زیادہ تمام AIs	مفت (شور کے ساتھ)	جنگلی قسم؛ پرتیبھا اور مطلق کوڑا کرکٹ کا مرکب۔.
اکیڈمک پیپرز	تحقیق سے بھرپور AIs	کبھی کبھار پے وال	سختی + ساکھ، لیکن بھاری جملے میں سوفی۔.
صارف کا ڈیٹا	ذاتی نوعیت کے AIs	انتہائی حساس ⚠️	تیز ٹیلرنگ، لیکن رازداری کے سر درد بہت زیادہ ہیں۔.
ریئل ٹائم ویب	تلاش سے منسلک AIs	مفت (اگر آن لائن)	معلومات کو تازہ رکھتا ہے؛ منفی پہلو افواہ پروردن کا خطرہ ہے۔.

ٹریننگ ڈیٹا کائنات 🌌

یہ "بچپن کے سیکھنے" کا مرحلہ ہے۔ ایک بچے کو لاکھوں کہانیوں کی کتابیں، خبروں کے تراشے، اور ویکیپیڈیا خرگوش کے سوراخ ایک ساتھ دینے کا تصور کریں۔ پری ٹریننگ ایسا ہی لگتا ہے۔ حقیقی دنیا میں، فراہم کنندگان عوامی طور پر دستیاب ڈیٹا، لائسنس یافتہ ذرائع، اور ٹرینر کے ذریعے تیار کردہ متن کو [2]۔

سب سے اوپر پرتوں میں: تیار کردہ انسانی مثالیں - اچھے جوابات، برے جوابات، صحیح سمت میں جھکاؤ - اس سے پہلے کہ کمک شروع ہو [1]۔.

شفافیت کا انتباہ: کمپنیاں ہر تفصیل کا انکشاف نہیں کرتی ہیں۔ کچھ گارڈریلز رازداری کے ہوتے ہیں (IP، حفاظتی خدشات)، لہذا آپ کو اصل مکس میں صرف ایک جزوی ونڈو ملتی ہے [2]۔.

ریئل ٹائم تلاش: ایکسٹرا ٹاپنگ 🍒

کچھ ماڈلز اب اپنے تربیتی بلبلے سے باہر جھانک سکتے ہیں۔ یہ ریٹریول-آگمینٹڈ جنریشن (RAG)بنیادی طور پر لائیو انڈیکس یا ڈاک سٹور سے ٹکڑوں کو نکالنا، پھر اسے جواب میں بُننا [5]۔ خبروں کی سرخیاں یا اسٹاک کی قیمتوں جیسی تیزی سے تبدیل ہونے والی چیزوں کے لیے بہترین۔

رگڑنا؟ انٹرنیٹ باصلاحیت اور کوڑے کی آگ کے برابر حصہ ہے۔ اگر فلٹرز یا پرووینس چیکز کمزور ہیں، تو آپ کو ردی کا ڈیٹا واپس چھپ جانے کا خطرہ ہے، بالکل وہی جو خطرے کے فریم ورک کے بارے میں خبردار کرتے ہیں [3]۔.

ایک عام حل: کمپنیاں ماڈلز کو اپنے اندرونی ڈیٹا بیس سے جوڑتی ہیں، اس لیے جوابات اس کو روکنے کے بجائے موجودہ HR پالیسی یا اپ ڈیٹ شدہ پروڈکٹ دستاویز کا حوالہ دیتے ہیں۔ سوچیں: کم "اوہ" لمحات، زیادہ قابل اعتماد جواب۔

فائن ٹیوننگ: AI کا چمکانے والا مرحلہ 🧪

کچے پہلے سے تربیت یافتہ ماڈل بے ترتیب ہیں۔ تو وہ ٹھیک:

انہیں مددگار، بے ضرر، ایماندار ہونا سکھانا (انسانی تاثرات سے کمک سیکھنے کے ذریعے، RLHF) [1]۔
غیر محفوظ یا زہریلے کناروں کو سینڈ کرنا (سیدھ) [1]۔.
لہجے کے لیے ایڈجسٹ کرنا - خواہ وہ دوستانہ ہو، رسمی ہو یا کھلے عام طنزیہ ہو۔.

یہ ایک ہیرے کو اتنا چمکانے والا نہیں ہے جتنا کہ اعداد و شمار کے برفانی تودے کو بات چیت کے ساتھی کی طرح برتاؤ کرنے میں۔.

ٹکرانے اور ناکامیاں 🚧

آئیے اس کے بے عیب ہونے کا بہانہ نہ کریں:

ہیلوسینیشنز - کرکرا جوابات جو بالکل غلط ہیں [2][3]۔
تعصب - یہ اعداد و شمار میں پکے ہوئے نمونوں کی عکس بندی کرتا ہے۔ یہاں تک کہ ان کو بڑھا سکتا ہے اگر نشان زد نہ کیا جائے [3][4]۔
پہلے ہاتھ کا کوئی تجربہ نہیں - یہ بات کر لیکن اس کا ذائقہ کبھی نہیں چکھا [4]۔
حد سے زیادہ اعتماد - نثر اس طرح بہتی ہے جیسے وہ جانتا ہے، یہاں تک کہ جب وہ نہیں جانتا ہے۔ رسک فریم ورک فلیگنگ مفروضوں پر دباؤ ڈالتا ہے [3]۔

یہ جاننے کی طرح کیوں محسوس ہوتا ہے 🧠

اس کا کوئی عقیدہ نہیں ہے، انسانی معنوں میں کوئی یادداشت نہیں ہے، اور یقیناً کوئی نفس نہیں۔ پھر بھی چونکہ یہ جملے کو آسانی سے جوڑتا ہے، آپ کا دماغ اسے اس طرح پڑھتا ہے جیسے وہ سمجھتا ہو۔ جو کچھ ہو رہا ہے وہ صرف بڑے پیمانے پر اگلی ٹوکن کی پیشین گوئی: کھربوں امکانات کو تقسیم سیکنڈوں میں کرنچنگ [2]۔

"انٹیلی جنس" وائب ابھرتا ہوا رویہ ہے - محققین اسے کہتے ہیں، تھوڑا سا زبان میں گال، "سٹوکسٹک طوطا" اثر [4]۔

بچوں کے لیے دوستانہ تشبیہ 🎨

ایک طوطے کا تصور کریں جو لائبریری کی ہر کتاب کو پڑھ رہا ہے۔ اس سے کہانیاں نہیں ملتی ہیں لیکن الفاظ کو کسی ایسی چیز میں ریمکس کر سکتے ہیں جو عقلمند محسوس ہوتا ہے۔ کبھی کبھی یہ جگہ پر ہے; بعض اوقات یہ بکواس ہوتا ہے-لیکن کافی مزاج کے ساتھ، آپ ہمیشہ فرق نہیں بتا سکتے۔

اسے لپیٹنا: AI کی معلومات کہاں سے آتی ہے 📌

صاف الفاظ میں:

بڑے پیمانے پر تربیتی ڈیٹا (عوامی + لائسنس یافتہ + ٹرینر کے ذریعہ تیار کردہ) [2]۔
لہجے/رویے کو شکل دینے کے لیے انسانی آراء کے ساتھ ٹھیک ٹیوننگ [1]۔
بازیافت کے نظام جب لائیو ڈیٹا اسٹریمز سے منسلک ہوتے ہیں [5]۔

AI چیزوں کو "جانتی" نہیں ہے - یہ متن کی پیش گوئی کرتا ہے۔ یہ اس کی سپر پاور اور اس کی اچیلز ہیل دونوں ہے۔ نیچے لائن؟ اہم چیزوں کو ہمیشہ قابل اعتماد ذریعہ سے چیک کریں [3]۔

حوالہ جات

Ouyang، L. et al. (2022)۔ انسانی تاثرات (InstructGPT) کے ساتھ ہدایات پر عمل کرنے کے لیے زبان کے ماڈلز کو تربیت دینا۔ arXiv
اوپن اے آئی (2023)۔ GPT-4 تکنیکی رپورٹ - لائسنس یافتہ، عوامی اور انسانی تخلیق کردہ ڈیٹا کا مرکب؛ اگلے ٹوکن پیشن گوئی کا مقصد اور حدود۔ arXiv
NIST (2023)۔ AI رسک مینجمنٹ فریم ورک (AI RMF 1.0) - پرویننس، قابل اعتمادی، اور رسک کنٹرولز۔ پی ڈیایف
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021)۔ اسٹاکسٹک طوطوں کے خطرات پر: کیا زبان کے ماڈل بہت بڑے ہو سکتے ہیں؟ پی ڈیایف
لیوس، P. et al. (2020)۔ علم پر مبنی این ایل پی کے لیے بازیافت سے بڑھی ہوئی نسل۔ arXiv

آفیشل AI اسسٹنٹ اسٹور پر تازہ ترین AI تلاش کریں۔

ہمارے بارے میں

واپس بلاگ پر