کشف بهترین الگوریتم جریان داده ها برای دیتابیس‌های بزرگ

منبع:کلیک

کشف بهترین الگوریتم جریان داده ها برای دیتابیس‌های بزرگ

رسانه کلیک – محققان علوم کامپیوتر موفق شده‌اند بهترین الگوریتم جریان داده ها را برای دیتابیس‌های بزرگ طراحی کنند. در این نسخه بسیاری از نقص‌های الگوریتم‌های پیشین برطرف شده است و محققان بر این باورند این الگوریتم بهترین موردی است که تا به حال در علوم کامپیوتر طراحی شده است.

اندازه گیری جریان آب خروجی از شلنگ آتش نشانی، زمانی که مستقیم صورت شما را نشانه گرفته است کار ساده‌ای نیست. تحلیل جریان‌های داده نیز به همین صورت است، جریانی که مثل سیل به سمت ما سرازیر می‌شود و هیچوقت تمامی ندارد. زمانی که در توییتر هستید و توییت‌ها را نگاه می‌کنید، با حجم عظیم توییت‌ها روبرو می‌شوید و باید چند لحظه‌ای مکث کنید تا بفهمید توییت‌ها درباره چه چیزی است. با قرار گرفتن در مقابل سیلی از توییت‌ها، سر در آوردن از موضوع آنها کار ساده‌ای نیست، ازینرو باید از هشتگ استفاده کنید تا موضوع مورد نظر خود را پیدا کنید. الگوریتم جریان داده ها بدین منظور طراحی شده است.

برنامه‌های کامپیوتری انجام دهنده‌ی این محاسبات را «الگوریتم‌های جریان» (streaming algorithms) می‌نامند. از آنجایی که دادها در چنین حجم بزرگی به سمت این نرم‌افزارها سرازیر می‌شوند، این ماشین‌ها سعی میکنند عصاره‌ای از این چیزی که می‌بینند را ثبت کنند و اصولا از نظر تکنیکی مابقی را فراموش می‌کنند. بیشتر از ۳۰ سال است که دانشمندان علوم کامپیوتر در تلاش برای ساخت یک الگوریتم جریان بهتر هستند. پاییز گذشته محققان موردی ابداع کردند که تقریبا بی عیب و نقص است.

جلانی نلسون، استاد کامپیوتر دانشگاه هاروارد و نویسنده‌ی کتابی در این رابطه (همراه با کاسپر گرین لارسن از دانشگاه آرهوس در دانمارک و هوی وین از دانشگاه شمال شرقی و میکل تروپاز از دانشگاه کپنهاگن) می‌گوید:«ما الگوریتم جدیدی را توسعه داده‌ایم که تقریبا در نوع خود بهترین است».

این الگوریتم جریان، که در رسته خود بهترین است، بدین شکل کار می‌کند که به اندازه کافی از مواردی که می‌بیند را به خاطر می‌سپارد و در نهایت به شما می‌گوید چه مواردی را بیشتر از بقیه مشاهده کرده است. این مدل دعا می‌کند بکارگیری ترکیباتی که به نظر در تحلبل جریان داده ذاتی به نظر می‌رسد، در حقیقت لازم‌الاجرا نیستند. این مدل همچنین افق جدیدی را به سمت عصر فراموش کردن استراتژیک (Strategic forgetting) نشان می‌دهد.

مشخص کردن ترند

در دیتابیس‌هایی که بطور مداوم در حال به روز رسانی هستند و شما نظاره‌گر آن هستید، الگوریتم جریان داده ها بسیار مفید عمل می‌کنند. برای مثال می‌توانیم به AT&T اشاره کنیم که بطور مکرر تب‌ها را بر بسته‌های داده حفظ می‌کند یا گوگل که همیشه در حال دسته‌بندی کردن جریان مدخل‌های بی پایان ورودی جستجو است. در این جورمواقع، داشتن متدی برای پاسخ‌دهی به سوالات آنی درباره داده، بدون بررسی مجدد و حتی بدون نیاز به یادآوری آن داده‌ها، کاری مفید و حتی ضروری است.

یک مثال ساده: فرض کنید جریان مداومی از اعداد در اختیار دارید و می‌خواهید جمع تمامی ارقامی که تا بحال مشاده کرده‌اید را حساب کنید. در این مورد روشن است که به جای به خاطر آوردن تمامی اعداد، تنها نیاز است یک رقم را به خاطر بیاورد: جمع تجمعی (running sum).

این چالش زمانی سخت‌تر می‌شود که سوالات پرسیده شده‌ی شما درباره داده پیچیده‌تر شود. فرض کنید به جای محاسبه کردن جمع ارقام، تمایل دارید که امکان پاسخ به سوال مقابل را داشته باشید: چه ارقامی بیشتر تکرار شدند؟ چندان مشخص نیست که شما می‌خواهید با استفاده از چه میانبری در لحظه به جواب دست پیدا کنید.

این پازل بخصوص به عنوان معضل «آیتم‌های تکرار شونده» یا «مشت‌زنان سنگین‌وزن» شناخته می‌شود. اولین الگوریتم ایجاد شده برای حل این معضل موردی بود که در دهه ۸۰ توسط دیوید گریس از دانشگاه کرنا و جایتدو میسرا از دانشگاه تگزاس ابداع شد. برنامه آنها از جهاتی موثر عمل کرد، اما نتوانست چیزی که آن را «تشخیص تغییر» می‌نامند را حل کند. این الگوریتم، واژه‌هایی که بیشتر از همه جستجو شده بودند را به شما می‌گفت، اما نمی‌توانست تشخیص دهد چه واژه‌هایی در حال ترند شدن هستند. در قضیه گوگل، این الگوریم «ویکی پدیا» را به عنوان محبوب‌ترین واژه جستجو شده شناسایی می‌کرد، اما نمی‌توانست خیزش واژه‌های جستجو شده در مواقع خاص، همچون واژه‌هایی که به همراه اخبار طوفان ایرما توییت می‌شدند، را شناسایی کند.

این یک مشکل در برنامه‌نویسی است. شما سعی می‌کنید اطلاعات را تا سطحی خلاصه و اطلاعاتی را استخراج کنید که به شما در شناسایی اولین واژه‌های جستجو شده کمک کند. این را گراهام کومود، یکی از محققان علوم کامپیوتر در دانشگاه وارویک توضیح داد.

طی ۳۰ سال پس از طراحی این الگوریتم، کورمود و دیگر دانشمندان کامپیوتر، الگوریتم گریس و میسرا را توسعه دادند. بعضی از الگوریتم‌های جدید قادر به شناسایی واژه‌های ترند شده بودند، در حالی که بعضی دیگر از الگوریتم‌ها را طوری طراحی شده بودند که بفهمند کلمه پر تکرار چه مشخصه‌هایی دارد. تمامی این الگوریتم‌ها کامل و مکمل همدیگر بودند، به عنوان مثال سرعت قربانی دقت و مصرف حافظه قربانی معتبر بودن آن می‌شد.

بیشتر این تلاشها بر یک زمینه متکی بود. برای مثال، فرض کنید می‌خواهید واژه های پر تکرار را شناسایی کنید. یکی از راههای انجام این مهم، اختصاص دادن شماره به تمام واژه‌های زبان انگلیسی و سپس جفت کردن آن شماره با یک شماره ثانوی است که دفعاد تکرار یک کلمه جستجو شده در طول فرآیند را ثبت می‌کند. شاید کلمه aardvark به عنوان کلمه شماره ۱۷ ثبت و در دیتابیس شما به شکل (۱۷، ۹) نشان داده شود. به این معنی که کلمه شماره ۱۷ ، ۹ بار جستجو شده است. این رویکرد به سادگی تمام کلمات پر جستجو را برای شما نشان می‌دهد، بطوری که در لحظه، از تعداد دفعاتی که یک کلمه بیشتر تکرار شده است باخبر می‌شوید.

اما با وجود این، باز هم نقاط ضعفی وجود دارد. برای مثال، زمان زیادی طول می‌کشد تا این الگوریتم در میان صدها هزار واژه در زبان انگلیسی به جستجو بپردازد.

اما چه اتفاقی می‌افتد اگر تنها صد کلمه در دیکشنری داشته باشیم؟ نلسون می‌گوید :«گشتن در میان لغات این دیکشنری زمان چندانی نمی‌خواهد».

ازینرو، تعداد کلمات موجود در دیکشنری همانی هستند که وجود دارند. مگر اینکه، همانطور که نویسندگان الگوریتم جدید کشف کرده‌اند، شما دیکشنری بزرگ را به دیکشنزی‌های کوچکتری تقسیم کنید و راه خلاقانه‌ای برای سر هم کردن دوباره آنها پیدا کنید.

داده‌های کوچک

ثبت و ردیابی اعداد کوچکتر، به نسبت اعدا بزرگتر، کار ساده‌تری است.

برای‌مثال، فرض کنید در حال بررسی جریانی از اعداد مابین صفر و ۵۰,۰۰۰,۰۰۰ هستید (کاری مشابه با پیدا کردن کاربران اینترنت از طریق آدرس IP). شما می‌توانید با استفاده از یک مدخل ۵۰,۰۰۰,۰۰۰ واژه‌ای، به ردیابی اعداد مشغول شوید، اما کار کردن با مدخلی به چنین بزرگی کار ساده ای نیست. راه بهتر این است که به هر عدد هشت رقمی به عنوان چهار مدخل دو رقمی فکر کنیم که به هم متصل هستند.

بر فرض شما شماره ۱۲,۳۴۵,۶۷۸ را می بینید. یک شیوه موثر برای بخاطر آوردن این شماره تقسیم کردن آن به چهار بلوک دو رقمی است: ۱۲, ۳۴, ۵۶, ۷۸٫ سپس می‌توانید هر بلوک را به یک الگوریتم تابع ارسال کنید که فرکانس آیتم‌ها را محاسبه می‌کند: ۱۲ یک الگوریتم را کپی می کند، ۳۴ دو الگوریتم را کپی می‌کند، ۵۶ سه الگوریتم را کپی می‌کند و ۷۸ چهار الگوریتم.

هر الگوریتم تابع، مدخل خود از چیزی که دیده است را حفظ می‌کند، اما از آنجایی که هر نسخه هیچوقت چیزی بیشتر از یک عدد دو رقمی را نمی‌بیند، هر مدخل تنها مابین عددهای صفر تا ۹۹ در نوسان هستند.

یک ویژگی مهم از تقسیم کردن اعداد بزرگ این است که، اگر این عدد بزرگ، ۱۲۳۴۵۷۸، در جریان کلی داده‌ی شما بطور مکرر ظاهر شود، اجزای دو رقمی آن نیز ظاهر می‌شوند. زمانی که شما از هر الگوریتم تابع می‌خواهید که ارقامی که بیشتر دیده اند را شناسایی کنند، کپی اول ۱۲ را به ما می‌دهد، کپی دوم ۳۴ را به ما می‌دهد و به همین ترتیب. شما قادر خواهید بود بیشترین اعداد تکرار شده در هر گروه را تنها با نگاه کردن به آیتم‌های تکرار شده در هر لیست پیدا کنید.

نلسون می‌گوید :«به جای صرف کردن ۵۰ میلیون واحد زمانی برای چرخش دور کل کهکشان، شما تنها از چهار الگوریتم برخوردارید که ۱۰۰ واحد از زمان را صرف می‌کنند».

مشکل اصلی استراتژی تقسیم کردن این است که، با وجود ساده بودن قطعه کردن اعداد بزرگ به اعداد کوچک، سر هم کردن دوباره آن به یک عدد بزرگ کار ساده‌ای نیست. نمی‌توان با در کنار هم قرار دادن این اعداد کوچک عدد بزرگ را به دست آورد.

برای مثال، فرض کنید جریان داده شما بطور مکرر شامل اعدادی می‌شود که در میان آنها عدد مشترک وجود دارد: ۱۲۳۴۵۶۷۸ و ۱۲۹۹۹۹۹۹٫ هر دو با ۱۲ شروع می‌شوند. الگوریتم شما هر عدد را به چهار عدد کوچکتر تبدیل می ، سپس هر کدام را به یک الگوریتم تابع ارسال می‌کند. سپس، شما از هر الگوریتم تابع درخواست می کنید که :«چه اعدادی را دیده‌اید که بیشتر تکرار شده‌اند؟». کپی اول می‌گوید :«تعداد زیادی از ۱۲ دیده‌ام». الگوریتمی که تلاش می‌کند بفهمد کدام اعداد هشت رقمی دیده شده، بیشتر تکرار شده اند، نمی تواند بگوید آیا تمامی این ۱۲ ها به یک گروه هشت رقمی مربوط است و یا متعلق به دو گروه متفاوت است.

نلسون می‌گوید: «چالش، فهمیدن این مورد است که کدام بلوک دو رقمی باید بر کدام بلوک دو رقمی دیگر متمرکز شود».

این نویسندگان نیویورکی، چالش را بدین طریق حل کردند: آنها هر بلوک دو عددی را با یک تگ کوچک اسم‌گذاری کردند. این تگ حافظه‌ی چندانی به خود اختصاص نمی‌دهد اما به الگوریتم اجازه می‌دهد که قطعات دو عددی را به شیوه ی صحیح کنار هم بچیند

برای مشاهده کردن رویکرد ساده‌ای از شیوه ی تگ گذاری، با عدد ۱۲۳۴۵۶۷۸ شروع و آن را به بلوک‌های دو رقمی تقسیم کنید. قبل از اینکه هر بلوک را به الگوریتم تابع مرتبط‌اش ارسال کنید، بلوک را با یک جفت عدد شناسایی منحصربفرد، که می توان از آن برای جمع کردن ارقام در کنار هم استفاده کرد، بسته بندی کنید. اولین تگ به عنوان نام بلوک عمل می‌کند و دومی به عنوان یک لینک. به این شیوه، ۱۲۳۴۵۶۷۸ به مورد زیر تبدیل می شود:

۱۲, ۰, ۱ / ۳۴, ۱, ۲ / ۵۶, ۲, ۳ / ۷۸, ۳, ۴

اینجا عدد ۱۲ اسم ۰ را بر خورد دارد و به عددی با اسم ۱ لینک می شود. عدد ۳۴ اسم ۱ را بر خورد دارد و به عددی با اسم ۲ متصل می شود. و به همین ترتیب.

اکنون، زمانی که الگوریتم‌های تابع به بلوک‌هایی که بیشترین تکرار را داشته‌اند برمی‌گردند، ۱۲ به دنبال عددی با تگ ۱ می‌گردد و ۳۴ را پیدا می‌کند، سپس ۳۴ به دنبال عددی با تگ ۲ می‌گردد و ۵۶ را پیدا می‌کند، و ۵۶ به دنبال عددی با تگ ۳ می‌گردد و ۷۸ را پیدا می‌کند.

به این شیوه، شما می‌توانید بلوک‌های دو رقمی را به عنوان لینک‌هایی زنجیره‌ای ببینید که در آن، لینک‌ها توسط این اعداد تگ‌گذاری شده اضافی کنار هم جمع می‌شوند.

البته مشکل این زنجیرها این است که قدرتشان به اندازه ضعیف‌ترین لینکشان است. و شکستن این زنجیرها حتمی است.

پایه و اساس

هیچ الگوریتمی در زمان عملکرد بی عیب و نقص نیست. حتی بهترین الگوریتم‌ها نیز بعضی اوقات تیرشان به خطا می‌رود. در مثالی که از آن استفاده کردیم، مورد اشتباهی می‌تواند بلوک دو رقمی ثانوی، ۳۴، باشد که تگ اشتباهی را به آن چسپانده‌اند و به عنوان نتیجه، زمانی که به دنبال بلوکی می‌گردد که باید به آن ملحق شود، اطلاعات مورد نیاز برای پیدا کردن ۵۶ را در اختیار ندارد. و زمانی که این زنجیره لینکی پاره شود، کل تلاش ما بر باد می‌رود.

برای جلوگیری از پیش آمدن این مشکل، محققان از چیزی که آن را «گراف بسط دهنده» (expander graph) می‌نامند استفاده می‌کنند. در یک گراف بسط دهنده، هر بلوک دو رقمی یک نقطه را تشکیل می‌دهد. نقاط توسط خط به هم متصل می‌شوند (بر طبق فرآیند تگ ‌گذاری شرح داده شده در بالا) تا یک خوشه را تشکیل دهند. ویژگی مهم یک گراف بسط دهنده این است که به جای اتصال صرف هر نقطه با بلوک مرتبط با آن، شما هر بلوک دو رقمی را با دیگر بلوک‌های چندگانه متصل می‌کنید. برای مثال، با ۱۲۳۴۵۶۷۸، شما ۱۲ را هم با ۳۴ و هم با ۵۶ متصل می‌کنید، پس می‌توانید بگویید که ۱۲ و ۵۶ به یک شماره تعلق دارند حتی با وجود اینکه لینک مابین ۱۲ و ۳۴ شکست می‌خورد.

یک گراف بسط دهنده همیشه عالی عمل نمی‌کند. بعضی اوقات در لینک کردن دو بلوکی که باید لینک شوند با شکست مواجه می‌شود. یا دو بلوکی را به هم لینک می‌کند که به یکدیگر تعلق ندارند. برای جلوگیری از این رویداد، محققان قدم نهایی الگوریتم خود را توسعه دادند: یک الگوریتم «نگهدارنده خوشه» که می‌تواند یک گراف بسط دهنده را طی کند و بطور دقیق تشخیص دهد کدام نقاط باید با همدیگر خوشه شوند و کدام نقاط نه. حتی با وجود اینکه بعضی از خطوط تشکیل نشده‌اند و خطوط اشتباهی جایگزین آنان شده اند.

ثروپ می‌گوید :«این تضمین می‌دهد من می‌توانم چیزی که شبیه به خوشه‌های اصلی است را بازیابی کنم».

و از آنجایی که توییتر قرار نیست فردا طرح بسط دهنده را اجرایی کند، تکنیک‌های اساس آن به رنج گسترده‌تری از معضلات علوم کامپیوتر بسط پیدا می‌کنند. این الگوریتم همچنین ثابت می‌کند که مواردی از فداکاریهایی که قبلا به نظر برای پاسخ به آیتم‌های مکرر لازم بودند، اصلا نیازی نیست که انجام یابند. الگوریتم‌های پیشین همیشه موردی را در نظر نگرفته بودند؛ آنها دقیق بودند اما مثلا قادر نبودند که تشخیص دهند کدام یک از واژگان پر تکرار در حال ترند شدن هستند. این اثر جدید نشان می‌دهد، با اجرایی کردن رمزگذاری حجم زیادی از اطلاعات، شما می‌توانید به نتایج بسیار بهتری دست پیدا کنید. می‌توانید آیتم‌های پر تکرار را ذخیره و آنها را فرا بخوانید.

گروه خبری : دنیای فناوری
کد خبر : 4570

کلمات کلیدی

سازمان فناوری اطلاعات و ارتباطات شهرداری بندرعباس

منبع:کلیک

کشف بهترین الگوریتم جریان داده ها برای دیتابیس‌های بزرگ

نظرات

0 نظر برای این مطلب وجود دارد

نظر دهید

مدیریت

خانم مهندس فاطمه اهل کوت

نظرسنجی

بازدیدکنندگان

سازمان فناوری اطلاعات و ارتباطات شهرداری بندرعباس

انتخاب حالت کور رنگی