مقدمه
شناسایی علائم راهنمایی و رانندگی عبارت است از پیدا کردن و رده بندی خودکار علائم راهنمایی و رانندگی در تصویری که از صحنه ترافیک گرفته شده است. بنا به تحقیقات انجام شده، اکثر تصادفات رانندگی، از بی توجهی رانندگان به این علائم ناشی می شود. بنابراین به کارگیری سیستم شناسایی علائم راهنمایی و رانندگی به عنوان یک سیستم کنترلی در اتومبیل می تواند آمار تصادفات را کاهش دهد.
طراحی سیستم شناسایی علائم راهنمایی و رانندگی با مشکلات زیادی همراه است. تصاویر گرفته شده به دلایل مختلف دارای نویز می باشند.
شدت و ضعف نور محیط بر روی رنگ تصویر تأثیرمی گذارد. علائم در مکان های مختلفی در صفحه تصویر ظاهر می شوند، همچنین اشیاء بسیاری در صحنه حضور دارند که وجود آنها کار کشف علائم را با مشکل مواجه می کند. علائم ممکن است کاملاً مشابه استاندارد تعریف شده نباشند. مقیاس علائم در تصویر متغیر است (بسته به فاصله اتومبیل از تابلو)، همچنین یک زاویه غیر صفر بین محور اپتیکال دوربین با بردار عمود بر سطح تابلو علامت وجود دارد. مجموع عوامل بالا شناسایی علائم راهنمایی و رانندگی را پیچیده می سازد.
گروه تحقیق دانشگاه جنوا در ایتالیا نیز، تحقیقاتی در زمینه شناسایی علائم راهنمایی و رانندگی در تصاویر سیاه و سفید با استفاده از روش محاسبه ضریب همبستگی انجام داده است. دقت سیستم طراحی شده بین ٩٢ تا ٩۶ درصد و زمان کل پردازش در حدود ۵٠٠ میلی ثانیه است. در این مقاله روشی برای شناسایی علائم راهنمایی و رانندگی به وسیله شبکه عصبی پیشنهاد شده است. این روش مبتنی بر استخراج یک بردار ویژگی از تصویر علامت سپس شناسایی آن با شبکه عصبی است. همچنین با به کارگیری برخی فنها، شناسایی مستقل از مقیاس علائم و مکان علائم در صفحه تصویر انجام می شود.
استخراج بردار ویژگی
برای شناسایی علائم راهنمایی و رانندگی، ابتدا لازم است یک بردار ویژگی از تصویر آن استخراج گردد؛ در این مقاله از روشی برای استخراج بردار ویژگی استفاده شده است. روش مذکور یک بردار ویژگی مستقل از دوران، انتقال و مقیاس را از شکل باینری استخراج می کند که خصوصیت مستقل بودن از انتقال و مقیاس آن در اینجا مورداستفاده قرار می گیرد. همچنین ویژگی های استخراج شده از دو شکل تقریباً مشابه، به هم نزدیک می باشند. این خصوصیات، بردار ویژگی مذکور را برای شناسایی علائم راهنمایی و رانندگی مناسب می سازد.
روش استخراج این بردار ویژگی از یک شکل باینری به طور خلاصه به شرح زیر است:
ابتدا مختصات پیکسل های سیاه تصویر به عنوان یک توزیع دو بعدی از داده ها در نظر گرفته می شود و ماتریس کواریانس این توزیع محاسبه می گردد. سپس دو مقدار ویژه ١ و دو بردار ویژه ٢ این ماتریس به دست می آیند. پس از آن، شکل بر اساس دو بردار ویژه به دست آمده (که ابتدای آنها در مرکز جرم شکل فرض می شوند) به چهار ناحیه تقسیم می شود (شکل ۱) برای هرکدام از این نواحی نیز، به طور جداگانه، ماتریس کوواریانس، مقادیر و بردارهای ویژه محاسبه می شود سپس برای هر ناحیه چهار پارامتر مستقل از دوران، انتقال و مقیاس محاسبه می گردند. برای شکل اولیه نیز دو پارامتر محاسبه می شود. این چهار پارامتر به شرح زیر تعریف می شوند:
= eigen-ratio نسبت مقدار ویژه کوچکتر ناحیه به مقدار ویژه بزرگتر ناحیه.
= normal-angle زاویه حاده بین بردار ویژه بزرگتر ناحیه با بردار ویژه بزرگتر شکل اصلی.
= center مجذور فاصله بین مرکز جرم ناحیه با مرکز جرم شکل اصلی، تقسیم بر مقدار ویژه بزرگتر شکل اصلی
= compactness نسبت مساحت ناحیه به مساحت ناحیه. bounding-box
شکل ۱ : تقسیم شکل باینری به چهار ناحیه بر اساس بردارهای ویژه
علائم راهنمایی و رانندگی در ۴ قالب کلی دایره، مثلث، مربع و مستطیل موجود می باشند. که بعضی از این دسته ها رامی توان ازنظر طرح و رنگ به چند دسته کوچکتر تقسیم کرد .
برای شناسایی قالب کلی علائم، باید تصویر طوری باینری شود که شکل هندسی و طرح کلی علامت بدون توجه به جزئیات آن استخراج گردد . برای این منظور یک آستانه دوگانه را بر تصویر سطح خاکستری علائم اعمال می کنیم طوری که قسمتهای آبی و قرمزرنگ تصاویر به رنگ سیاه و بقیه قسمت ها به رنگ سفید درآیند. حال با توجه به شکل و طرح کلی علامت ها بعد از اعمال آستانه، آن ها را به ٨ گروه تقسیم می کنیم. (شکل ۲)
شکل ۲: هشت گروه علائم راهنمایی و رانندگی
بعد از باینری کردن تصویر (با آستانه دوگانه) ناحیه های سیاه و کوچکی که ممکن است به دلیل وجود نویز یا عوامل دیگر در تصویر باینری موجود باشند، با استفاده از یک فیلتر اندازه(که ناحیه های با اندازه کمتر از ۴ پیکسل را حذف می کند )حذف می شوند. بعد از آن بردار ویژگی از شکل باینری استخراج می گردد.
بردارهای ویژگی استخراج شده از تصاویر به عنوان داده آموزشی شبکه عصبی به کار می روند.
برای آموزش، این بردارها را در ورودی شبکه و بردار هدف را در خروجی شبکه عصبی قرار می دهیم. بردار هدف برداری به طول(به تعداد گروهها) است که بسته به گروهی که بردار ورودی به آن متعلق است، یکی از عناصر آن ١ و بقیه عناصر صفرمی باشند. پس از آموزش، از این شبکه عصبی برای شناسایی شکل کلی علامت (گروهی که علامت به آن متعلق است ) استفاده می شود . پس از شناسایی شکل کلی علامت، باید شکل اصلی داخل علامت شناسایی شود. شکل اصلی علامت اغلب به صورت یک شکل سیاه، سفید یا قرمزرنگ در وسط علامت قرار دارد؛ با استفاده از یک آستانه مناسب برای هرکدام از گروهها، این شکل اصلی استخراج می گردد.
مثلاً برای گروه ١، آستانه طوری انتخاب می شود که شکل سیاه رنگ علامت به رنگ سیاه باقی مانده و بقیه ناحیه ها سفیدرنگ شوند.
پس از اعمال آستانه، ناحیه های کوچک نویزی تصویر با استفاده از یک فیلتر اندازه حذف می گردند. و در مرحله بعد بردار ویژگی شکل استخراج می شود. بردارهای ویژگی استخراج شده از تصاویر هر گروه، به یک شبکه عصبی جداگانه آموزش داده می شوند. تعداد نرون خروجی شبکه عصبی مربوط به هر گروه برابر تعداد علامتهای موجود در آن گروه است.
لازم به ذکر است که برای گروه هایی که شکل اصلی علامت در آن ها سفید یا سفید_قرمز است(مانند گروه ٨)، اعمال آستانه مجدد لازم نیست و می توان از همان بردار ویژگی استخراج شده در مرحله قبل برای آموزش شبکه عصبی استفاده کرد.
برای شناسایی یک علامت راهنمایی و رانندگی، ابتدا با استفاده از شبکه عصبی مرحله قبل، شکل کلی علامت (گروهی که علامت به آن متعلق است) را شناسایی کرده و سپس با استفاده از شبکه عصبی مربوط به آن گروه، علامت را شناسایی می کنیم . بلوک دیاگرام سیستم شناسایی در شکل ۳ آمده است.
شکل ۳: بلوک دیاگرام سیستم شناسایی علائم راهنمایی و رانندگی
نتایج به دست آمده
برای پیاده سازی سیستم شناسایی و دستیابی به یک نتیجه قابل قبول لازم است داده های آموزشی مناسب به تعداد کافی جمع آوری گردد. برای این منظور تصاویر اسکن شده علائم را به کاربرده و به آنها نویز گوسی با میانگین صفر و واریانس ۰٫۵ اضافه کرده ایم. (الگوریتم اضافه کردن نویز گوسی به تصویر و یک نمونه از تصویر نویزی شده در شکل ۴ آمده است. چون تصاویر علائم، رنگی می باشند، این الگوریتم بر روی هرکدام از قسمتهای B و G ، R تصویر به طور جداگانه اعمالشده است). سپس اندازه تصاویر اسکن شده را دو برابر کرده و به آنها هم نویز گوسی اضافه می شود (با اینکه بردار ویژگی که از تصاویر استخراج می شود مستقل از مقیاس است ولی عملاً هنگام تغییر اندازه تصویر در کامپیوتر، تصویر تغییریافته دقیقاً مشابه با تصویر اولیه نمی باشد؛ بنابراین تغییر اندازه را می توان به نوعی اضافه کردن نویز در نظر گرفت) حال به ازای هر علامت چهار تصویر داریم (تصویر اولیه، تصویر دو برابر شد، تصویر اولیه نویزی شده و تصویر دو برابر نویزی شده ) که این تصاویر را به عنوان داده آموزشی به کار می بریم شبکه های عصبی به کار رفته از نوع پرسپترون چندلایه (با یک لایه مخفی) است آموزش به روش پس انتشار انجام می گیرد. تابع تحریک نرون ها نیز سیگموئید است. برای شناسایی یک علامت ناشناخته، بردار ویژگی استخراج شده از آن را (پس از طی مراحلی که دربخش قبل توضیح داده شد) در ورودی شبکه عصبی قرارداده و خروجی شبکه را محاسبه می کنیم؛ نرونی که ماکزیمم مقدار خروجی آن از یک آستانه خاص بیشتر باشد ، تعیین کننده نوع علامت مربوط به ورودی است.
اگر ماکزیمم خروجی نرونها از آستانه معین شده کمتر باشد، سیستم علامت را ناشناخته اعلام می کند.
مقدار آستانه برای هرکدام از شبکه های عصبی به کار رفته متفاوت است. برای شبکه عصبی مرحله اول، مقدار ۰٫۹ مناسب است.
(الف)
(ب)
شکل ۴: (الف) الگوریتم اضافه کردن نویز گوسی به تصویر، (ب) تصویر نویزی شده با نویز گوسی با میانگین صفر و واریانس۰٫۵
در جدول ١ مقادیر آستانه برای شبکه های عصبی مربوط به هشت گروه علائم آمده است.
جدول ١: مقادیر آستانه برای خروجی های شبکه های عصبی
از آنجا که بردار ویژگی استخراج شده مستقل از مقیاس است، روش به کار رفته قادر به شناسایی علائم با اندازه های متفاوت است. همچنین با آموزش بردارهای ویژگی استخراج شده از تصاویر نویزی به شبکه عصبی، شناسایی نسبت به نویز تا حدی مقاوم می شود. همچنین این سیستم قادر است با وجود یک زاویه کوچک بین محور اپتیکال دوربین با خط عمود بر سطح تابلو، شناسایی را انجام دهد . در جدول ٢ دقت شناسایی سیستم (برحسب درصد) برای تصاویر علائم با مقیاس های مختلف (تا ٣ برابر تصاویر اولیه) و همچنین تصاویر نویزی (با نویز گوسی میانگین صفر و با واریانس های مختلف) آمده است. همان طور که مشاهده می شود در حالت بدون نویز با بزرگ شدن اندازه تصاویر، دقت شناسایی تغییر نمی کند. همچنین دقت سیستم برای تصاویر با نویز۰٫۵ و کمتر قابل قبول است.
درجدول ٣ نیز دقت شناسایی سیستم برای تصاویری که در حالت زاویه دار نسبت به دوربین گرفته شده اند آمده است . مشاهده می شود که برای زاویه های کوچک (کمتر از ١۵ درجه ) شناسایی دقت خوبی دارد. در این حالت می توان با آموزش تصاویر زاویه دار به شبکه عصبی دقت شناسایی را بالا برد.
خصوصیت مستقل از دوران بودن بردار ویژگی، مشکلاتی را ایجاد می کند . زیرا بعضی علائم راهنمایی و رانندگی دوران یافته یکدیگر می باشند و روش پیشنهادی ما این علائم را مشابه هم تشخیص می دهد. در این موارد می توان علاوه بر بردار ویژگی استخراج شده، جهت بردارهای ویژه (eigen vector) شکل را نیز برای شناسایی به کار برد.
جدول ٢: دقت سیستم برای مقیاس ها و نویزهای مختلف
جدول ٣: دقت سیستم برای تصاویر زاویه دار
نتیجه گیری و بحث
در این مقاله روشی برای شناسایی علائم راهنمایی و رانندگی ارائهشده است. این روش مبتنی بر استخراج یک بردار ویژگی مستقل از مقیاس، انتقال و دوران از تصویر علامت و شناسایی آن با شبکه عصبی (طی دو مرحله) است. با اینکه دقت شناسایی این سیستم بالا است ولی این دقت حتی برای تصاویر بدون نویز، صد درصد نیست. دلیل آن تعداد نسبتاً زیاد علائم (در بعضی از گروه های هشت گانه) و شباهت نسبی بعضی علائم به یکدیگرمی باشد که باعث می شود شبکه عصبی مربوطه در مرحله آموزش به خوبی همگرا نشود . یکی از راه های رفع این مشکل استخراج یک بردار ویژگی بزرگتر و جزی تر از تصاویر علائم و آموزش آن به شبکه عصبی است. (همان طور که در گفته شد، روند تقسیم شکل و محاسبه پارامترها را می توان به طور بازگشتی ادامه داد) استفاده از انواع دیگری از شبکه های عصبی (مانند شبکه های RBF) نیز ممکن است نتایج شناسایی را بهبود بخشد. راه دیگر افزایش دقت شناسایی سیستم، مخصوصاً برای تصاویر نویزی، افزایش داده های آموزشی است. در این مقاله فقط تصاویر با نویز گو سی میانگین صفر و واریانس ۰٫۵(علاوه بر تصاویر بدون نویز ) برای آموزش بهکار رفته است.
می توان با آموزش تصاویری با نویزهای بیشتر به شبکه عصبی، دقت شناسایی را برای تصاویر نویزی بالا برد.
اشکال دیگر روش پیشنهادی ما، حجم محاسبات بالا و در نتیجه سرعت پایین آن است در حالی که در یک محیط واقعی (بهعنوان مثال در سیستم های AGV) لازم است که شناسایی به صورت بلادرنگ انجام شود؛ برای دستیابی به سرعت بلادرنگ، باید چنین سیستم های نرم افزاری بر روی پردازنده های بسیار سریع اجرا گردند.
مراجع
[۱] راستکار، سارا، “شناسایی علائم اصلی راهنمایی و رانندگی”، پایان نامه کارشناسی، دانشگاه صنعتی شریف، بهمن ٨٠
[۲] M. Lalonde and Ying Li, Road Sign Recognition, Survey of the State of the Art, CRIM/IIT (Centre de
Recherche Informatique de Montreal), 1995.
[۳] Pavel Paclik, Road Sign Recognition Survey, on-line:
http://euler.fd.cvut.cz/research/rs2/files/skoda_rs_survey.htm, 1999.
[۴] Hae-Kwang Kim and Jong-Deuk Kim, “Region-based shape descriptor invariant to rotation, scale and
translation”, Signal Processing: Image Communication, Vol. 16, pp. 87-93, 2000
[۵] R.C. Gonzalez and R.E. Woods, Digital Image Processing, Addison-Wesley, New York, 1992.
[۶] R. Jain, R. Kasturi and B.G. Schunck, Machin Vision, McGraw-Hill, Singapore, 1995.
[۷] L. Fausett, Fundamentals of Neural Networks, Prentice-Hall, New Jersey, 1994.
۱Automatic Guided