نطلب من مكبرات الصوت الذكية لدينا تشغيل الموسيقى، وإخبارنا بحالة الطقس، والتحكم في الإضاءة، والإجابة على أسئلتنا التي لا تنتهي. وتبدو لحظة الاستجابة الفورية التي تشبه المحادثة وكأنها سحر — تفاعل سلس مع كيان رقمي. لكن “الذكاء” الحقيقي لمكبر الصوت الذي يعمل بالذكاء الاصطناعي لا يكمن فقط في الخوارزميات المستندة إلى السحابة؛ بل يعتمد بشكل أساسي على تآلف متطور من الأجهزة المادية التي تعمل في تناغم تام. فالميكروفون الذي يسمعك رغم الضوضاء، والرقاقة التي تعالج طلبك بسرعة البرق، ومكبر الصوت الذي يقدم ردًا واضحًا تمامًا، هم الأبطال المجهولون. يشرح هذا المقال المكونات الأساسية للأجهزة التي تحول مكبر صوت بسيطًا إلى رفيق “ذكي” على ما يبدو.

النظام البيئي للأجهزة: أكثر من مجرد مكبر صوت

للوهلة الأولى، قد يبدو مكبر الصوت الذي يعمل بالذكاء الاصطناعي شبيهاً بمكبر الصوت التقليدي الذي يعمل بتقنية البلوتوث. ومع ذلك، يضم هيكله نظاماً حاسوبياً متكاملاً مصمماً خصيصاً لمهمة أساسية واحدة، وهي: تسهيل التفاعل الصوتي الطبيعي دون الحاجة إلى استخدام اليدين. ويمكن تصور هذا النظام على أنه مسار متسلسل: الاستلام → المعالجة → الإجراء → الناتج.

تبدأ الرحلة بـ أجهزة الاستحواذ—الميكروفونات وأجهزة الاستشعار التي تستشعر العالم المادي. وتُوجه هذه البيانات إلى نواة المعالجة والاتصال—نظام على رقاقة (SoC)، والذاكرة، والوحدات اللاسلكية التي تعمل بمثابة «دماغ» الجهاز و«جهازه العصبي». وأخيرًا، فإن أنظمة الإخراج والطاقة—محرك السماعة، والمضخم الصوتي، ووحدات إدارة الطاقة—تقدم الاستجابة السمعية والمادية. كل طبقة من هذه الطبقات ذات أهمية حاسمة. فعندما تنخفض حساسية الميكروفون، يصبح أقوى نموذج للذكاء الاصطناعي عديم الفائدة؛ وعندما يكون المعالج بطيئًا، يتسبب ذلك في تأخير مزعج، مما يكسر وهم الذكاء؛ أما السماعة ذات الجودة الرديئة، فتقوض التجربة برمتها. ولا تُكتسب صفة “الذكاء” إلا عندما تعمل جميع هذه الطبقات بدقة عالية وزمن انتقال منخفض.
الجدول 1: المكونات الأساسية للأجهزة في مكبر الصوت الحديث الذي يعمل بالذكاء الاصطناعي (الوضع في عام 2024)
| فئة المكون | المكونات الفرعية الرئيسية | الوظيفة ومثال من الواقع العملي | مؤشر الأداء |
| :— | :— | :— | :— |
| التسجيل الصوتي | مصفوفة ميكروفونات بعيدة المدى (4-7 ميكروفونات)، برنامج ترميز صوتي | تلتقط الأوامر الصوتية في البيئات الصاخبة. على سبيل المثال، تقنية تشكيل الحزمة الصوتية (Beamforming) لعزل صوت المتحدث عن ضجيج التلفزيون. | نسبة الإشارة إلى الضوضاء (SNR > 60 ديسيبل)، دقة كلمة التنبيه (>95% عند مسافة 5 أمتار) |
| نواة المعالجة | نظام على رقاقة (SoC): وحدة المعالجة المركزية (CPU)، وحدة المعالجة العصبية (NPU)، وحدة المعالجة الرقمية (DSP)، وحدة معالجة الرسومات (GPU) | يقوم بتشغيل نظام تشغيل الجهاز، ويتولى مهام التعلم الآلي على الجهاز (مثل: اكتشاف كلمة التنبيه)، والمعالجة المسبقة للصوت. | سرعة الساعة (على سبيل المثال، معالج رباعي النوى A53 بسرعة 1.8 جيجاهرتز)، وحدة TOPS لوحدة المعالجة العصبية (NPU) (على سبيل المثال، 2-4 TOPS للذكاء الاصطناعي على الجهاز) |
| الاتصال | Wi-Fi 6/6E (802.11ax)، بلوتوث 5.3/5.4، Thread، Zigbee | يتصل بالسحابة والهواتف الذكية وأجهزة المنزل الذكي الأخرى. يتيح إنشاء شبكة متشابكة لأتمتة المنزل. | معدل نقل البيانات (على سبيل المثال، 1.2 جيجابت في الثانية على Wi-Fi 6)، استهلاك منخفض للطاقة |
| إخراج الصوت | مكبرات صوت كاملة النطاق، مشعاع سلبي، مضخم صوت من الفئة D | ينتج صوتًا عالي الدقة للموسيقى والأداء الصوتي. | استجابة التردد (على سبيل المثال، 60 هرتز – 20 كيلوهرتز)، التشويه التوافقي الكلي (<1%) |
| الطاقة وأجهزة الاستشعار | محول التيار المتردد / البطارية، دارة إدارة الطاقة (PMIC)، مستشعر الإضاءة المحيطة | يوفر طاقة مستقرة، ويتيح ميزة الكشف عن النشاط الصوتي (VAD) لتوفير طاقة البطارية، ويضبط سطوع مصباح LED. | عمر البطارية (للأجهزة المحمولة)، كفاءة الطاقة (أقل من 2 واط في وضع السكون) |
«أذنا» الجهاز: مصفوفات الميكروفونات والهندسة الصوتية
يتمثل التحدي الأكبر الذي يواجه مكبر الصوت الذي يعمل بالذكاء الاصطناعي في التقاط كلمة التنشيط (“Hey Google”، “Alexa”، “Hey Siri”) بشكل موثوق، حتى في غرفة المعيشة الصاخبة. ولا يتم حل هذه المشكلة باستخدام ميكروفون واحد، بل من خلال مجموعة من ميكروفونات المجال البعيد (عادةً ما يتراوح عددها بين 4 و7). تعمل هذه الميكروفونات معًا باستخدام تقنيات متطورة لمعالجة الإشارات:
- تشكيل الحزمة: يقوم هذا المصفوف بتوجيه نمط التقاط حساس إلكترونيًّا نحو المتحدث، مما يخلق فعليًّا “ضوءًا صوتيًّا مركَّزًا” يعزز صوته مع قمع الضوضاء القادمة من الاتجاهات الأخرى.
- إلغاء الصدى الصوتي (AEC): ويُعد هذا الأمر بالغ الأهمية عندما يقوم مكبر الصوت بتشغيل موسيقى بصوت عالٍ. تستخدم خوارزميات AEC إشارة مرجعية من خرج مكبر الصوت لطرحها من مدخلات الميكروفون، مما يمنع الجهاز من التقاط صوته الخاص والاستجابة له.
- قمع الضوضاء: تعمل الخوارزميات على تصفية الضوضاء الخلفية الثابتة، مثل أزيز مكيف الهواء أو أصوات المروحة.
تتضمن أحدث الموديلات ميكروفونات ذات ضوضاء منخفضة للغاية مع نسبة إشارة إلى ضوضاء (SNR) عالية، تتجاوز أحيانًا 65 ديسيبل. علاوة على ذلك،, كشف نشاط الصوت (VAD) يتم التعامل مع هذه المهمة بشكل متزايد بواسطة معالج مخصص منخفض الاستهلاك للطاقة داخل نظام SoC، مما يسمح لوحدة المعالجة المركزية (CPU) الرئيسية بالبقاء في وضع السكون حتى يتم الكشف عن محفز صوتي حقيقي — وهي ميزة حاسمة للأجهزة التي تعمل بشكل مستمر، وتراعي الخصوصية، وتتميز بكفاءة استهلاك الطاقة.
الدماغ والجهاز العصبي: أنظمة على رقاقة (SoCs)، والاتصال، والذكاء الاصطناعي المدمج في الأجهزة
يتم إرسال البيانات الصوتية الأولية إلى نظام على رقاقة (SoC), ، الدماغ المركزي. تُعد أنظمة SoC الحديثة المخصصة لمكبرات الصوت التي تعمل بالذكاء الاصطناعي أعجوبة في مجال التكامل:
- وحدة المعالجة المركزية: يتولى إدارة منطق التشغيل العام لنظام التشغيل والتطبيقات.
- DSP (معالج الإشارات الرقمية): معالج متخصص مُحسَّن لإجراء العمليات الحسابية على الإشارة الصوتية في الوقت الفعلي (تشكيل الحزمة، وإلغاء التداخل الصوتي، وقمع الضوضاء).
- NPU (وحدة المعالجة العصبية): العامل الذي يغير قواعد اللعبة بالنسبة للأجهزة “الذكية” الحديثة. يقوم هذا المُسرِّع المادي المتخصص بإجراء عمليات الاستدلال في مجال التعلم الآلي على الجهاز نفسه بكفاءة فائقة في استهلاك الطاقة. اليوم، تتم جميع عمليات الكشف عن كلمات التنبيه تقريبًا، بالإضافة إلى عدد متزايد من عمليات معالجة الأوامر الصوتية، محليًّا على وحدة المعالجة العصبية (NPU). وهذا يعني أن عبارة “Hey Google” يتم التعرف عليها فورًا على الجهاز دون الحاجة إلى إرسالها إلى السحابة والعودة بها، مما يعزز السرعة والخصوصية. ويُقاس أداء وحدة المعالجة العصبية (NPU) بـ TOPS (تيرا عملية في الثانية), ، حيث تتميز رقائق السماعات الذكية من الجيل الحالي بمعجلات مخصصة للذكاء الاصطناعي قادرة على تحقيق أداء يتراوح بين 1 و4 تيرا أوبس.
- الاتصالات اللاسلكية: متكامل واي فاي 6/6E يوفر اتصالات مستقرة وذات نطاق ترددي عالٍ بالسحابة لإجراء الاستعلامات المعقدة. بلوتوث 5.3/5.4 يتيح البث المباشر من الهواتف. والأهم من ذلك، أن العديد من مكبرات الصوت أصبحت تشتمل الآن على الموضوع أو زيغبي أجهزة الراديو، التي تعمل كـ محاور المنازل الذكية التي يمكنها التحكم مباشرةً في الأجهزة منخفضة الاستهلاك للطاقة، مثل مستشعرات الأبواب أو المصابيح الذكية، دون الاعتماد على جسر خارجي أو إحداث ازدحام في شبكة الواي فاي.
تنفيذ الاستجابة: الإخراج الصوتي، والطاقة، والدور الخفي لأجهزة الاستشعار
بمجرد أن تقوم السحابة بمعالجة الاستعلام (أو أن يتولى الذكاء الاصطناعي المثبت على الجهاز معالجته)، يجب توصيل الرد بشكل فعال. الـ سلسلة إخراج الصوت أمر بالغ الأهمية لرضا المستخدم. أ مضخم صوت رقمي من الفئة D يُشغّل بكفاءة محرك (محركات) السماعة. تستخدم العديد من التصاميم مكبر صوت كامل النطاق مقترن بمشع سلبي لتعزيز استجابة الصوت الجهير دون الحاجة إلى مكبر صوت فرعي كبير يستهلك الكثير من الطاقة. ويضمن ضبط الصوت — الذي يتم غالبًا بالتعاون مع العلامات التجارية الشهيرة في مجال الصوت (مثل تعاون «أمازون» مع «دولبي» أو «جوجل» مع «كرومكاست» المدمج في ضبط الصوت) — وضوح الأصوات الصوتية وتشغيلًا ممتعًا للموسيقى.
إدارة الطاقة متطورة. أ دائرة متكاملة لإدارة الطاقة (PMIC) يتحكم بدقة في الجهد الكهربائي الموجه إلى المكونات المختلفة، مما يضمن تحقيق أقصى قدر من الكفاءة. أما بالنسبة للأجهزة التي تظل موصولة بالكهرباء بشكل دائم، فإن الهدف هو الحفاظ على استهلاك الطاقة في وضع السكون أقل من 2 واط. بالنسبة للمكبرات الصوتية المحمولة التي تعمل بالبطارية، يُعد نظام التشغيل المتقطع المعقد — حيث لا يعمل سوى مجموعة الميكروفونات والنواة منخفضة الطاقة — أمرًا ضروريًا لضمان بقاء الجهاز في وضع الاستعداد لعدة أيام.
وأخيرًا،, أجهزة استشعار البيئة المحيطة تلعب دورًا خفيًّا. فمستشعر الضوء يمكنه خفض سطوع مصابيح LED في غرفة مظلمة، كما أن مقياس التسارع في الأجهزة المحمولة يمكنه تمكين إيماءات النقر (مثل النقر للإيقاف المؤقت). تضيف هذه المستشعرات مستويات إضافية من الوعي بالسياق، مما يجعل التفاعل يبدو أكثر بديهية و“ذكاءً”.”
أسئلة وأجوبة احترافية
السؤال 1: ما هي نسبة المعالجة “الذكية” التي تتم فعليًّا على الجهاز مقارنةً بتلك التي تتم في السحابة في الوقت الحالي؟
أ: لقد تغير المشهد بشكل جذري. في عام 2024،, تتم جميع عمليات الكشف الأولي عن كلمات التنبيه داخل الجهاز نفسه باستخدام وحدة المعالجة العصبية (NPU) أو وحدة المعالجة الرقمية (DSP) المخصصة. علاوة على ذلك، يتم معالجة عدد متزايد من الأوامر الأساسية (مثل “رفع مستوى الصوت”، “إيقاف”، “ضبط المؤقت لمدة 10 دقائق”) محليًّا بالكامل من أجل الاستجابة الفورية وتعزيز الخصوصية. أما الاستفسارات المعقدة التي تتضمن البحث أو المعلومات في الوقت الفعلي أو المحادثات الطويلة باللغة الطبيعية، فلا تزال تُرسل إلى السحابة. ويتجه اتجاه الصناعة بشكل لا لبس فيه نحو الذكاء الاصطناعي على الحافة, ، ونقل المزيد من عمليات المعالجة إلى الجهاز نفسه بهدف تقليل زمن الاستجابة، وزيادة الموثوقية دون الاعتماد على الإنترنت، وتعزيز خصوصية المستخدم.
السؤال 2: لماذا تحتوي بعض مكبرات الصوت التي تعمل بالذكاء الاصطناعي على وحدة إرسال لاسلكية تعمل بتقنية Zigbee أو Thread، وكيف يؤثر ذلك على أداء المنزل الذكي؟
أ: على الرغم من أن شبكة الواي فاي تُعد خيارًا ممتازًا لنقل البيانات التي تتطلب نطاقًا تردديًّا عريضًا، إلا أنها تستهلك قدرًا كبيرًا من الطاقة بالنسبة للأجهزة المنزلية الذكية الصغيرة مثل مستشعرات الأبواب والنوافذ أو المقابس الذكية. Zigbee و Thread هي بروتوكولات شبكات شبكية (mesh) منخفضة الاستهلاك للطاقة ومنخفضة زمن الاستجابة، مصممة خصيصًا لإنترنت الأشياء (IoT). من خلال بناء توصيل شبكة Zigbee أو Thread لاسلكيًا مباشرةً بمكبر صوت يعمل بالذكاء الاصطناعي, ، يصبح المتحدث محور المنزل الذكي. وهذا يتيح له التواصل مباشرة مع هذه الأجهزة منخفضة الاستهلاك للطاقة، مما يخلق شبكة أكثر متانة واستجابة وتخصيصًا لمنزلك الذكي. كما أنه يقلل من الازدحام على شبكة الواي فاي الرئيسية، ويحسن عمر بطارية الأجهزة (أحيانًا لسنوات)، وغالبًا ما يزيد من موثوقية وسرعة عمليات التشغيل التلقائي (مثل مستشعر الحركة الذي يشغل الإضاءة).
السؤال 3: من منظور الأجهزة، ما هو أكبر عائق يواجه تصميم مكبرات الصوت التي تعمل بالذكاء الاصطناعي حاليًا، وما الذي ينتظرنا في المستقبل؟
أ: لا يزال القيد الرئيسي المتعلق بالأجهزة هو التوازن بين جودة الصوت والحجم والتكلفة. يتطلب الصوت عالي الدقة حقًّا مكبرات صوت أكبر حجمًا، وحجمًا داخليًّا أكبر، وتصميمًا صوتيًّا متطورًا، وهو ما يتعارض مع الرغبة في الحصول على أجهزة صغيرة الحجم وغير بارزة. وفي المستقبل القريب، نرى عدة تطورات رئيسية:
- ذكاء اصطناعي أكثر قوة وكفاءة على الجهاز: ستتيح وحدات المعالجة العصبية (NPU) من الجيل التالي إجراء تفاعلات محلية أكثر تعقيدًا، بل وحتى الفهم متعدد الوسائط (على سبيل المثال، الاستجابة بشكل مختلف إذا كان يسمع البكاء و ترى (عبر كاميرا متصلة تُظهر أن الطفل مستيقظ).
- التكامل المتقدم لأجهزة الاستشعار: إدراج أجهزة الراديو ذات النطاق العريض جدًّا (UWB) قد يتيح ذلك للمكبرات الصوتية أن تعمل بمثابة نقاط ارتكاز مكانية، مما يتيح استجابات تراعي بيئة الغرفة (مثل الرد فقط في الغرفة التي تم استدعاء المكبر منها) وتحديد موقع الجهاز بدقة.
- التصميم المستدام: تركيز متزايد على استخدام المواد المعاد تدويرها، والتصاميم المعيارية التي تسهل عملية الإصلاح، وحتى أوضاع توفير الطاقة الأكثر صرامة، بهدف تقليل الأثر البيئي لهذه الأجهزة التي تعمل بشكل مستمر.