Как работи механизмът за самостоятелно внимание в трансформатора?

Ей там! Аз съм доставчик на трансформатори и днес ще говоря за това как работи механизмът за самостоятелно внимание в трансформатора. Може да звучи малко техническо, но ще го разбия по начин, който е лесен за разбиране.

Да започнем с основите. Трансформаторите са вид невронна мрежова архитектура, които са революционизирали областта на обработката на естествен език (NLP) и други области. Механизмът на самостоятелно внимание е един от ключовите компоненти, които правят трансформаторите толкова мощни.

Какво е себе си - внимание?

Самостоятелното внимание е начин моделът да претегля значението на различните части на входната последователност при обработката му. Казано по -просто, той помага на модела да се съсредоточи върху съответните части на входа. Представете си, че четете дълга статия. Не четете всяка една дума със същото ниво на внимание. Можете да обърнете повече внимание на ключовите изречения, заглавия и съответните подробности. Точно това прави самостоятелното внимание за трансформаторния модел.

Как работи стъпка по стъпка?

1. Заявка, ключови и стойности вектори

Първата стъпка в механизма за самостоятелно внимание е да се създадат три типа вектори за всеки елемент във входната последователност: query (q), ключ (k) и value (v) вектори. Тези вектори се създават чрез умножаване на входните вгради по три различни матрици на теглото.

Да речем, че имаме входна последователност от думи и всяка дума е представена като вектор. Умножаваме тези входни вектори по матриците на теглото (W_Q), (W_K) и (W_V), за да получим съответно векторите на заявката, ключа и стойността.

[Q = xw_q]
[K = xw_k]
[V = xw_v]

Тук (x) е матрицата на входните вгради.

2. Изчисляване на оценките на вниманието

След това изчисляваме оценките на вниманието. Правим това, като вземаме точков продукт на векторите на заявките с ключовите вектори. Продуктът DOT измерва сходството между заявката и клавишите.

За всеки вектор на заявките (q_i) в последователността изчисляваме оценките на вниманието (a_ {i, j}) с всички ключови вектори (k_j) в последователността.

[a_ {i, j} = q_i \ cdot k_j]

Тези резултати ни казват колко (i) - th елемент в последователността трябва да обърне внимание на (j) - th елемент.

3. Мащабиране и софтуер

След това оценките на вниманието се мащабират чрез разделянето им на квадратния корен на измерението на ключовите вектори ((\ sqrt {d_k})). Това мащабиране помага да се предотврати стават твърде големи продуктите, което може да доведе до нестабилни градиенти по време на тренировка.

[a_ {i, j}^{scaled} = \ frac {a_ {i, j}} {\ sqrt {d_k}}]

След мащабиране прилагаме функцията SoftMax към мащабните резултати. Функцията SoftMax преобразува резултатите в вероятности, така че те обобщават до 1.

[\alpha_{i,j}=\frac{\exp(a_{i,j}^{scaled})}{\sum_{k = 1}^{n}\exp(a_{i,k}^{scaled})}]

Тук (\ alpha_ {i, j}) е теглото на вниманието, което представлява значението на (j) - th елемент към (i) - th елемент.

pole-mounted-transformer (2) 400kva dry transformer

4. Претеглена сума от стойности

И накрая, ние изчисляваме изхода на механизма за самостоятелно внимание, като вземем претеглена сума от стойностите на векторите. Ние умножаваме всеки вектор на стойността (v_j) по съответното му тегло на вниманието (\ alpha_ {i, j}) и ги обем за всички (j).

[o_i = \ sum_ {j = 1}^{n} \ alpha_ {i, j} v_j]

Изходните вектори (O_I) са изходът на механизма за самостоятелно внимание за всеки елемент във входната последователност.

Защо самостоятелното внимание е важно?

Механизмът на самостоятелното внимание има няколко предимства. Първо, той позволява на модела да улавя зависимости от дълъг диапазон във входната последователност. В традиционните невронни мрежови архитектури като повтарящи се невронни мрежи (RNN) е трудно да се улавят зависимостите между елементите, които са далеч разделени в последователността. Self - вниманието може лесно да се справи с такива зависимости от дългите диапазони, тъй като може директно да изчисли връзката между всеки два елемента в последователността.

Второ, самостоятелното внимание е паралелно. За разлика от RNN, които обработват входната последователност последователно, самостоятелното внимание може да обработва всички елементи в последователността едновременно. Това прави тренировките и изводите много по -бързи, особено за дълги последователности.

Приложения на трансформатори и самообразие

Трансформатори със самостоятелно внимание механизми са използвани в широк спектър от приложения. В NLP те се използват за задачи като машинен превод, генериране на текст, системи за отговори на въпроси и анализ на настроенията. Например, модели като Bert и GPT са базирани на архитектурата на трансформатора.

При компютърното зрение се прилага и самостоятелно внимание. Може да се използва за анализ на изображения, откриване на обекти и генериране на надписи за изображения.

Нашите трансформаторни продукти

Като доставчик на трансформатори ние предлагаме разнообразие от висококачествени трансформатори. Например имаме167 KVA телефонен трансформатор на полюс, което е подходящо за приложения на открито и може да осигури надеждно захранване. НашитеМаслото потопено трансформатор с ниски загубие проектиран да намали загубата на енергия и има дълъг експлоатационен живот. И ако имате нужда от сух трансформатор, нашия400 kVA сух трансформаторе чудесен избор, с отлични функции за производителност и безопасност.

Ако се интересувате от нашите продукти или имате въпроси относно трансформаторите, не се колебайте да се свържете с нас за преговори за покупка. Тук сме, за да ви предоставим най -добрите решения за вашите нужди от мощност.

ЛИТЕРАТУРА

Vaswani, A., Shazer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, An, ... & Polosukhin, I. (2017). Вниманието е всичко, от което се нуждаете. Напредък в системите за обработка на неврална информация.
Devlin, J., Chang, MW, Lee, K., & Toutanova, K. (2018). Берт: Предварително обучение на дълбоки двупосочни трансформатори за разбиране на езика. Arxiv Preprint Arxiv: 1810.04805.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Езиковите модели са без надзор многозадачни учащи. Openai Blog, 1 (8), 9.