Atenció És tot el que cal Ashish Vaswani Pacific Google Avaswani@gogle.com Noam Shazeer Digon Google nogogle.com Niki Parmarzi Dopege Google Research nipopegle.com Jakob Uszkoreit@ ogogle. org Lloon Jonesupollis@ ogogle. org Els millors models d'actuar també connecten el codificador i descodificador a través d'un mecanisme d'atenció. Solem proposar una nova arquitectura de xarxa, el transformador, basant-nos en mecanismes d'atenció, desfer-se de la repetició i les convolucions del tot. Els experiments en dues tasques de traducció de la màquina mostren aquests models que són superiors en qualitat mentre que són més paral· lelables i requereixen molt menys temps per entrenar. El nostre model aconsegueix 28.4 col·laboracions sobre la tasca de traducció en anglès del WMT 2014 a l'anglès, millorar els millors resultats existents, incloent els grups, més de 2 milles. A la tasca de traducció en anglès del WMTT 2014, el nostre model estableix un nou estat d'un mode únic de la mitjana de 41 dies després de l'entrenament de 3.8 dies a 8 GPUs, una petita fracció dels costos d'entrenament dels millors models de la literatura. Demostram que el sistema de transformació generalitza bé a altres tasques aplicant-la amb èxit al districte anglès analitzant ambdues amb dades d'entrenament grans i limitats. En particular, s'han establert força en l'estat dels enfocaments d'art en la seqüència de models i la contribució de l'Equal. L' ordre de llistat és aleatòria. Jakob proposava substituir RNNs amb auto-tenció i va iniciar l' esforç per avaluar aquesta idea. Ashish, amb Illia, dissenyada i implementat el primer model de transformació i ha estat crucialment involucrat en tots els aspectes d'aquest treball. Noam va proposar escalar l'atenció dotti, l'atenció multi-cap i la representació de posició lliure de paràmetre i es va convertir en l'altra persona involucrada en gairebé tots els detalls. Niki dissenyada, implementats, atents i avaluades incomptables variants de model a la nostra base de codi original i desenesor2tenor. L'Ilensió també va experimentar amb les noves variants de model, va ser responsable de la nostra base de codi inicial, i eficient inferència i visualització. Lukasz i Aidan han passat incomptables dies dissenyant diverses parts de i implementant desenesor2tensor, reemplaçant la nostra base de codi anterior, millorar els resultats i augmentar massivament la nostra recerca. L'SkakuWork va realitzar temps a Google BraokSork, que va dur a terme a terme a Google Research, 31 Conferències a la Conferència d'Informació dels processos dels sistemes (NIPS 2017), Long Beach, CA, EUA. arXiv: 1706. 03762v5 [cs.CL] 6 de 2017 problemes de transducció com ara el model de llenguatge i la traducció de les màquines [35, 2, 5]. Molts esforços han continuat empenyent els límits dels models de llenguatge recurrents i les arquitectura del codificador [38, 24, 15]. Els models recurrents solen coincidir amb les posicions dels símbols de les seqüències d' entrada i de sortida. Alineant les posicions a les passes en el temps de càlcul, generen una seqüència d' estats ocults ht, com una funció de l' estat anterior ht×1 i l' entrada per a la posició t. Això inherentment la naturalesa paral· lel· lelització seqüencial en els exemples d' entrenament, que esdevé crítica a llargues longituds de seqüència, ja que les restriccions de memòria limitant per lots en exemples. El treball recent ha aconseguit millores significatives en eficiència computacional a través dels trucs de factorització [21] i el càlcul condicional [32], mentre que també millora el rendiment del model en cas d' últim. La restricció fonamental del càlcul seqüencial, però, continua. Els mecanismes d'atenció s'han convertit en una part integral de models de seqüència i models de transduc en diverses tasques, permetent model de dependències sense considerar la distància en l'entrada o les seqüències de sortida [2, 19]. En tots els casos, però, alguns casos [27], però, aquests mecanismes d'atenció s'utilitzen conjuntament amb una xarxa recurrent. En aquest treball proposem el transformador, una arquitectura de model amb repetició i, en comptes d'això, es basa totalment en un mecanisme d'atenció per a dibuixar dependències globals entre l'entrada i la sortida. El transformador permet per a més paral·lelització i pot arribar a un nou estat de l'art en qualitat de traducció després d'estar entrenat durant tan poc de 12 hores a 8 P100 GPUs. 2 de fons L'objectiu de reduir càlculs seqüencials també forma la base de la GPU mol·lecular ampliada [16], BytesNet [18] i ConvS2S [9], totes les xarxes neuronals que utilitzen el bloc de construcció bàsic, representacions de computació ocultes en paral· leles per a totes les posicions d' entrada i de sortida. En aquests models, el nombre d'operacions necessàries per a relacionar els senyals des de dues posicions d'entrada arbitràries o de sortida creix en la distància entre posicions, linealment per a convS2S i logarítmicament per a bytesNet. Això fa que sigui més difícil aprendre les dependències entre posicions distants [12]. En el transformador això es redueix a un nombre constant d'operacions, tot i que al cost de resolució reduïda efectiva degut a posicions d'atenció sobrepès, un efecte que contrarestarem amb atenció multi-Head com es descriu a la secció 3. L'auto-tenció, a vegades s'anomena intra-ten és un mecanisme d'atenció relatiu a diferents posicions d'una sola seqüència per tal de calcular una representació de la seqüència. L'auto-tenció s'ha fet servir amb èxit en diverses tasques, incloent la lectura de la comprensió, la suma abstracta, el textual suposa i l'aprenentatge de representacions independents [4, 27, 22]. Les xarxes de memòria finals estan basades en un mecanisme d'atenció recurrent en lloc de la repetició en seqüència i s'han mostrat per a realitzar una bona pregunta en llenguatge simple resposta i tasques de modelació de llenguatge [34]. Per a la millor part del nostre coneixement, però, el transformador és el primer model de renovació confiant totalment en l'auto-tenció per calcular representacions de la seva entrada i sortida sense usar els RNNs en seqüència o la convolució. En les següents seccions, descriurem el transformador, motivarem l'auto-tensió i discutirem els seus avantatges sobre models com [17, 18] i [9]. 3 Model d'arquitectura més competitiva Els models de transferència neural tenen una estructura del codificador [5, 2, 35]. Aquí el codificador traça una seqüència de representacions de símbols (x1,..., xn) a una seqüència de representacions continues z = (z1,..., zn). Tenint en z, el descodificador llavors genera una seqüència de sortida (y1,..., ym) d'un element en un moment. A cada pas el model és autogresivament [10], consumint els símbols generats prèviament com a entrada addicional quan es genera el següent. El transformador segueix aquesta arquitectura global usant auto-tensió i punt, completament connectada a les capes per al codificador i descodificador, que es mostra a l' esquerra i a la dreta de la figura 1, respectivament. 2 Figura 1: El transformador - arquitectura del model. 3. 1 Codificador i Pila de codificador: El codificador està compost d' una pila de N = 6 capes idèntiques. Cada capa té dos sub-reis. La primera és un mecanisme d' auto-tensió, i la segona és una simple, una xarxa totalment sàvia connectada a fonts. Fem servir una connexió residual [11] al voltant de cada un dels dos sub-reis, seguit de la normalització de la capa. És a dir, la sortida de cada subcapís és la capa Norm(x + Subcadena(x), on subaix(x) és la funció implementada per la subaixel mateix. Per facilitar aquestes connexions residuals, tots els subcapadors del model, així com les capes incrustades, produeixen sortides de la dimensió dmodel = 512. Comment A més dels dos subcapadors de cada capa del codificador, el descodificador insereix un tercer sub- matador, que realitza l' atenció multicapçal sobre la sortida de la pila del codificador. Similar al codificador, utilitzem connexions residuals al voltant de cada un dels subcapadors, seguit de la normalització de capes. També modificarem el sub-a-reis d'auto-intenció a la pila de descodificador per tal d'evitar que les posicions assisteixin a les posicions següents. Aquesta màscara, combinada amb el fet que les incrustacions de sortida siguin desplaçament per una posició, assegura que les prediccions per a la posició només depenen de les sortides conegudes a posicions menys que jo. 2. 2 Atenció Una funció d' atenció es pot descriure com a mapatge una consulta i un conjunt de parells de claus- valor per a una sortida, on la consulta, les claus, els valors i la sortida són tots els vectors. La sortida es calcula com una suma amb pes dels valors, on el pes assignat a cada valor és calculat per una funció de compatibilitat de la consulta amb la clau corresponent. 3 escalats d' intercanvi de 2 punts d' atenció Multi-Head Atenció Figura 2: (esquerra) Escalat d' atenció. (dreta) L' entorn d' atenció multi-Head consisteix en diverses capes d' atenció executant- se en paral· lel. 3.2.1 escalat-Product-Production Atenció, anomenem la nostra atenció particular "Scaled Dt-Productor Atenció" (Figre 2). L' entrada consisteix en consultes i claus de dimensió dk, i els valors de la dimensió dv. Calcularem els productes punt de la consulta amb totes les claus, dividim cada un per√dk i apliquem una funció tox per obtenir els pesos dels valors. A la pràctica, calculam la funció d'atenció en un conjunt de consultes simultàniament, empaquetats en una matriu Q. Les claus i els valors també estan empaquetades en matrius K i V. Hem calculat la matriu de sortides com: Atenció(Q, K, V) =▁softmax(QKT √dk ) V (1) Les dues funcions d'atenció més usades són atenció addiva [2, i dot-producció (multi- plictiu). L'atenció Dot-producció és idèntica al nostre algoritme, excepte pel factor d' escalat de 1 √dk. L'atenció additiu calcula la funció de compatibilitat usant una xarxa d' desplaçament de fonts amb una sola capa oculta. Mentre que els dos són similars en la complexitat teòrica, l'atenció del manteniment és molt més ràpida i més eficient a l'espai en la pràctica, ja que es pot implementar usant el codi de la matriu de multiplicació altament optimitzada. Mentre que per petits valors de dk els dos mecanismes actuen de manera similar, l'atenció additiva de les formes de producte sense escalat per a grans valors dk [3]. Creiem que per grans valors de dk, els productes punt creixen molt en magnituds, impulsant la funció▁softmax a les regions on té gradients extremament petits 4. Per contrarestar aquest efecte, escalarem els productes puntats per 1 √dk. 3.2.2 Atenció multi-Head en comptes de realitzar una única funció dmodel-dimensional amb tecles dmodel-dimensional, valors i consultes, l'hem trobat beneficiant per projectes linealment les consultes, les claus i els valors h vegades amb diferents, han après projeccions lineals a dk, dk i dv dimensions, respectivament. En cada una d'aquestes versions projectades de consultes, claus i valors que fem la funció d'atenció en paral· lel, donant valors de sortida dv-dimensionals. Aquests són concatenats i un altre cop projectats, resultants en els valors finals, com es descriu en la figura 2. 4 per il·lustrar per què els productes de punt són grans, suposant que els components de q i k són variables aleatòries independents amb 0 i variància 1. Llavors el seu producte d'or, qE k = dk i=1 qiki, té a dir 0 i variància dk. 4 l'atenció multi-capilació permet que el model assisteixi conjuntament a la informació des de diferents subespais de representació a diferents posicions. amb un sol cap d'atenció, inhibiti això. MultiHead(Q, K, V, V, V) = Concat(head1,..., caph) O on el capi =(QW Q i, KW K i, V V V V V V i ) on les projeccions són matrius de paràmetres W i Szyev Rdmodelxk, W i kIntiv Rdmodedxk, W i ANSI Rdmodedv i Ohdxdxelmodel. En aquest treball utilitzem h = 8 capes paral· leles, o caps. Per a cada un dk = dv = dmodel/h = 64. A causa de la dimensió reduïda de cada cap, el cost computacional total és similar a la de l'atenció d'un sol cap amb tota dimensionalitat. 3.3 aplicacions d'atenció en el nostre model El transformador fa servir l'atenció multicapida de tres maneres diferents: • En les capes "code-code-code-coder atenció", les consultes vénen de la capa anterior descodificador, i les claus de memòria i els valors vénen de la sortida del codificador. Això permet que cada posició del descodificador assisteixi a totes les posicions de la seqüència d' entrada. Això imita els mecanismes d'atenció típics del codificador en models de seqüència a tipus [38, 2, 9]. • El codificador conté capes d' auto-intenció. En una capa d' auto-intenció totes les claus, valors i consultes vénen del mateix lloc, en aquest cas, la sortida de la capa anterior en el codificador. Cada posició del codificador pot assistir a totes les posicions de la capa anterior del codificador. • De manera similar, les capes auto-intenció permeten cada posició del descodificador assistir a totes les posicions del descodificador i incloent aquesta posició. Hem d'evitar que la informació de l'esquerra flueixi en el descodificador preservar la propietat autogressiva. L'imjectem l'atenció a través del punt de subescalat quan s' emmascalitza (calculem a ×) tots els valors de l' entrada del suamax que corresponen a les connexions il· legals. Vegeu la figura 2. 3 unitats de direcció a nivell 3. 3 A més de les subcapacions de l'atenció, cada una de les capes del nostre codificador i el descodificador conté una xarxa totalment connectada a l'augment de fonts, que s' aplica a cada posició separadament i idènticament. Això consisteix en dues transformacions lineals amb una activació ReLU entremig. FFN(x) = max(0, xW1 + b1) W2 + b2 (2) Mentre que les transformacions lineals són les mateixes a través de diferents posicions, usen paràmetres diferents de la capa a capa. Una altra manera de descriure-ho és com dues convolucions amb la mida del nucli 1. La dimensionalitat de l'entrada i la sortida és dmodel = 512, i el mata-reis interior ha dimensionalitat dff = 2048. 3.4 encastats i Softmax de manera similar a altres models de transdicció de seqüència, utilitzem encastats per convertir les fitxes d'entrada i les fitxes de sortida als vectors de la dimensió dmodel. També utilitzem la funció trans- transper- mació lineal i suamax per convertir la sortida del descodificador per predir les probabilitats següents. En el nostre model, compartim la mateixa matriu de pes entre les dues capes incrustades i la transformació lineal pre-màx, similar a [30]. En l'eix de capes, multipliquem aquests pesos per √dmodel. 3.5 posicions des del nostre model no conté cap recurrència i cap convolució, per tal de fer ús de l'ordre de la seqüència, hem d'injectar informació sobre la posició relativa o absoluta de la taula 5 1: longituds de ruta màxima, per mata i nombre mínim d'operacions seqüencials per a diferents tipus de capes. n és la longitud de seqüència, d és la dimensió de representació, k és la mida del nucli de convolució i r la mida del veïnat en auto-tenció restringida. Tipus de complexitat de la capa per a les operacions màximes de longitud de camí auto-tenent O(n2 Fins a aquest punt, sumem " encoding diferenciacional" als encastats d'entrada al final del codificador i descodificador de pilas. Les codificació posicionals tenen la mateixa dimensió dmodel com a encastats, de manera que es puguin resumir els dos. Hi ha moltes opcions de codificació posicional, apreses i fixades [9]. En aquest treball, utilitzem les funcions sinus i cosinus de diferents freqüències: PEP(pos,2i) = pecat(pos/ 100002i/dmodel) PEP(pos,2i+1) = cos(pos/ 1000- 02- 2000i/ dial) on pos és la posició i jo és la dimensió. És a dir, cada dimensió de la codificació posicional correspon a un siusoide. Les longituds d' ona formen un progrés geomètric des de 2 o 1000 a 1000%. Vam triar aquesta funció perquè hipotèdicem que permetria que el model s'aprengués fàcilment a les posicions relatives, ja que per a qualsevol desplaçament fix, es pot representar PEpos+k com una funció lineal de PEpos. També vam experimentar amb l'ús d'insercions de posició apreses [9], i vam trobar que les dues versions produïen gairebé resultats idèntics (vegeu la fila 3 de la taula (E). Hem escollit la versió sinusoïdal perquè pot permetre que el model s' afegeixi més temps que els que s'hagin trobat durant l'entrenament. 4 Per què s'auto-tenció en aquesta secció comparem diversos aspectes de capes d' auto-intenció a les capes recurrents i convoluals emprades habitualment per fer un mapa d'una seqüència variable de representacions de símbols (x1,..., xn) a una altra seqüència de longitud igual (z1,..., zn), amb xi, zi PROD, com una capa oculta en una seqüència de símbols típic o descodificador. Motivant el nostre ús d'autotenció considerem tres desiderata. Una és la complexitat computacional total per capa. Una altra és la quantitat de càlcul que es pot paral· lelar, mesurada pel nombre mínim d' operacions seqüencials que es requereixen. El tercer és la longitud del camí entre dependències de llarg abast en la xarxa. L' aprenentatge de dependències a llarg abast és un repte clau en moltes tasques transducció de seqüència. Un factor clau que afecta l'habilitat d'aprendre aquestes dependències és la longitud dels camins cap endavant i els senyals enrere han de travessar a la xarxa. Com més curts aquestes rutes entre qualsevol combinació de posicions de les seqüències d' entrada i de sortida, més fàcil és aprendre dependències de llarg abast [12]. Per tant també comparem la longitud màxima del camí entre dues posicions d'entrada i de sortida en les xarxes dissenyades dels diferents tipus de capes. Tal i com s'ha detectat a la taula 1, una capa d' auto-tenció connecta totes les posicions amb un nombre constant d'operacions en execució seqüencialment, mentre que una capa recurrent requereix operacions seqüencials O(n). Pel que fa a la complexitat computacional, les capes d' auto-intenció són més ràpides que les capes recurrents quan la longitud de seqüència n és més petita que la representació dimensional d, que sovint és el cas amb representacions de les frases usades per models d'estat de les màquines en les traduccions, com ara paraules [-A] i byte-Desentrades [31]. Per a millorar el rendiment computacional per a tasques que inclouen seqüències molt llargues, l' auto-tenció es pot restringir a considerar només un barri de mida r en 6 la seqüència d' entrada centrada al voltant de la respectiva posició de sortida. Això incrementaria la longitud màxima del camí a O(n/r). El pla d'investigar aquest enfocament en el futur treball. Una única capa convolució amb amplada del nucli k < n no connecta tots els parells d' entrada i de posicions de sortida. Per tant, cal una pila de les capes d'O(n/k) convolució en el cas de nuclis contigües, o O(logk(n) en el cas de convolucions dilatades [18], augmentant la longitud de les rutes més llargues entre dues posicions a la xarxa. Les capes convolució són generalment més cares que les capes recurrents, en un factor de k. Separable convolutions [6], però, disminueix la complexitat considerablement, a O(k · n Fins i tot amb k = n, però, la complexitat d'una convolució separable és igual a la combinació d'una capa d'autointenció i una capa de fonts a l'inrevés, l'enfocament que tenim en el nostre model. Com a benefici propi, l'autotenció pot donar més models interpretables. Hem inspeccionat les distribucions d'atenció dels nostres models i actuals i discutir exemples a l' apèndix. No només els caps d'atenció individuals aprenen clarament a realitzar diferents tasques, molts semblen mostrar comportaments relacionats amb l'estructura sintàntica i semàntica de les frases. 5 entrenament Aquesta secció descriu el règim d'entrenament dels nostres models. 5.1 Exercici de dades i lot que hem entrenat en el conjunt de dades estàndard de l'anglès del 2014, que consisteix en uns 4.5 milions de condemnes. Les frases s' han codificat usant la codificació de codificació de bytes [3], que té un vocabulari de codi font compartit d' aproximadament 3700 fitxes. Per a l'anglès, vam utilitzar les dades d'anglès significativament més grans que els de l'anglès del 2014 consistien en 36M frases i vam dividir fitxes en un vocabulari 32000 d'un document de paraules [338]. Les parelles de frase es van agrupar aproximadament amb longitud de seqüència. Cada lot d' entrenament conté un conjunt de parells de frases que contenen aproximadament 2500 fitxes font i 2500 fitxes objectiu. 5.2 maquinari i planificació vam entrenar els nostres models en una màquina amb 8 NVIDIA P100 GPUs. Per als nostres models base usant els hipermetres que es descriuen durant el paper, cada pas d'entrenament va tenir uns 4 segons. Vam entrenar els models base per a un total de 100.000 passos o 12 hores. Per als nostres grans models,(decribed sobre la línia inferior de la taula 3), el pas és 1.0 segons. Els grans models van ser entrenats per 300.000 passos (3.5 dies). 5.3 Optimitzador hem fet servir l' Adam optimitzar [20] amb l' ntul· lant1 = 0. 9.2 = 0. 98 i és a dir = 1000009. Hem variat la taxa d' aprenentatge sobre el curs de l' entrenament, d' acord amb la fórmula: l' expirat = d×0. 5 Model Ã3, min step_num, step_ apps_ steps width1. 5). Això coincideix amb l' increment de la taxa d' aprenentatge linealment per a les primeres passes d' entrenament, i reduint- lo després al quadrat invers de l' arrel del número de pas. Vam utilitzar passos calents = 4.000. 5.4 Regularització utilitzem tres tipus de regularització durant l'entrenament: Residurat, s'aplica el llançament [3] a la sortida de cada subcapació, abans d' afegir- lo a l'entrada de subcapa i normalitzat. A més, s'aplicarem l'entrada a les sumes de les incrustacions i les codificació posicional tant en el codificador com descodificador de les piles. Per al model base, utilitzem una freqüència de camp = 0. 0. 7 Taula 2: El transformador aconsegueix millors puntuacions que els anteriors models d'estat de l'anglès-German i de notícies a l'anglès 2014 a una fracció del cost d'entrenament. Model ideBLE Execute Cost (FLOPs) EN- +EN- FR-EN-DEEN- FRE- 18] 23. 75 Atde- At + PosUnk] 39. 2 · 10 GNMT + R38] 24. 92 · 1, 18 Això fa mal la perplexitat, ja que el model aprèn a ser més insegur, però millora la precisió i la puntuació de la competència. 6 resultats de la traducció de 61 en la tasca de traducció a l'anglès del WMTT 2014, el gran model transformador (Transformer (gran) a la taula 2) a les millors formes dels models informats anteriorment (incloent els grups) per més de 2. 0 UA, establint un nou estat de la mitjana de 28.4. La configuració d' aquest model està llistada en la línia inferior de la taula 3. L' entrenament va trigar 3. 5 dies en 8 P100 GPUs. Fins i tot el nostre model base supera tots els models publicats anteriorment i els grups, en una fracció del cost d'entrenament de qualsevol dels models competitius. A la tasca de traducció en anglès del 2014, el nostre gran model aconsegueix una possible puntuació de 41.0, per formar part de tots els models individuals publicats anteriorment, en menys de 1/4 el cost d'entrenament del model d'estat anterior. El model transformador (gran) entrenat per a la taxa de desplegament a l' anglès usada per a la taxa de desplegament = 0. 1, en comptes de 0. 0. Per als models base, vam utilitzar un model únic obtingut per avernar els últims 5 punts de control, que es van escriure a 10 minuts. Per als grans models, vam sumar els últims 20 punts de control. Hem fet servir la cerca de raig amb una mida de 4 i longitud de càstig = 0.6 [8]. Aquests hiperparametres s' han escollit després d' experimentar en el conjunt de desenvolupament. Hem establert la longitud màxima de sortida durant la deferència per introduir longitud + 50, però s' han acabat aviat quan és possible [38]. La taula 2 resumeix els nostres resultats i compara la nostra qualitat de traducció i el cost d' entrenament a d' altres arquitectures de model de la literatura. S'estima el nombre d'operacions de punts flotants que s'utilitzen per entrenar un model multipliquen el temps de l'entrenament, el nombre de GPUs que s'utilitza, i una estimació de la capacitat d'un únic punt flotant flotant de cada GPU 5. 6,2 Model Variacions per avaluar la importància dels diferents components del transformador, variam el nostre model base de diferents maneres, mesurar el canvi d'actuació a la traducció de l'anglès a l'establiment del desenvolupament, Newstest2013. Vam fer servir la cerca de raig tal com es descriu en la secció anterior, però no en cap punt de control. presentem aquests resultats a la taula 3. A la taula 3 files (A), vàrem variar el nombre de caps d'atenció i la clau de l'atenció i les dimensions del valor, mantenint la quantitat de càlcul constant, tal com es descriu a la secció 3.2. Mentre que l'atenció d'un sol cap és 0.9, pitjor que la millor opció, la qualitat també cau amb massa caps. 5 utilitzem valors de 2, 2, 8, 3, 6, 6, 0 i 9, TFLOPS per K80, K40, M40 i P100, respectivament. 8 Taula 3: Variacions de l'arquitectura transformadora. Els valors de la llista són idèntics a aquells del model base. Totes les mètriques són a l' entorn de desenvolupament de traducció de l' anglès, notíciestest2013. Les periflexitats de llista són per paraula, d' acord amb la codificació de la nostra vista de bytes, i no s' hauria de comparar amb per paraula periflexitats. Nombre N dmodel df h dk dk dv mil· límetres entren en passos PLLEBU params (dev) ×106 base 612 2048 64 0. 1 100K 4. 92 25. 28 (A) 1, 512 512 24. 9 128 5 24. 5 24. 5 24. 5 24. 5 32 9, 32 1, 25 1, 251 25. 8 16 16 1, 2501 254 (4) 5. 5 2516. 58 32 01 5. 254 (C) 1, 211, 2311. 419 3. 559. 559. 559. 559. 559. 559. 559. 559. 559. 559. 559. 559. 559. 559. 559. 559. 559. 559. 559. 559. 559. 559. 559. 559. 459. 459. 0 459. 059. 0 459. 000 459. 0 459. 000 459. 059. 059. 000 459. 000 459. 059. 000 459. 000 459. 000 459. 000 459. 000 46722. 059. 000 459. 000 459. 000 459. 000 459. 000 459. 059. 059. 0 459. 059. 059. 059. 059. 059. 059. 059. 059. 059. 059. 059. 0. 459. 059. 0. 459. 059. (2014) [37J) Només discriminatori 88.3 Petrov et al. (2006) [29/ WSJ, només discriminatori 90.4 Zhu et al. (2013) Només WSJ, discriminatori 90.4 Dyer et al. (2016) [8] Tan sols WSJ, discriminatori 91. 7 Transformador (4 capes) WSJ només discriminava 91. 33 Zhu et al. (2013) semivivat 91. 33 Huang & Harper (2009) [14] semisuperduït 91. 33Closky et al. (2006) [26] semisuperdut 92. 1 Vinyals & Kainyers al. (2014) [37] semi supervivat 92. 1 transformador (4 capes) semisuperduït per 92. 7 Luong et al. (2015) [23] multi-task 9-3-3-3-3. 0 Dyser et al. (2016) [8] generat pel 93. 33 en la taula 3 files (B), observem que reduir la mida de la clau dk fa mal a la qualitat del model. Això suggereix que determinar la compatibilitat no és fàcil i que una funció de compatibilitat més sofisticada que el producte d' alt pot ser beneficiós. A més, observem en files (C) i (D) que, com s'esperava, els models més grans són millors, i el llançament és molt útil per evitar-se. A la fila (E) substitueixem la nostra codificació posicional sinusoïdal amb encastats posicionals apreses [9], i observem gairebé els resultats idèntics al model base. L'anàlisi de les Constitucions en anglès per avaluar si el transformador pot generalitzar a altres tasques que vam realitzar experiments en l'anàlisi de districtes en anglès. Aquesta tasca presenta reptes específics: la sortida està sotmesa a grans restriccions estructurals i s'ha més llarg que l'entrada. A més a més, els models de seqüència RNN no han estat capaços d'aconseguir resultats de l'estat dels règims petits de dades [37]. Vam formar un transformador amb dmodel = 1024 al Wall Street Journal (WSJ) part de la ciutat d'arbres del Penn [25], sobre les frases d'entrenament de 40K. També l'hem entrenat en un punt semisuperable, utilitzant la major confiança en alta i en Berkley Parspora des d'aproximadament 17M frases [37]. Vam fer servir un vocabulari de 16 KB fitxes per a l'establiment WSJ i un vocabulari de 32K fitxes per a l'establiment semivivat. Tan sols hem fet un petit nombre d'experiments per a seleccionar el llançament, l'atenció i la residual (secció 5.4), les taxes d'aprenentatge i la mida de la secció 22 de desenvolupament, tots els altres paràmetres no es van mantenir sense canvis en el model de traducció base de l'anglès a-German. Durant la inferència, hem augmentat la longitud màxima de sortida a la longitud d'entrada més de 300. Vam utilitzar una mida de raig de 21 i característiques = 0,3 per a WSJ només i l'eix semi-superable. Els nostres resultats a la taula 4 mostren que malgrat la manca d'enfocament específic de la tasca el nostre model realitza de manera sorprenent, donant millors resultats que tots els models informats prèviament amb l'excepció de la Xarxa Neural Reactual [8]. En contrast amb els models de seqüència RNN a d'acció [37], el transformador forma part de l' analitzador de Berkeley [29] fins i tot quan l'entrenament tan sols està en l'entrenament de WSJ de 40K frases. 7 Conclusió en aquest treball, vam presentar el transformador, el primer model de transducció en seqüència basat totalment en l'atenció, canviant les capes recurrents més comunament usades en les arquitectures del codificador amb auto-int-se. Per a tasques de traducció, el transformador pot ser molt més ràpid que les arquitectura basades en capes recurrents o convolutives. A les dues tasques de traducció en anglès i WMT de l'anglès del 2014 fins al dur dur dur dur dur dur dur dur dur a terme un nou estat de l'art. En l'antiga tasca, les millors formes de model, fins i tot totes les parts presentades anteriorment, ens emociona el futur dels models basats en l'atenció i el pla d'aplicar-les a altres tasques. Pensem estendre la transformació dels problemes que inclouen l'entrada i les modificacions de sortida a part de text i d'investigar mecanismes d'atenció locals, restringits per gestionar grans quantitats d'entrada i sortides com imatges, àudio i vídeo. Fer generació menys seqüencial és un altre objectiu d'investigació nostre. El codi que utilitzem per entrenar i avaluar els nostres models està disponible a https://github.com/duor/tensor2tensor. Reconèixers Estem agraïts a Nal Kalchrenner i Stephan Gouws pels seus comentaris fruitants, correcciós i inspiració. Les referències són Jimmy Lei Ba, Jamie Ryan Kiros, i Geoffrey Eton. La capa normalització. arXiv prerXiv prerXiv: 1607.06450, 2016. [2] Dzmiat Bahdanau, Kyungyun Cho, i Yoshua Benio. [3] Denny Britz, Anna Goldie, Minh-Thang Luong, i Quoc V. L' exploració massiva d'arquitecturas de traducció de les màquines neuronals. CoRRR, abs/1703906, 2017. Memòria a curt termini de les xarxes per a la lectura de màquines. arXiv preprint arXiv:1601.063, 2016. [5] Kyungyun Cho, Bart van Merrienboer, Caglar Gulcehre, Ferhi Bogares, Hol Schwark i Yoshua graggio. Aprendre representacions de frases usant rn codificador-decoder per a la traducció estadística de la màquina. CoRR, abs/1406. 1078, 2014. [6] François Chollet. Xoction: l' aprenentatge profunda amb convolucions separables. arXiv preprint aXiv: 16.0257, 2016. 10 [7] Junyoyo Chung, Çaglar Gülçehre, Kyunghyun Cho, i Yoshua Benio. En Chris Dyer, Adhiguna Kuncoro, Miguel Ballesteros i Noah A. Smith. Jonas Gehring, Michael Auli, David Grangier, Denis Yarats i Yann N. Dauphin. S' estan generant seqüències amb xarxes neuronals recurrents. PrXiv preprint arXiv: 13. 0850, 2013 [11] Kaiming He, XangyZhang, Shaoqing Ren, i Jian Sol. De profunditat, torneu a aprendre amb el reconeixement de l'edat imista. En promís de la Conferència IEEE sobre la visió i el reconeixement del patró de l'ordinador, pàgines 770778, 2016. El flux de degradat en xarxes recurrents: la dificultat de l' aprenentatge de dependències a llarg termini, 2001. [13] Sphochreiter i Jürgen Schmidhuber. memòria curta a curt termini. [14] Zhongqiang Huang i Mary Harper. Autotracció gramàtica del PCFG amb les anotacions de finals a través de les llengües. En promíss de la Conferència de 2009 a les Mètodes d' Empirical a l' idioma natural, pàgines 83281. ACL, agost del 2009. [15] Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, i Yonghui Wu. Expluint els límits del model de llenguatge. arXiv preprint arXiv: 160210, 2016. [16] Manveenukasz Kaiser i Samy Benio. Pot substituir l'atenció activa? En l' inici dels sistemes d' informació de processament de Nural, (NIPS), 2016. [17] Manveenukasser i Ilyatskever. Neurks learn algoritmes. A la Conferència Internacional d'aprenentatge Representacions (ICLR), 2016. Traducció a la màquina neural en el temps lineal. arXiv preprint arXiv:1610.10099v2, 2017. [19] Yoon Kim, Carl Denton, Luong Hoang i Alexander M. Rush. S'trucava les xarxes d'atenció. A la Conferència Internacional d'aprenentatge Representacions, 2017. [20] Morterik Kingma i Jimmy Ba. Adam: un mètode per a optimització stochastic. Factorització de les xarxes LSTM. arXiv preprint arXiv:1703. 10722, 2017. [22] Zhouhan Lin, Minwei Feng, Cicero Nogueira fa Santos, Mo Yu, Bing Xiang, Bahn, i Yohua Benio. Una presentació d' auto-attenitiva. arXiv preprint arXiv: 1703130, 2017. [23] Min-Thang Luong, Quoc V. Le, IlyStskber, Oriol Vinyals, i Lukasz Kaiser. Multi-task per aprendre. rXiv preprint arXiv: 1511.06114, 2015. [24] Minh-Tang Luong, Hieu Pham, i Christopher D Manning. Efectiu s'acosta a la traducció de la màquina neural basada en l'atenció. arXiv prerXivprint preriv: 08. 040, 2015. [25] Mitchell P Marcus, Mary Ann Marcinkiwicz, i Beatrice Santorini. [26] David McClosky, Eugene Charniak, i Mark Johnson. Efectivament auto-tracció per a l' anàlisi. En promís de la Conferència de la tecnologia de l' idioma humà de l' NAACL, Conferència principal, pàgines 152 Digital159. ACL, juny de 2006. 11 [27] Ankur Parik, Oscar Täckström, Dipanjan Das, i Jakob Uszkoreit. Un model d'atenció descomposible. [28] Romain Paulus, Caiming Xiong i Richard Socher. Un model profund reforçat per a la suma abstracta. arXiv prerXiv prerXiv: 1705.04304, 2017. [29] Slav Petrov, Leon Barrett, Romain Thibhaux i Dan Klein. Execucionant, compacta i interpretable anotació en arbre. En els càlculs de la Conferència Internacional 21 sobre meclètica de classificació i 44è reunió anual de les ACL, 43440. ACL, juliol del 2006. [30] deir Press i Lior Wolf. Usant l' encastat de la sortida per millorar els models de llengües. arXiv prerXiv:1608.05859, 2016. Traducció a la màquina de paraules estranyes amb unitats de subwords. arXiv preprint arXiv:15.07909, 2015. [32] Noam Shazeer, Azalia Mirhoseini, Krzystf Mazirz, Andy Davis, Quoc, Geoffrey Consellon, i Jeff Dean. ArXiv prerXiv: 17. 008, 2017. [33] Nitish Srivatavatava, Geoffrey E Consellon, Alex Krizhevski, Suatskever, i Rusakhutdi-v. [34] Sainbayar Skhbaatar, Arthur Szlam, Jasonon i Robergus. A C. Cortes, N. Lawrence, D. Lee, M. Sugiyama i R. Garnett, editors, Advacions a la informació Nural processa el sistema 28, pàgines 244064. Curran Socis, Inc, 2015. [35] Ilya Stskever, Oriol Vinyals, i Quoc V Le. seqüència per a seqüenciar les xarxes neuronals. [36] Christian Szeghedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, i Z bigniew Wojna. [37] Vinyals i Kaiser, Koo, Petrov, Sutskber i Consellon. Gramàtica com a llengua estrangera. [38] Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Nouzi, Wolfgang Machey, Maxim Kikun, Yuan Cao, Qin Gao, Klaus Machey, et al. El sistema de traducció neural de Google Danbis: Britint el buit entre la traducció humana i la màquina. arXiv preprint arXiv:1609.08144, 2016. [39houhou, Ying Cao, Xuang Wang, Peng Li i Wei Xu. Models recurrents profunds amb connexions ràpidament per a la traducció de les màquines neuronals. CoRR, abs/1606.04199, 2016. Un anàlisi ràpida i precís dels constituents dels canviants. En els promíss de la 51 de la Reunió anual de les ACL (Vume 1: Papers Long), pàgines 43444. ACL, agost del 2013. En aquest esperit, hi ha una sèrie de governs americans que han passat noves lleis des del 2009 fent que el registre o el procés de vot sigui més difícil. at is as ad a, és en aquest esperit que la majoria dels governs americans han passat noves lleis des del 2009 fent que el registre o el procés de vot sigui més difícil. It is it it it it it it it is a point 3: Un exemple del mecanisme d'atenció seguint dependències de llarga distància en el codificador auto-intenció a la capa 5 de 6. Molts dels caps d'atenció assisteixen a una dependència llunyana del verb que fa la traducció a l'asture... que fan que la frase... sigui més difícil, si us plau. Diferents colors representen diferents caps. El millor vist en color. 13 Entrada Entrada La Llei mai serà perfecta, però la seva aplicació hauria de ser just - això és el que perdem, en la meva opinió. (La llei mai serà perfecta), però la seva aplicació hauria de ser només - això és el que perdem, en la meva opinió. =Input Layer5 La Llei mai serà perfecta, però la seva aplicació hauria de ser només - això és el que ens falta, en la meva opinió. (La llei mai serà perfecta), però la seva aplicació hauria de ser només - això és el que perdem, en la meva opinió. : Figura 4: Dos caps d'atenció, també a la capa 5 de 6, sembla estar involucrat en resolució d'aphora. Dalt: Tot l'atenció per al cap 5. A baix: Les atencions isolades de la paraula "Reurits▁attention" pels caps 5 i 6. Noteu que les atencions són molt afilades per aquesta paraula. 14 Entrada La Llei de l'entrada 5 La Llei mai serà perfecta, però la seva aplicació hauria de ser només - això és el que ens falta, en la meva opinió. (La llei mai serà perfecta), però la seva aplicació hauria de ser només - això és el que perdem, en la meva opinió. =Input Layer5 La Llei mai serà perfecta, però la seva aplicació hauria de ser només - això és el que ens falta, en la meva opinió. (La llei mai serà perfecta), però la seva aplicació hauria de ser només - això és el que perdem, en la meva opinió. Gim 5: Molts dels caps d'atenció mostren el comportament que sembla relacionat amb l'estructura de la frase. Donem dos exemples com aquest, des de dos caps diferents del codificador a la capa de 6. Els caps van aprendre clarament a realitzar diferents tasques. 15