copilot
Pengantar untuk Transformer Model: Otak di Balik Model Bahasa Besar
Tyler Au
8 menit
1 Mei 2024

Apa itu Model Transformator?

Baru beberapa minggu lalu, Meta meluncurkan Llama 3, versi terbaru dari model bahasa besar atau Large Languange Models (LLM) yang disebut Llama (LLM). Llama 3 menandai peningkatan besar dari model sebelumnya, Llama 2, dengan dilatih menggunakan token 7 kali lebih banyak, menjadi 3 kali lebih efisien, dan bersaing secara langsung dengan model bahasa besar (LLM) yang populer lainnya. Model LLM sumber terbuka juga telah mendapatkan banyak dukungan dan adopsi dari komunitas. Unggul dalam berbagai bidang seperti "nuansa bahasa, pemahaman kontekstual, dan [...] terjemahan serta pembuatan dialog," Llama 3 telah membuat Meta menjadi pesaing yang kuat di ruang kecerdasan buatan (AI) terbuka. Tetapi, mengapa LLM terbaru mereka begitu kuat?

Model bahasa besar, LLM, adalah model machine learning (ML) yang mampu memahami dan menghasilkan teks bahasa manusia dengan memproses data dalam jumlah besar. Secara khusus, LLM adalah model pembelajaran mendalam, model ML yang memproses data dan mampu membuat asosiasi kompleks yang mirip dengan otak manusia. Asosiasi ini didasarkan pada probabilitas, dan LLM diberi data yang cukup untuk memprediksi hasil logis secara akurat, seperti menyelesaikan kalimat yang tidak lengkap. Fondasi yang kompleks ini memungkinkan LLM untuk menjalankan sejumlah tugas dan fungsi yang kompleks, menjadikannya dasar yang tepat untuk hal-hal seperti AI generatif, copywriting, pembuatan kode, dan sebagainya.

Untuk mendukung kemampuan prediksi penuhnya, LLM dibangun di atas jaringan saraf yang dikenal sebagai model transformer. Model ini dikembangkan oleh Google pada tahun 2017 dan telah mengubah dunia pemrosesan bahasa alami atau natural language processing (NLP), menjadi bagian integral dari banyak aplikasi kecerdasan buatan saat ini. Dengan Llama 3 dan beberapa model LLM terkuat lainnya yang menggunakan arsitektur transformer, tidak heran bahwa banyak perusahaan teknologi terkemuka menggunakan transformer dalam solusi mereka. Tetapi, mengapa transformer begitu penting bagi LLM?

Arsitektur Transformer dan Artinya bagi NLP

Arsitektur Transformator

Model transformator dapat dianggap sebagai otak manusia dalam banyak aspek. Komposisi model transformator sangat mirip dengan otak itu sendiri: jaringan kompleks yang terdiri dari node yang tak terhitung jumlahnya dan lapisan yang saling bergantung bekerja sama untuk menyalin informasi dan mengeluarkan informasi.

Memproses informasi adalah kemampuan terbesar otak – informasi mencapai otak kita dan kita bereaksi, atau mengeluarkan, respons terhadapnya. Arsitektur transformator didasarkan pada ide ini.

Pada intinya, model transformator biasanya mengikuti arsitektur encoder-decoder, dengan encoder dan decoder dibuat dari beberapa komponen itu sendiri. Encoder bertanggung jawab untuk mengekstraksi makna dari rangkaian masukan, yang kemudian dikirim ke decoder untuk menghasilkan rangkaian keluaran berdasarkan makna yang diekstraksi. Makna berasal dari token, dengan token dalam pemrosesan bahasa alami (NLP) mengacu pada potongan individu dalam urutan yang siap untuk dianalisis. Pembuat enkode mengurai kata-kata dalam kalimat untuk mengetahui makna yang mendasarinya, dan pembuat enkode menyusun urutan baru berdasarkan maknanya. Di dalam encoder dan decoder ini terdapat blok atau lapisan transformator berbeda, yang masing-masing memiliki tujuannya sendiri. Contoh dari beberapa lapisan ini termasuk lapisan perhatian, lapisan umpan maju, dan lapisan normalisasi.

Ilustrasi dari Transformer Architecture. Gambar milik "All you need is attention"

Ibarat otak, untuk meningkatkan respon dan kinerjanya, model transformator harus belajar. 

Model transformator mengandalkan mekanisme yang disebut perhatian diri. Mirip dengan memperhatikan bahasa tubuh dalam percakapan, perhatian diri digunakan untuk mendeteksi bagaimana elemen dalam suatu rangkaian tidak terkait secara berurutan. Elemen-elemen ini kemudian ditimbang berdasarkan konteks keseluruhan yang ada, sehingga beberapa informasi lebih relevan dibandingkan yang lain. Melalui ini, model transformator mampu memahami konteks dan menarik informasi yang memiliki bobot paling besar dalam suatu rangkaian, menghasilkan rangkaian yang paling relevan dengan rangkaian masukan.

Apa yang membuat integrasi perhatian diri ke dalam model transformator begitu penting adalah karena hal ini memungkinkan model ini untuk fokus pada semua token sebelumnya dalam urutan, memperluas kemampuan referensi model NLP sebelumnya seperti Recurrent Neural Network (RNN) dan Long Short Term Memory. (LTSM). GIF karya Michael Phi ini berhasil dengan sangat baik dalam mengilustrasikan ide ini:

GIF milikMichael Phi in "Illustrated Guide to Transformers- Step by Step Explanation"

Perhatian mandiri sangat penting bagi LLM karena memungkinkan fondasi transformator mereka memahami urutan dari berbagai masukan, menjadikannya lebih efisien dan dapat dilatih pada kumpulan data yang lebih besar. Secara khusus, perhatian diri memungkinkan LLM unggul dalam hal-hal seperti penyelesaian kalimat, menjawab pertanyaan, terjemahan, dan sebagainya.

Merangkul mekanisme perhatian diri dan menciptakan cara pengkodean dan penguraian informasi yang beragam melalui berbagai lapisan telah memungkinkan model transformator menjadi andalan di bidang NLP, menandai pergeseran dalam ruang.

Anak Baru di Blok

Sebelum model transformator diperkenalkan pada tahun 2017, pemrosesan bahasa alami mengandalkan dua arsitektur utama: jaringan Neural Berulang / Recurrent Neural Networks (RNNs) dan jaringan Memori Jangka Pendek Panjang / Long Short-Term Memory (LSTM).

RNN adalah model pembelajaran mendalam lainnya yang memproses data masukan dan keluaran secara berurutan, yang menjadi dasar bagi setiap mekanisme pemodelan urutan yang akan datang. RNN sangat sederhana dan dapat diandalkan untuk rangkaian yang menyajikan informasi secara tepat waktu. Namun, RNN tidak dapat memproses informasi di masa lalu, sehingga informasi penting terlupakan.

LTSM dibuat untuk mengatasi kekurangan RNN, sehingga informasi dari langkah sebelumnya dalam suatu urutan dapat dipertahankan, meskipun meningkatkan kompleksitas dari RNN.

Model transformer mengatasi kekurangan dari RNNS dan LTSMs dengan menggunakan mekanisme multi-head self-attention.

NLP Progression

Self-attention memungkinkan model transformator untuk menarik informasi sebelumnya, atau ketergantungan jangka panjang, dan kemudian beberapa dari urutan sebelumnya. Mekanisme ini juga menawarkan transformator kemampuan interpretasi yang lebih besar dan hasil yang lebih akurat serta kinerja yang efisien. Perhatian multi-kepala memungkinkan rangkaian masukan dijalankan secara paralel satu sama lain, membuat pemrosesan lebih cepat dan mengurangi waktu pelatihan secara keseluruhan. 

Meskipun model transformator memiliki manfaat yang lebih besar dibandingkan pendahulunya, arsitektur ini juga jauh lebih kompleks dibandingkan pendahulunya. Dengan RNN, LTSM, dan model trafo yang menawarkan kemampuan NLP melalui tiga pendekatan berbeda, masing-masing arsitektur unggul dalam berbagai kasus penggunaan yang berbeda, sehingga tidak satu pun dari arsitektur tersebut yang ketinggalan jaman meskipun model trafo menjadi pusat perhatian dalam lanskap yang penuh antusiasme terhadap AI saat ini.

Hubungan LLM Transformer - Mengapa Semua LLM Menggunakan Transformers

Karena LLM biasanya dilatih berdasarkan miliaran kumpulan data , fondasi transformator yang mereka bangun harus tangguh dan efisien, antara lain. Tuntutan yang harus dipenuhi oleh LLM sangat besar, meskipun manfaat yang diberikan model transformator pasti memenuhi kebutuhan daya. 

Seperti disebutkan sebelumnya, LLM dibangun secara khusus di atas model transformator karena mekanisme perhatian mandiri. Dengan mekanisme tersebut, transformator dapat mempelajari konteks dan menyesuaikan urutan keluarannya, sambil menafsirkan bentuk bahasa yang kompleks. Transformer juga mampu menangkap ketergantungan jangka panjang dengan lebih efektif dan membuat prediksi yang lebih baik dengan perhatian mandiri, menjadikan transformator kandidat sempurna untuk penggunaan LLM. Di luar kumpulan data yang disalurkan, transformator juga mampu mencapai pelatihan tanpa pengawasan, belajar, dan berkembang sendiri.

Pertama, model transformator memberikan paralelisasi yang dibutuhkan LLM untuk pelatihan yang efisien. Memproses urutan yang dimasukkan secara paralel merupakan peningkatan besar dari RNN dan LTSM yang hanya mampu memproses sekuensial. Hal ini tidak hanya memungkinkan penangkapan ketergantungan jangka panjang yang lebih baik, tetapi juga untuk pelatihan data yang lebih baik – terutama ketika menyangkut jumlah data yang digunakan oleh transformator dan LLM. Paralelisasi ini juga memungkinkan skala yang lebih baik, memungkinkan pemrosesan data dan pembuatan urutan yang jauh melampaui kemampuan transformator pendahulunya.

Model transformator juga dapat dilatih sebelumnya pada kumpulan data besar untuk penggunaan umum, memungkinkan pembelajaran transfer, atau menggunakan model yang telah dilatih sebelumnya untuk masalah baru. Pembelajaran transfer penting dalam visi komputer dan disiplin NLP karena ini menetapkan titik awal baru ketika mengembangkan model pembelajaran mendalam baru untuk masalah baru, yang dapat memakan banyak waktu dan sumber daya. Pembelajaran transfer juga memberikan tingkat peningkatan kinerja, karena setiap model belajar dari model sebelumnya.

Yang terpenting, model transformator memiliki kemampuan generatifnya sendiri, menjadikannya kandidat sempurna untuk LLM yang memerlukan hal-hal seperti penyelesaian dan pembuatan teks, terjemahan ucapan, dan sebagainya.

Model Bahasa Besar yang Mengoptimalkan Penggunaan Transformator

Meskipun LLM tampaknya menjadi pusat perhatian dalam hubungan LLM trafo, trafo sendiri tidak boleh diabaikan. Berikut beberapa model trafo terpopuler saat ini:

BERT (Bidirectional Encoder Representations from Transformers)

Dikembangkan pada tahun 2018 oleh Google, BERT adalah LLM yang digunakan untuk memahami konteks kata berdasarkan kata sebelum dan sesudahnya. BERT dilatih dengan 3,3 miliar kata yang mengesankan dalam berbagai bahasa, menjadikannya sangat mampu dalam pemahaman konteks. Sejak diluncurkan, model BERT telah banyak diadopsi dan disukai oleh banyak orang, unggul dalam permintaan pencarian yang ditargetkan - sedemikian rupa sehingga Google sendiri menggunakan BERT untuk memahami pentingnya teks dan mengidentifikasi nuansa urutan.

BERT dalam Penelusuran: Contoh Ahli Kecantikan. Gambar milik Google

GPT4 (Generative Pre-trained Transformer 4)

Mungkin yang paling terkenal adalah GPT4, yaitu versi terbaru dari model GPT dari OpenAI. GPT4 menunjukkan peningkatan yang luar biasa dari versi sebelumnya. Dikenal karena kemampuannya dalam percakapan, terutama di ChatGPT, GPT4 dibangun di atas dasar yang telah dibangun oleh versi sebelumnya, membuatnya lebih canggih dalam menyelesaikan masalah. Dari pemrosesan yang lebih cepat hingga analisis teks yang lebih kuat, GPT4 mampu melakukan berbagai hal yang sebelumnya sulit Anda bayangkan!

Gambar milik Open.Ai

Meta Llama 3

Dan tentu saja, kembali ke awal. 

Meta Llama 3 adalah iterasi terbaru Meta dari Llama LLM open source mereka. Dilatih dengan lebih dari 15 triliun token , pelatihan Llama 3 diperluas 7x lipat dari pelatihan Llama 2, dengan penambahan kode 4x lebih banyak. Llama 3 merupakan tambahan penting dalam bidang LLM karena bersifat open source, siapa pun dapat menggunakan Llama 3 hari ini dan mengembangkan solusinya tanpa henti. Terutama mahir dalam bidang seperti menulis dan menerjemahkan, Llama 3 adalah suatu keharusan bagi sebagian besar proyek AI generatif.

Gambar milik Meta

LLM di Lyrid?

Meta Llama 3, yang baru saja dirilis, adalah salah satu dari banyak model bahasa besar yang telah berhasil menghasilkan terobosan dalam dunia kecerdasan buatan (AI), membantu kita lebih memahami bahasa dan konteks dalam percakapan. Sebuah bangunan hanya akan kokoh jika fondasinya kuat, dan banyak dari model bahasa besar ini, termasuk Meta Llama 3, didasarkan pada fondasi yang sama, yaitu model transformator yang sangat andal.

Transformer merupakan hasil evolusi dari serangkaian teknik pemrosesan bahasa alami yang panjang, yang bertujuan untuk menggali makna dari rangkaian kata dengan harapan memberikan pemahaman kontekstual yang lebih baik kepada mesin yang mengadopsi model ini. Dari model-model seperti jaringan saraf berulang dan jaringan memori jangka pendek hingga model transformator, bidang Pemrosesan Bahasa Alamiah (NLP) telah mengubah cara model bahasa besar kami berinteraksi dengan data besar dan meningkatkan kinerjanya berdasarkan urutan kata.

Dengan antusiasme dan inovasi seputar LLM, AI, dan transformator yang tidak menunjukkan tanda-tanda melambat, sistem pendukung untuk solusi kompleks ini harus diterapkan. Kami sangat gembira mengumumkan bahwa kami sedang membangun solusi LLM kami sendiri. Solusi kami bertujuan untuk mendukung infrastruktur LLM sambil memungkinkan skalabilitas dan pertumbuhan yang lebih besar! Sebenarnya, kami telah menciptakan solusi GPT menggunakan Meta Llama 3.

Ingin mempelajari lebih lanjut? Jadwalkan diskusi dengan kami untuk mempelajari lebih lanjut tentang apa yang kami miliki untuk LLM!

Jadwalkan demo

Mari diskusikan proyek Anda

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Ikut Newsletter Kami
Langganan
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.

Jl. Pluit Indah 168B-G, Pluit Penjaringan,
Jakarta Utara, DKI Jakarta
14450

99 South Almaden Blvd. Suite 600
San Jose, CA
95113

@ Lyrid. Inc 2022

Terms of ServicePrivacy Policy