OpenAI заглядывает в «черный ящик» нейронных сетей с помощью нового исследования

Бендж Эдвардс — 11 мая 2023 г., 21:25 UTC

Во вторник OpenAI опубликовала новую исследовательскую работу, в которой подробно описывается метод, использующий языковую модель GPT-4 для написания объяснений поведения нейронов в старой модели GPT-2, хотя и несовершенно. Это шаг вперед в области «интерпретируемости» — области ИИ, которая пытается объяснить, почему нейронные сети создают те выходные данные, которые они делают.

В то время как большие языковые модели (LLM) завоевывают мир технологий, исследователи ИИ до сих пор мало что знают об их функциональности и возможностях. В первом предложении статьи OpenAI авторы пишут: «Языковые модели стали более функциональными и более широко используемыми, но мы не понимаем, как они работают».

Для посторонних это, вероятно, звучит как ошеломляющее признание компании, которая не только зависит от доходов от программ магистратуры, но и надеется ускорить их развитие до нечеловеческого уровня мыслительных способностей.

Но это свойство «незнания» того, как именно отдельные нейроны нейронной сети работают вместе, производя выходные данные, имеет хорошо известное название: черный ящик. Вы вводите в сеть входные данные (например, вопрос) и получаете выходные данные (например, ответ), но что бы ни происходило между ними (внутри «черного ящика»), остается загадкой.

В попытке заглянуть внутрь черного ящика исследователи из OpenAI использовали языковую модель GPT-4 для создания и оценки естественного языка объяснений поведения нейронов в гораздо менее сложной языковой модели, такой как GPT-2. В идеале наличие интерпретируемой модели ИИ могло бы способствовать достижению более широкой цели, которую некоторые называют «выравниванием ИИ», гарантируя, что системы ИИ ведут себя так, как задумано, и отражают человеческие ценности. А за счет автоматизации процесса интерпретации OpenAI стремится преодолеть ограничения традиционной ручной проверки человеком, которая не масштабируется для более крупных нейронных сетей с миллиардами параметров.

Методика OpenAI «стремится объяснить, какие шаблоны в тексте вызывают активацию нейрона». Его методология состоит из трех этапов:

Чтобы понять, как работает метод OpenAI, вам нужно знать несколько терминов: нейрон, цепь и голова внимания. В нейронной сети нейрон похож на крошечную единицу принятия решений, которая принимает информацию, обрабатывает ее и выдает результат, точно так же, как крошечная клетка мозга, принимающая решение на основе полученных сигналов. Схема в нейронной сети подобна сети взаимосвязанных нейронов, которые работают вместе, передают информацию и коллективно принимают решения, подобно группе людей, сотрудничающих и общающихся для решения проблемы. Голова внимания подобна прожектору, который помогает языковой модели уделять больше внимания конкретным словам или частям предложения, что позволяет ей лучше понимать и улавливать важную информацию при обработке текста.

Идентифицируя в модели конкретные нейроны и центры внимания, которые необходимо интерпретировать, GPT-4 создает удобочитаемые объяснения функций или роли этих компонентов. Он также генерирует оценку объяснения, которую OpenAI называет «мерой способности языковой модели сжимать и реконструировать активации нейронов с использованием естественного языка». Исследователи надеются, что количественная оценка системы оценок позволит добиться измеримого прогресса на пути к тому, чтобы сделать вычисления нейронных сетей понятными для людей.

Так насколько хорошо это работает? Прямо сейчас, не так уж и здорово. Во время тестирования OpenAI противопоставила свою технику подрядчику-человеку, который выполнял аналогичные оценки вручную, и они обнаружили, что и GPT-4, и подрядчик-человек «набрали низкие оценки в абсолютном выражении», а это означает, что интерпретация нейронов затруднена.

Одно из объяснений этой неудачи, предложенное OpenAI, заключается в том, что нейроны могут быть «многозначными», а это означает, что типичный нейрон в контексте исследования может иметь несколько значений или быть связан с несколькими концепциями. В разделе об ограничениях исследователи OpenAI обсуждают как многосемантические нейроны, так и «инопланетные особенности» как ограничения своего метода: