Em formação

Existe uma maneira de usar uma regra de aprendizagem STDP em neurônios baseados em taxa?

Existe uma maneira de usar uma regra de aprendizagem STDP em neurônios baseados em taxa?

STDP (plasticidade dependente do tempo de pico) é uma regra de aprendizado para alterar os pesos sinápticos entre os neurônios. É semelhante ao Hebbian em que as mudanças de peso dependem da coincidência de picos pré e pós-sinápticos, mas inclui uma noção de causalidade em que a sinapse é fortalecida se um pico pré-sináptico precede um pico pós-sináptico, mas a sinapse é enfraquecida se um pico pós-sináptico precede um pico pré-sináptico.

Os neurônios de taxa são frequentemente usados ​​em simulações porque são computacionalmente baratos em comparação com a simulação de neurônios de spiking. Para implementar o STDP, picos são gerados usando um processo de Poisson não homogêneo com o parâmetro de taxa definido pela taxa atual do neurônio de taxa.

O que eu gostaria de saber é se um atalho foi desenvolvido para calcular as mudanças de peso devido ao STDP diretamente da dinâmica temporal dos pesos pré e pós-sinápticos, sem ter que gerar explicitamente os tempos de pico por meio de um processo de poisson.

Qualquer ajuda?


A maneira apropriada de fazer isso é encontrar a correlação cruzada das séries de tempo das taxas dos dois neurônios. Em seguida, pegue o produto escalar da correlação cruzada com o kernel STDP (ou seja, a integral da correspondência em cada ponto na janela STDP entre quanto STDP "gosta" da correlação cruzada naquele atraso e quanta correlação cruzada realmente havia naquele lag). Isso fornece um valor que, quando dimensionado corretamente, informa a quantidade de alteração de peso que a sinapse deve receber.

No primeiro painel, as taxas de dois neurônios em uma simulação são mostradas em azul e vermelho, respectivamente. Uma visão ampliada é mostrada (parte superior central) para enfatizar que o neurônio azul aumenta a taxa de disparo ligeiramente antes do neurônio vermelho. A correlação cruzada é traçada na parte inferior esquerda. Uma visão ampliada (meio inferior) enfatiza que o pico da correlação cruzada é ligeiramente negativo, correspondendo ao fato de que o neurônio azul lidera o neurônio vermelho. Observamos a correlação cruzada apenas nos atrasos onde STDP é relevante (neste caso +/- 100 ms, canto superior direito) e há mais correlação em pequenos atrasos negativos, correspondendo à tendência do neurônio azul para liderar. Em seguida, multiplicamos cada atraso no correlograma cruzado (canto superior direito) com o kernel STDP (canto inferior direito) e somamos todos os atrasos relevantes (entre +/- 100 ms) para obter o valor da mudança de peso sináptica. Podemos fazer isso porque presumimos que a probabilidade de ocorrer um pico de defasagem de um determinado valor é proporcional à correlação cruzada das taxas com essa defasagem (já que a probabilidade de pico é proporcional à taxa de pico). Neste caso particular, a mudança de peso será positiva porque há correlação cruzada durante a parte positiva do kernel STDP (lags <0) é maior do que a correlação cruzada durante a parte negativa do kernel STDP (lags> 0) .


2 A computação neural faz inferência: diminuindo a energia

Consideramos a hipótese de que uma interpretação central da computação neural (o que os neurônios fazem, em uma escala de tempo curta na qual os pesos podem ser considerados fixos) é que ela está realizando inferência iterativa. A inferência iterativa significa que as unidades ocultas da rede são gradualmente alteradas para configurações que são mais prováveis ​​dada a entrada sensorial e de acordo com o modelo atual do mundo associado aos parâmetros do modelo. Em outras palavras, eles estão aproximadamente se movendo em direção a configurações mais prováveis ​​sob alguma distribuição de probabilidade associado ao modelo e, eventualmente, amostragem de ⁠.

Antes de fazer a conexão entre as máquinas de Boltzmann ou modelos baseados em energia e a retropropagação, vamos ver com mais detalhes matemáticos como a computação neural pode ser interpretada como inferência.

2.1 Neurônios integradores com vazamento

Para esse propósito, considere a equação neural clássica do integrador com vazamento. Deixe representar o estado do sistema no tempo ⁠, um vetor com um elemento por unidade (por exemplo, representando um único neurônio), onde é uma quantidade de valor real associada com a unidade, correspondendo a um potencial de voltagem integrado no tempo. Vamos denotar para o estado das unidades visíveis (ou seja, um subconjunto dos elementos de representação da entrada acionada externamente) e para o estado das unidades ocultas (ou seja, os elementos restantes de tal que ⁠). Além disso, seja a função que calcula um novo estado completo dado seu estado anterior ⁠, denotando as partes que, respectivamente, geram os novos estados das unidades visíveis e ocultas.

2.2 Interpretação do Aprendizado de Máquina: Integração com Vazamento como Langevin MCMC

Por que a equação 2.1 pode ser vista como realizando inferência, movendo-se em direção a estados mais prováveis ​​sob? Observe, primeiro, que na equação 2.1 representa uma suposição para uma nova configuração, sendo uma direção de movimento ruidosa e uma direção sem ruído.

2.3 Uma Possível Função de Energia

WKdDoQFFOIFS8-ZofiyO5p-ydImyUdxQ1MBxom-xk1CROaVepYH2j92N5QTV9oiXPX-agwAtLJLg __ & ampKey-Pair-Id = APKAIE5G5CRDK6RD3PGA3PGA que corresponde a um valor de saída igual a 0, 0, e é o valor correspondente a um tipo de saída 0, neutro, 0 e 1 para a taxa de disparo "/> e é o tipo 1, correspondente a uma taxa não-linear, e é o valor 1, correspondente a uma taxa de disparo" /> não linear, e é a taxa de disparo correspondente a um tipo, 0, e é a taxa de disparo 1, tipo não correspondente, e é a taxa de disparo 1, correspondente a um tipo não, e é a taxa de disparo 1, ou seja, o valor correspondente a um tipo não, e é o valor 1, correspondente a uma taxa de saída não-1, e não é 1, e é o tipo de saída 1, correspondente a uma taxa de disparo "/> e não é 1, e é o tipo correspondente a uma taxa de saída, não-0, e é o valor 1, correspondente a uma taxa de disparo" /> não e 1

Observe que, de uma perspectiva biológica, a transformação não linear pode ser vista como modelagem da dependência monotonicamente crescente da taxa de disparo real (ou, equivalentemente, a probabilidade de disparo) na atividade integrada (o potencial de membrana esperado, calculado sobre os efeitos aleatórios de ambos os picos pré e pós-sinápticos).

Esta fórmula para a entrada de acionamento é semelhante à soma ponderada usual das taxas de disparo, exceto para o novo fator ⁠, que é 1 se e 0 caso contrário. Isso sugeriria que, quando o neurônio está saturado (sendo desligado ou disparando na taxa máxima), as entradas externas não têm impacto sobre seu estado. O único termo que permanece na equação de atualização neural, equação 2.1, é aquele que leva o estado em direção a 0, trazendo-o para fora da região de saturação e de volta a um regime onde o neurônio é sensível ao feedback externo, contanto que seja não é um valor saturado (que é garantido pela condição de ⁠). Essa ideia é desenvolvida mais adiante.

2.3.1 Comportamento de Ponto Fixo


1. Introdução

Spiking Neural Networks (SNNs) são redes neurais artificiais de terceira geração (ANNs). A primeira geração de RNAs é baseada em neurônios McCulloch-Pitts, e a segunda geração tem uma função de ativação contínua, como a função sigmóide (Maass, 1997). Em comparação com as gerações anteriores, os SNNs são mais biológicos do que seus predecessores. Por causa dos altos custos computacionais, a aplicação de SNNs em aprendizado de máquina ou reconhecimento de padrões é problemática no momento. É razoável esperar, entretanto, que o poder crescente dos computadores tornará os SNNs práticos em um futuro próximo. A motivação por trás desta carta é a pesquisa sobre como os SNNs podem ser aplicados ao reconhecimento de padrões em particular. Abordo os problemas associados ao treinamento de SNNs para reconhecimento de padrões espaciais.

Os neurônios da maioria das espécies animais se comunicam liberando mensageiros químicos chamados neurotransmissores durante um evento atômico chamado pico. Existem duas abordagens principais para interpretar picos neurais como dados. Um é a codificação de taxa, em que os dados são codificados em uma contagem média de picos em um período de tempo específico. A outra é a codificação temporal, em que os dados são codificados dentro do tempo de pico preciso.

Os resultados da pesquisa biológica sugerem que a codificação de taxa por si só não pode explicar a velocidade de transferência de dados em organismos vivos (Gerstner, Kempter, van Hemmen e amp Wagner, 1996 VanRullen e amp Thorpe, 2001). A codificação temporal, entretanto, pode, porque requer um tempo mínimo para o neurônio responder. É discutível se a codificação temporal ocorre em sistemas neurais vivos (Rolls, Aggelopoulos, Franco, & amp Treves, 2004), no entanto, há evidências experimentais para apoiar o conceito de codificação temporal (Prut et al., 1998 Gerstner & amp Kistler, 2002 Fellous, Tiesinga, Thomas, & amp Sejnowski, 2004 VanRullen, Guyonneau, & amp Thorpe, 2005 Kayser, Montemurro, Logothetis, & amp Panzeri, 2009). Além disso, a descoberta da plasticidade dependente do tempo de pico (STDP) sugere que o tempo dos picos é o que importa. Existem algumas regras STDP distintas para os diferentes tipos de sinapses conhecidas no momento (Caporale & amp Dan, 2008). STDP é frequentemente referido como uma forma de aprendizagem Hebbian. A regra STDP que protege a mudança da força sináptica no tipo excitatório-para-excitatório das sinapses químicas parece ter como alvo as coincidências de picos de entrada (veja o apêndice). Em uma ampla gama de parâmetros, a regra STDP aditiva leva a uma distribuição bimodal de forças sinápticas (Rubin, Lee, & amp Sompolinsky, 2001): picos de entrada que são a causa de um pico de neurônio pós-sináptico resultam em aumento da força sináptica, enquanto a força de outras sinapses decai. Picos que chegam simultaneamente excitam o neurônio simultaneamente e, portanto, são mais propensos a causar um pico pós-sináptico.

Uma possível interpretação da codificação temporal é como um padrão espaço-temporal. O exemplo mais simples de um padrão espaço-temporal é um mapa binário on / off de picos em uma janela temporal curta, onde a probabilidade do pico na sinapse ativa é significativamente maior do que nas sinapses desativadas, e os picos são amplamente correlacionados no tempo, enquanto os picos desligados não são e produzem apenas um ruído de Poisson. Em sua forma mais simples, é um padrão espacial. No caso do aprendizado STDP, sob uma certa faixa de parâmetros, as intensidades das sinapses associadas ao padrão aumentam, enquanto as intensidades das outras sinapses, que recebem apenas ruído, decaem. Em outras palavras, o neurônio individual atua como um detector de coincidência (Abbott & amp Nelson, 2000). No caso mais simples possível, esse tipo de treinamento poderia ser reduzido a aprendizado supervisionado como uma operação de atribuição simples: se a entrada já estiver no padrão, defina a força como 1, caso contrário, defina como 0.

O treinamento STDP foi pesquisado por muitos autores (Masquelier, Guyonneau, & amp Thorpe, 2008, 2009 Song, Miller, & amp Abbott, 2000 Guyonneau, VanRullen, & amp Thorpe, 2005 Gerstner & amp Kistler, 2002). Ao organizar vários neurônios em uma rede competitiva simples, ou seja, conectar neurônios com sinapses inibitórias laterais, é possível treinar essa rede para vários padrões espaço-temporais distintos, onde o neurônio individual torna-se seletivo para apenas um dos padrões. Tal rede é capaz de aprender mesmo que o padrão seja altamente obscurecido por ruído e mesmo que a ocorrência de padrões amostrais não seja periódica (Masquelier et al., 2009).

Nesta carta, abordo dois problemas associados à aprendizagem de padrões espaciais usando o método de aprendizagem STDP. Considere um neurônio treinado para um padrão bidimensional na forma da letra F. Mais tarde, o neurônio é apresentado com um padrão na forma da letra E, que inclui a carta F. Em uma rede competitiva simples, não existe um mecanismo claro que impeça este neurônio de ser seletivo para o E padronizar.

O segundo problema está intimamente relacionado ao primeiro. Para que o treinamento seja bem-sucedido, os valores do limiar e dos pesos sinápticos iniciais devem ser ajustados de acordo com a quantidade de estimulação antecipada. A quantidade de estimulação recebida, além das propriedades dos pesos dos neurônios e sinápticos, depende das propriedades espaciais e temporais do padrão da amostra. Considere dois padrões espaciais simples no espaço bidimensional: um ocupa 2% das sinapses de entrada, o outro 50%. Agora, suponha que os padrões não se sobreponham. Suponha que haja dois neurônios treinados para cada um desses padrões. Nesse caso, as sinapses do neurônio capaz de disparar no padrão de tamanho de 2% devem ser 25 vezes mais fortes do que as do neurônio disparar no padrão de tamanho de 50% (inversamente, o valor limite seria 25 vezes menor). Caso contrário, o segundo neurônio responderia ao ruído aleatório e a taxa de resposta seria muito alta, potencialmente levando a um aprendizado instável, especialmente no caso de uma regra de atualização STDP do vizinho mais próximo (Izhikevich & amp Desai, 2003). Mesmo que se presuma que, no caso do padrão maior, o treinamento para muito mais cedo, não há como definir pesos iniciais para se ajustar a ambos os padrões.

Não se sabe se esses problemas são verdadeiros em sistemas neurais biológicos, mas eles definitivamente representam um obstáculo na aplicação de SNNs competitivos para reconhecimento de padrões.

Para resolver esse problema, pode-se construir uma rede altamente heterogênea, mas essa abordagem pode ser muito complicada e ineficiente para aplicações práticas. Outro método seria introduzir mecanismos adicionais, como modulação externa ou metaplasticidade homeostática para manter o neurônio em uma taxa de resposta controlável.

Adotei a abordagem simples de configurar uma rede de duas camadas de modo que cada neurônio seja ativado apenas dentro das restrições de uma certa gama de estímulos de entrada. Em outras palavras, a ideia subjacente é colocar neurônios individuais em condições em que o neurônio seja capaz de aprender o F padrão é menos provável de disparar quando exposto a E devido à inibição de baixo para cima, e o neurônio é capaz de aprender E não atinge o limiar de disparo quando exposto a F devido a forças sinápticas insuficientes. Isso é conseguido atribuindo a cada neurônio treinado uma coordenada espacial, introduzindo uma contraparte inibitória na camada de treinamento e definindo fatores de força sináptica em proporção à distância euclidiana ao neurônio de entrada.


19.3 Aprendizagem não supervisionada

Em redes neurais artificiais, alguns, ou mesmo todos, os neurônios recebem entradas de fontes externas, bem como de outros neurônios na rede. As entradas de fontes externas são normalmente descritas como um conjunto estatístico de estímulos potenciais. A aprendizagem não supervisionada no campo das redes neurais artificiais refere-se a mudanças de conexões sinápticas que são impulsionadas pelas estatísticas dos estímulos de entrada - em contraste com a aprendizagem supervisionada ou aprendizagem baseada em recompensa, onde os parâmetros de rede são otimizados para alcançar, para cada estímulo, um comportamento ideal. As regras de aprendizagem Hebbian, conforme apresentadas na seção anterior, são o principal exemplo de aprendizagem não supervisionada em redes neurais artificiais.


Habilitando um Esquema de Aprendizado Temporal de Taxa Integrado no Memristor

O esquema de aprendizagem é a chave para a utilização da computação baseada em spikes e a emulação de comportamentos neurais / sinápticos para a realização da cognição. As observações biológicas revelam uma plasticidade dependente do tempo e da taxa de pico integrada em função da frequência de disparo pré-sináptica. No entanto, este esquema de aprendizagem taxa-temporal integrado não foi realizado em nenhum dispositivo nano. Neste artigo, tal esquema é demonstrado com sucesso em um memristor. Grande robustez contra a flutuação da taxa de spiking é alcançada pela engenharia de forma de onda com o auxílio de boas propriedades analógicas exibidas pelo memristor à base de óxido de ferro. A plasticidade de dependência do tempo de pico (STDP) ocorre em frequências de disparo pré-sinápticas moderadas e a plasticidade de dependência da taxa de pico (SRDP) domina outras regiões. Esta demonstração fornece uma nova abordagem na implementação de codificação neural, o que facilita o desenvolvimento de sistemas de computação bioinspirados.

Nosso cérebro executa várias tarefas cognitivas e supera o computador digital de von Neumann de última geração em muitos domínios 1, 2. A abordagem inspirada no cérebro é uma das direções de pesquisa para sustentar a melhoria contínua de desempenho quando a redução de escala da tecnologia CMOS se aproxima de seus limites 3, 4, 5. Apesar do enorme progresso nas tecnologias VLSI, ainda é um desafio intransponível simular nosso cérebro na escala de 100 bilhões de neurônios e 100 trilhões de sinapses usando dispositivos puramente baseados em silício 6, 7, 8. É amplamente aceito que a sinapse - conexão biológica entre dois neurônios que permite que a informação flua de um para o outro - é essencial na mediação dos processos de memória, aprendizagem e cognição 9. Uma propriedade onipresente da sinapse é a capacidade de acompanhar o histórico da atividade moldando sua plasticidade, que é codificada por meio de várias formas de regras de aprendizagem dependentes da atividade. Embora o mecanismo biológico subjacente aos comportamentos sinápticos ainda esteja em debate, os parâmetros identificados que influenciam a plasticidade sináptica, incluindo intervalo de pico pré e pós-sináptico 10, 11, 12, taxa de pico 13, 14, voltagem pós-sináptica 15, 16, localização dendrítica 17, 18 , e despolarização pós-sináptica 19, 20 foram relatados. Geralmente, a plasticidade dependente do tempo de pico (STDP), muitas vezes interpretada como a & # x0201cprimeira lei & # x0201d da plasticidade sináptica, concentra-se nas diferenças de tempo de pico entre os neurônios pré e pós-sinápticos na modificação do peso sináptico 10, 11, 12, 21 Além de STDP, a regra de aprendizagem de plasticidade dependente da taxa, que é denominada como plasticidade baseada na taxa impulsionada pelo pico 13, 22, 23, 24, 25 ou plasticidade dependente da taxa de pico (SRDP) 26, expressa a dependência da frequência do pico. Além disso, na Vivo experimentos revelam que a plasticidade dependente do tempo e da taxa de pico se integram como uma função da frequência de disparo pré-sináptica 14, 27. Quando o neurônio pré-sináptico dispara em taxas moderadas (10 & # x0201320 & # x02005Hz), a regra de aprendizagem STDP ocorre principalmente 27. Fora da região de frequência moderada, a regra de aprendizagem sináptica baseada na taxa de pico governa a indução de plasticidade e é independente do intervalo de pico pré e pós-sináptico 10, 14, 28. Acredita-se amplamente que este esquema de aprendizagem taxa-temporal integrado desempenha um papel importante no processamento de sinais neurais e armazenamento de informações 29, 30, 31. No entanto, até onde sabemos, esse esquema de aprendizado não foi realizado em nenhum dispositivo.

Avanços recentes em memristor (também denominado como dispositivo memristivo) 32, 33, 34 forneceram uma oportunidade estratégica para o avanço do desenvolvimento em engenharia neuromórfica. Isso é atribuído às propriedades únicas do memristor, incluindo armazenamento não volátil, tamanho da escala nano, comportamentos analógicos e sua capacidade de lembrar a história por meio da modulação de seu estado interno 35, 36. Isso desperta uma nova onda de entusiasmo no desenvolvimento de dispositivos sinápticos analógicos de estado sólido 37, 38, 39, 40, 41, 42, 43. Neste artigo, propomos uma nova maneira de emular o esquema de aprendizagem de codificação dupla (taxa e temporal) em um memristor, personalizando as formas de onda de pico pré-sináptico. Esta nova proposta, baseada nas propriedades analógicas do memristor, pode ser facilmente implementada em circuitos neurais.

Em comparação com os aplicativos de armazenamento em massa, os aplicativos neuromórficos definem requisitos especiais para o memristor. Ele deseja propriedades analógicas confiáveis, como transição de comutação não abrupta, estados de resistência continuamente distribuídos e comportamento repetível.Neste artigo, o óxido de ferro é escolhido como a camada de troca de resistência do memristor e suas propriedades serão discutidas primeiro. O memristor, que consiste em uma estrutura tipo sanduíche de Pt / óxido de ferro / Pt, conforme mostrado na Fig. 1 (a), foi fabricado. O tamanho do dispositivo foi padronizado para ser 0,25 & # x02005 & # x003bcm 2. A camada de óxido de ferro (50 & # x02005nm) foi pulverizada em uma câmara de alto vácuo de um alvo de composto de óxido de ferro e a temperatura de deposição está abaixo de 300 & # x000b0C, que é compatível com a especificação do processo de backend de semicondutor. Com base na análise de espectroscopia de fotoelétrons de raios-X (XPS) (informações complementares), o composto majoritário dentro do filme sputtered é FeO.

(a) Uma ilustração esquemática do dispositivo de memristor de óxido de ferro e vista em seção transversal de um dispositivo real conduzido em microscopia eletrônica de transmissão (TEM). (b) Curvas de corrente-voltagem (I-V) de memristor sob múltiplas varreduras DC em forma de triângulo. Um comportamento bipolar e uma distribuição contínua de estados de resistência são demonstrados.

O memristor de óxido de ferro foi investigado pela primeira vez no modo DC. Ao inserir uma voltagem CC de forma de onda triangular para o memristor, a curva I & # x02013V em cada ciclo de varredura aparece em forma de banana como um loop de histerese tanto na varredura positiva (gráfico à esquerda) quanto na varredura negativa (gráfico à direita), como mostrado na Fig. 1 (b). Conforme o número de ciclos aumenta, a condutância aumenta ou diminui monotônica e consecutivamente. Comparado a outros relatórios de memristores analógicos 37, 40, o memristor de óxido de ferro exibe duas diferenças principais. Primeiro, as curvas de varredura adjacentes apenas coincidem entre si na região de baixa tensão e não há sobreposição, indicando retenção de dados aprimorada. Esta região de coincidência também mostra uma relação de lei quadrada entre corrente e voltagem (informações suplementares), o que indica um mecanismo de condução de corrente limitada de carga espacial (SCLC) 44. Em segundo lugar, não há flutuação ou mudança abrupta nas curvas I & # x02013V durante a varredura, implicando em uma distribuição contínua de estados de resistência.

As características de programação da operação de set e reset foram investigadas no modo de pulso. Quando a amplitude do pulso é fixada durante a operação de ajuste, conforme mostrado no gráfico à esquerda da Fig. 2 (a), uma relação logarítmica entre as mudanças de condutância e largura de pulso é observada. Por outro lado, quando a largura de pulso é fixa, ela exibe uma relação linear aproximada entre a amplitude do pulso e a mudança da condutância quando a amplitude do pulso está acima do limite, conforme ilustrado no gráfico à direita da Fig. 2 (a). Em resumo, a amplitude da tensão tem mais impacto na alteração do peso do memristor do que a largura do pulso.

(a) O impacto da condutância embutida sob variação de largura de pulso e amplitude de pulso. O gráfico à esquerda está sob amplitude positiva fixa (

1,88 & # x02005V) e o gráfico direito está sob largura de pulso fixa (1 & # x02005ms). A condutância embutida foi lida em 0,1 & # x02005V após cada pulsação. (b) A relação entre a tensão limite e a largura de pulso. Inset: tensões limite extraídas sob ajuste linear. (c) O desempenho de degradação do memristor à base de óxido de ferro. (d) Uma ilustração da repetibilidade do memristor de óxido de ferro em trens de pulso consecutivos. Cada trem de pulso positivo / negativo consiste em 15 pulsos.

Também foi descoberto que a voltagem limite do memristor de óxido de ferro é dependente da largura do pulso. Ao variar a largura do pulso, o início da mudança de condução é variado. Ao ajustar linearmente os pontos de medição, como mostrado na inserção da Fig. 2 (b), as tensões de limiar sob diferentes larguras de pulso podem ser extraídas. Um limite de tensão mais alto é acompanhado por uma largura de pulso mais curta. As tensões limite são compiladas na Fig. 2 (b). A figura mostra uma relação inversamente linear entre a tensão de limiar e o logaritmo da largura de pulso. Isso indica que se a largura do pulso for reduzida para a escala de nanossegundos, uma voltagem muito maior é necessária para mover a condutância embutida, o que torna o memristor robusto a falhas no circuito. Além disso, se o memristor estiver muito estressado, a janela da memória pode ter até 19 dobras.

O memristor leva mais de 4 meses para decair até a metade da janela de memória e vários anos para retornar ao ponto inicial, como mostrado no detalhe da Fig. 2 (c). A forte perda de retenção relatada de WOx memristor 37 não foi observado no memristor de óxido de ferro. Com base na função de decaimento exponencial proposta por Hermann Ebbinghaus , a força relativa (S) do memristor de óxido de ferro é ajustada para ser 8,9, como mostrado na Fig. 2 (c), e a curva de decaimento não está relacionada aos números de pulso. Além disso, de acordo com o relatório de Wickliffe C. Abraham em 2003, que & # x0201cLTP (potenciação de longo prazo) pode durar horas, dias ou até meses, e geralmente segue uma queda exponencial& # x0201d 45, o memristor à base de óxido de ferro que retém a resistência por meses pode atuar como uma sinapse de longo prazo em um circuito neuromórfico.

Para formar o memristor analógico, é necessário um processo de formação de alta voltagem, conforme ilustrado na Fig. S2 suplementar. Após o processo de formação, todos os dispositivos de memristor exibem janela de memória semelhante, apesar do tamanho do dispositivo variando de 0,25 & # x02005 & # x003bcm 2 a 16 & # x02005 & # x003bcm 2, o que implica uma formação de filamento condutor 46. Além disso, a curva I & # x02013V não linear na região de baixo campo elétrico discutida acima sugere que o memristor funciona sob a condição de ruptura do filamento. A condição do ponto de ruptura determina o comportamento de mudança da resistência.

Até agora, as características do memristor de óxido de ferro foram analisadas. Com a inicialização adequada, o dispositivo de memória pode ser alternado repetidamente para frente e para trás, como mostrado na Fig. 2 (d). Em comparação com outros memristores relatados 40, 47, 48, o memristor à base de óxido de ferro demonstra controlabilidade aprimorada durante a programação e repetibilidade aprimorada entre diferentes trens de pulso. Utilizando totalmente esses comportamentos analógicos, o memristor de óxido de ferro pode ser usado para emular as regras de aprendizagem sináptica.

Ao contrário da regra de aprendizagem sináptica STDP, a regra de aprendizagem sináptica SRDP não foi demonstrada usando memristor. Vários artigos relataram dependência de frequência de memristor de que diferentes frequências de programação levam a curvas de decaimento muito diferentes 38, 49, 50, 51. Esse comportamento é usado para imitar a transição da memória de curto prazo para a memória de longo prazo. No entanto, ele não pode ser usado para emular a regra de aprendizagem SRDP. Porque SRDP requer plasticidade de mudança bidirecional em regiões de frequência diferente - baixa frequência induz LTD (diminuição de plasticidade) e alta frequência induz LTP (aumento de plasticidade). A fim de realizar esse comportamento de mudança bidirecional, propomos uma nova maneira de projetar as formas de onda de entrada, que não apenas realiza SRDP, mas se integra ainda mais com STDP como um todo para alcançar um esquema de aprendizagem integrado bio-plausível.

O pico pré-sináptico é personalizado inspirando-se no comportamento de disparo dos neurônios biológicos. Uma curva de disparo neural biológica típica é mostrada na parte inferior esquerda da Fig. 3 (a) 52. Com base nesta curva de disparo biológico, uma forma semelhante de pico pré-sináptica é construída. Conforme mostrado no canto inferior direito da Fig. 3 (a), o pico pré-sináptico consiste em dois pulsos. Um é um pulso curto e de alta amplitude, seguido por um pulso relativamente amplo e de baixa amplitude na direção oposta. A construção de pulsos negativos e positivos em um pico pré-sináptico visa realizar a mudança de peso bidirecional quando a frequência de disparo pré-sináptica varia. Usando um circuito simples (documento suplementar), este pico pré-sináptico personalizado pode ser facilmente realizado com uma entrada de pulso normal.

(a) Uma ilustração simples de neurônio, sinapse e pico neural. O pico personalizado (gráfico inferior direito) é inspirado na curva de disparo biológico (gráfico inferior esquerdo). (b) Uma ilustração de formas de onda de pico em diferentes frequências de disparo pré-sináptico. (c) Uma emulação da regra de aprendizagem SRDP sobre o memristor de óxido de ferro. (d) A curva biológica SRDP 26 relatada.

A fim de coincidir com a mudança de direção da plasticidade que a baixa frequência induz a depressão de longo prazo (LTD), a forma de pico pré-sináptica usada durante o teste está de cabeça para baixo. Ou seja, o pulso curto tem amplitude negativa (& # x022121.8 & # x02005V), seguido pela amplitude baixa positiva (0,5 & # x02005V), conforme mostrado na Fig. 3 (b). Esta grande amplitude negativa (& # x022121.8 & # x02005V) diminui muito a condutância do memristor e a outra metade do pico - pulso positivo de baixa amplitude (0,5 & # x02005V) tem impacto desprezível no memristor porque está abaixo da tensão limite . Assim, o efeito geral do pico pré-sináptico diminui a condutividade, que realiza LTD na condição de baixa taxa de pico (& # x0003c5 & # x02005kHz). Quando a taxa de pico está acima de 5 & # x02005kHz, os pulsos positivo e negativo dos picos pré-sinápticos se sobrepõem, cancelando assim a amplitude negativa, resultando em uma diminuição menor na condutância. Mesmo a frequência pré-sináptica mais alta, como 20 & # x02005kHz, cancela ainda mais a amplitude negativa, bem como acumula os pulsos positivos para ficarem muito acima da tensão de limiar positiva, causando um aumento significativo na condutância do memristor. Uma ilustração das formas de onda discutidas acima é mostrada na Fig. 3 (b), usando a frequência de pico pré-sináptica de 2,5, 10 e 20 & # x02005kHz como exemplos. Quando esses picos pré-sinápticos são introduzidos no memristor de óxido de ferro, um comportamento de plasticidade dependente da frequência é demonstrado, como mostrado na Fig. 3 (c), que a baixa frequência dos picos pré-sinápticos diminui a condutividade (LTD), e picos de alta frequência aumentam a condutividade (LTP). Este comportamento dependente da frequência corresponde ao relatório biológico do SRDP 26, que é redesenhado na Fig. 3 (d).

Além disso, a regra de aprendizado de plasticidade dependente do tempo de pico (STDP) também é demonstrada usando os mesmos trens de pico pré-sinápticos. Semelhante aos relatórios da literatura 39, 40, 41, 51, 53, 54, um trem de pulso adaptado especial (denominado como trem de pulso STDP) com amplitudes de tensão variadas é construído a fim de correlacionar a mudança de condutância com o intervalo de disparo pré e pós-sináptico (& # x00394t = tpré & # x02212 tpublicar), como mostrado na Fig. 4 (a). A razão de usar várias amplitudes de pulso na construção do trem de pulso STDP em vez de larguras de pulso é devido à maior sensibilidade da amplitude de pulso do memristor. O trem de pulso STDP consiste em 8 pulsos: 4 pulsos positivos seguidos por 4 pulsos negativos. Todos os pulsos têm a mesma largura de pulso (4 & # x02005 & # x003bcs) e os mesmos intervalos (4 & # x02005 & # x003bcs). O ponto central do trem de pulso STDP está alinhado com a borda ascendente do pico pré-sináptico.

(a) Um exemplo de esquema pulsante para a realização da regra de aprendizagem STDP. (b) Uma ilustração esquemática do circuito de sinapses para alcançar o esquema de aprendizagem de codificação dupla. (c) Uma regra de aprendizagem STDP típica emulada usando memristor de óxido de ferro na frequência de disparo pré-sináptica de 10 & # x02005kHz. (d) Um resumo da integração da regra de aprendizagem ao variar a frequência de disparo pré-sináptica. Mostra que a regra de aprendizagem STDP só acontece na região de frequência moderada e outras regiões são dominadas pela regra de aprendizagem SRDP.

Além disso, inspirado no período refratário e no efeito de retropropagação, um esquema operacional da sinapse é ilustrado na Fig. 4 (b) para realizar a regra de aprendizado STDP. O período refratário refere-se ao período de bloqueio da informação biológica que é causado pela inativação dos canais iônicos de sódio. Durante este período, o neurônio não dispara novamente, independentemente do estímulo de entrada e se redefine para o potencial de repouso 52. Um interruptor (K1 switch) é usado para realizar e emular o período refratário em nossa proposta. A menos que o pós-neurônio seja acionado, o óxido de ferro memristor conecta o neurônio pré-sináptico e o neurônio pós-sináptico diretamente, permitindo a passagem da informação. Uma vez que o neurônio pós-sináptico dispara, esta informação de disparo se propaga de volta para K1 alternar e acioná-lo comutando para o terminal de forma de onda STDP por um curto período (8 & # x02005 & # x003bcs) & # x02013 período refratário. Durante este período, as informações do neurônio pré-sináptico serão bloqueadas e o neurônio pós-sináptico irá redefinir seu potencial para a condição inicial. Ao mesmo tempo, o pico pré-sináptico se sobreporá aos pulsos STDP para modificar a condutividade do memristor & # x02013 induzindo a mudança de plasticidade.

Um STDP típico é demonstrado na Fig. 4 (c) na frequência pré-sináptica de 10 & # x02005kHz. Aqui, assumimos que o disparo nove vezes do neurônio pré-sináptico resulta em um disparo único do neurônio pós-sináptico e a queda de voltagem no memristor é fixada a 2,5 & # x02005V para evitar a quebra do dispositivo de memristor. Como mostrado na Fig. 4 (c), quando o neurônio pré-sináptico dispara antes do neurônio pós-sináptico (& # x00394t & # x0003e 0), o LTP é induzido. Caso contrário, LTD ocorre. Além disso, o menor intervalo de disparo pré e pós-sináptico resulta em uma mudança maior de condutividade e vice-versa. No entanto, quando o neurônio pré-sináptico dispara em outra região de frequência (por exemplo, 2,5 & # x02005kHz, 20 & # x02005kHz), o comportamento STDP não é observado, independentemente do intervalo de disparo pré e pós-sináptico. Isso se deve ao efeito de cancelamento entre o trem de pulsos STDP e os picos neurais pré-sinápticos (informações suplementares). Os comportamentos dependentes de frequência estão resumidos na Fig. 4 (d), mostrando que STDP só acontece na região de taxa de disparo moderada (variando de 8 & # x02005kHz a 10 & # x02005kHz em nosso teste, conforme destacado na Fig. 3 (c)) . Fora da região moderada, as taxas de disparo mais altas levam apenas a um aumento da condutividade (LTP) e a taxa de disparo mais baixa causa uma diminuição na condutividade (LTD). Essas observações são consistentes com relatórios biológicos 27, demonstrando um esquema de aprendizagem de codificação dupla em um único dispositivo nano. É necessário ressaltar que as taxas de disparo de entrada constantes são utilizadas durante a ilustração da regra de aprendizagem, que visa simplificar a análise. No entanto, os picos de neurônios de entrada podem ser inconsistentes e discretos como a realidade. Usando o bloco de geração de forma de onda (informações suplementares), os picos inconsistentes e discretos podem ser facilmente transformados em forma de onda sob medida para a implementação de regras de aprendizagem.

Deve-se notar que a resposta dos neurônios biológicos não é uniforme, mas é variável e muitas vezes é modelada por uma distribuição estatística, ou seja, Poissoniana, em literaturas 55. Dispositivos emulando propriedades sinápticas precisam considerar a robustez contra estímulos neurais não uniformes. Nossa proposta de esquema de aprendizagem de codificação dupla é robusta à variação da entrada pré-sináptica. Quando a frequência de disparo pré-sináptica é ligeiramente variada, ou mesmo um pico é perdido ou inserido devido à instabilidade do sistema, o esquema de aprendizagem irá tolerar essas flutuações e produzir resultados semelhantes, desde que os erros não sejam críticos. (informação suplementar).

As variações de condutância de dispositivo para dispositivo também existem. Por exemplo, sob a mesma condição de largura de pulso (0,1 & # x02005ms), as tensões limite da maioria dos dispositivos caem na faixa de 0,9 & # x000b1 0,1 & # x02005V. Essas variações, acreditamos, não seriam um grande obstáculo na implementação neuromórfica, pois a variação das sinapses também foi observada no cérebro humano que não afeta a cognição 56, 57. Atualmente, existem duas maneiras de lidar com essas variações. Simeon Bamford et al. relataram que o STDP é um processo homeostático não supervisionado e autocontido. Ele pode reduzir as variações no desempenho causadas por incompatibilidade na fabricação e não homogeneidade nos dispositivos eletrônicos 58. A outra forma proposta por Sadique Sheik et al é uma forma totalmente diferente 59. Em vez de tentar reduzir a incompatibilidade do dispositivo, ele propôs utilizar essas incompatibilidades presentes nos chips VLSI para modelar diferenças biológicas, como as variações dos atrasos de propagação axonal. Nesta nova abordagem, uma certa gama de incompatibilidades e variações é desejável.

Sabe-se que diferentes partes do cérebro usam diferentes combinações de mecanismos de aprendizagem. Por exemplo, nosso reconhecimento visual usa regra de aprendizagem baseada em espaço-temporal e nosso reconhecimento auditivo usa regra de aprendizagem baseada em frequência. No grande desafio dos sistemas cognitivos, é necessário emular uma ampla pletora de mecanismos de aprendizagem para facilitar o desenvolvimento de todo o espectro de funções cognitivas. Para esse efeito, esperamos que nosso esquema de aprendizagem de codificação dupla possa fornecer uma plataforma para o desenvolvimento de tecnologia de codificação neural em estrutura hierárquica. Por outro lado, do ponto de vista da engenharia, surge a questão de se a única implementação da regra de aprendizagem STDP baseada em pares, que tem sido relatada por vários grupos 39, 40, 41, 42, 60, 61, é suficiente. para construir um circuito neural funcional. Descobrimos que há dois dilemas difíceis de lidar. Primeiro, na condição de alta frequência, as janelas de aprendizagem de LTP e LTD se sobreporão. O pico pós-sináptico localizado dentro dessa região de sobreposição teria dificuldade em identificar as ações adequadas. Em segundo lugar, quando um neurônio tem múltiplas entradas, a perturbação do pico alienígena de diferentes sinapses pode induzir uma indesejável mudança de peso sináptica que está em conflito com suas contribuições históricas. Portanto, a regra de aprendizado STDP baseada em pares não é suficiente para aliviar esses dilemas e a dependência da taxa de pico deve ser considerada. Em suma, o esquema de aprendizagem de codificação dupla deve ser altamente desejado na implementação de circuitos neurais.

Em resumo, com base nas boas propriedades analógicas exibidas a partir do memristor à base de óxido de ferro, um esquema de aprendizagem de taxa-temporal integrado é demonstrado. Este esquema de aprendizagem emulado é robusto para as variações de frequência de entrada, bem como para picos ausentes. Esperamos que a implementação do esquema de aprendizagem de codificação dupla possa facilitar muito o desenvolvimento de circuitos neuromórficos em direção à cognição real.


Discussão

Apresentamos aqui um modelo de uma rede de estado balanceado de neurônios spiking em que um conjunto de regras de plasticidade biologicamente plausíveis, como STDP e plasticidade homeostática, leva a efeitos estáveis ​​de auto-organização.

Em contraste com estudos anteriores, estruturas que promovem formas particulares de propagação de sinal aparecem de forma auto-organizada em nosso modelo ao invés de serem impressas estaticamente [71], e são estáveis ​​por longos períodos de tempo ao invés de uma característica transitória [30]. Além disso, STDP inibitório estabiliza a dinâmica da rede em nosso modelo, mantendo-a em um regime biologicamente plausível e elimina o problema de excitação descontrolada e estados de rede patológicos após a estimulação síncrona repetida de um grupo de neurônios enfrentados por alguns modelos anteriores [31].

Partindo de uma configuração homogênea, gaussiana ou uniforme, a rede expressa distribuições de cauda longa de pesos sinápticos após uma fase transitória.As distribuições de peso sináptico também foram encontradas para ser de cauda longa em redes corticais [6, 7, 72, 73] e tais distribuições foram mostrados para facilitar o processamento de informações em redes de spiking [5, 24].

Além disso, a rede expressa distribuições de cauda longa de taxas de tiro e uma combinação das duas propriedades de ter ambas as distribuições de cauda longa de taxas de tiro e pesos sinápticos não é simples [2]. Por exemplo, os pesos no modelo SORN [33] convergem para uma distribuição de cauda longa, mas a distribuição das taxas de disparo é quase Gaussiana. Juntas, ambas as distribuições de cauda longa de pesos sinápticos e taxas de disparo constituem uma propriedade interessante do modelo, em particular porque nos últimos anos surgiram evidências crescentes de que as distribuições de cauda longa são onipresentes nas redes neurais biológicas e podem desempenhar um papel importante no funcionamento do cérebro [10, 12]. Além disso, a rede expressa de forma estável a atividade de spiking irregular assíncrona, um regime que se acredita ser um bom ajuste teórico para a atividade cortical. na Vivo [34, 35, 37].

Uma delicada interação das regras de plasticidade excitatória e inibitória em nosso modelo permite que uma fração das células excitatórias que chamamos neurônios motoristas para desenvolver sinapses excitatórias de saída predominantemente fortes. Mostramos que as células condutoras têm um forte impacto na dinâmica de suas redes pós-sinápticas e que, por atividade de spikes síncronas, elas podem até mesmo acionar surtos de população. As propriedades características das células condutoras foram consideradas muito mais altas do que as taxas de disparo médias causadas por correntes inibitórias reduzidas que elas recebem (levando a um impulso excitatório relativo mais alto) e graus mais altos de conectividade em suas sub-redes.

Como resultado, os neurônios motoristas expressam um alto grau de & # x0201incorporação efetiva & # x0201d [74] dentro da rede e podem ajudar a preencher a lacuna entre a atividade de célula única e de rede, uma conexão dinâmica possivelmente relevante, como na Vivo mesmo spikes simples foram mostrados para importar tanto no nível da dinâmica da rede [75] e comportamental [76].

A conectividade de rede local desempenhou um papel crucial no surgimento de células condutoras, em particular desequilíbrios locais no número de sinapses excitatórias e inibitórias convergentes. Infelizmente, não há muitos dados experimentais disponíveis fornecendo informações sobre a (co-) variância do número de sinapses inibitórias e excitatórias convergentes em neurônios individuais. Os poucos estudos que pudemos encontrar avaliaram as variações dos números das sinapses entre 10% e 30% por célula [77, 78], o que seria suficiente para permitir o surgimento de neurônios motoristas em nosso modelo. Do ponto de vista teórico, o fator determinante no surgimento de neurônios motoristas é o quociente de correntes excitatórias e inibitórias que essas células recebem, elas poderiam emergir equivalentemente por um aumento do impulso excitatório, possivelmente acompanhado de inibição reduzida, e esperamos ser capaz de formar células condutoras e conjuntos de células condutoras, fornecendo padrões de entrada apropriados para uma rede. Testamos a sensibilidade dos processos observados de auto-organização às mudanças no tamanho da rede. Para os casos que testamos (10.000 e 20.000 redes de neurônios), não encontramos grandes diferenças nos resultados dependendo do tamanho da rede. Deixamos uma investigação mais completa desta questão para um trabalho de acompanhamento.

Esperamos que as fortes sinapses emergentes, neurônios condutores e sub-redes de células condutoras forneçam um substrato eficiente para a geração de padrões recorrentes estereotipados de atividade neural, em particular quando a rede é apresentada uma entrada mais significativa (ou seja, estruturada). Esses padrões são um fenômeno onipresente observado em diferentes espécies e regiões do cérebro, ambos em vitro e na Vivo [79 & # x0201382] e acredita-se que desempenhe um papel importante para a transferência e processamento de informações em redes neuronais. Além disso, sub-redes emergentes de neurônios condutores podem promover a sincronia na rede, um aspecto da dinâmica da rede que demonstrou [83, 84] desempenhar um papel importante nas interações neuronais e na passagem de informações sensoriais.

Os fenômenos de auto-organização observados não são fortemente dependentes das distribuições iniciais de pesos sinápticos, de um ajuste dos valores dos parâmetros das regras de plasticidade ou mesmo da classe de regras de aprendizagem empregadas. Por exemplo, os resultados qualitativos permanecem inalterados se a escala de tempo da regra de plasticidade homeostática é aumentada em várias ordens de magnitude [28], e fortes pesos de saída ainda se agrupam em células altamente ativas ao trocar a regra STDP aditiva em conexões EE por um ou um totalmente multiplicativo [48, 51]. Portanto, as observações que relatamos aqui parecem ser uma característica genérica emergente ao invés de um artefato devido a certas escolhas de parâmetros ou mesmo regras de aprendizagem específicas. Além disso, esperamos que modelos fenomenológicos de plasticidade sináptica dependente de atividade que incorporam uma dependência de taxa de LTP [85, 86], como previamente observado experimentalmente [65], produzam resultados qualitativamente semelhantes ou ainda mais pronunciados em relação ao surgimento de neurônios motoristas, pois favorecem fortes conexões sinápticas em células com altas taxas de disparo.

O modelo que apresentamos aqui emprega uma arquitetura de rede bem compreendida e regras de plasticidade biologicamente plausíveis como blocos de construção. Também é mínimo no sentido de que, se qualquer uma das regras de plasticidade for excluída, os resultados qualitativos mudam e as características descritas de auto-organização, como o surgimento de neurônios motores, não são observáveis. Se a escala sináptica para as conexões excitatórias for excluída, a distribuição de peso E-E torna-se bimodal e a rede tende a estar em um estado sincronizado e excessivamente excitado. Finalmente, se STDP inibitório for excluído, isso produzirá neurônios drivers muito menos proeminentes. Neste caso, apesar do fato de que a distribuição de peso E-E é de cauda longa, o agrupamento de sinapses fortes de saída é muito mais fraco devido ao aumento da competição entre as células. Isso se deve ao fato de que tanto a plasticidade homeostática quanto o STDP inibitório influenciam a competição sináptica em nosso modelo, embora em níveis diferentes. Enquanto a plasticidade homeostática introduz competição entre as sinapses, a plasticidade inibitória a diminui entre os neurônios, permitindo que as células condutoras formem predominantemente fortes conexões de saída, suprimindo as células pós-sinápticas aos neurônios controladores. Este é um requisito geral para o desenvolvimento de neurônios condutores: deve haver competição no nível de sinapses individuais, mas não muita competição no nível neuronal, e deve haver alguma falta de homogeneidade na estrutura da rede para semear a quebra de simetria. Esses requisitos são atendidos em diferentes configurações, mais facilmente na rede que descrevemos neste artigo, que é equipada com STDP aditivo, STDP inibitório e escalonamento sináptico.

Apesar de sua simplicidade, nosso modelo é apoiado por uma infinidade de descobertas experimentais recentes. Por exemplo, estudos que investigam a arquitetura de microcircuitos corticais [1, 3, 7] já constituem alguma verificação experimental de certos aspectos de nossos achados. Em [1], a arquitetura da rede excitatória da coluna C2 em camundongos juvenis (P18 & # x0201321) foi encontrada para expressar EPSPs raros de grande amplitude em células excitatórias, e esses foram hipotetizados para desempenhar um papel importante para a dinâmica e processamento de informação na rede, fornecendo um substrato para o surgimento de conjuntos de células funcionais fortemente conectadas. Em nosso modelo, a plasticidade sináptica leva a uma situação semelhante na qual as fortes sinapses de saída nos neurônios condutores permitem que eles exerçam forte influência em suas redes pós-sinápticas e em toda a rede por meio da formação de sub-redes fortemente conectadas de células condutoras. Além disso, a combinação de graus mais elevados de conectividade acompanhada por distribuições EPSP com médias mais altas, conforme encontrado nas sub-redes de driver emergentes, está em linha com dados experimentais de redes corticais no córtex somatossensorial de ratos juvenis (P14 & # x0201316) onde as amplitudes médias EPSP foram mostradas [7] para aumentar com o grau de conectividade sináptica dentro dos grupos de células.

Outro estudo experimental recente [3] encontra uma sub-rede fortemente interconectada de neurônios excitatórios fosGFP + altamente ativos no córtex de barril de camundongos juvenis (P13 & # x0201323) que é estável por longos períodos de tempo. Em vez de ser uma causa de propriedades eletrofisiológicas intrínsecas à célula, as taxas de disparo elevadas foram causadas por uma combinação de entrada inibitória diminuída e entrada excitatória aumentada para essas células devido à atividade de rede [3], uma situação semelhante à observada para o driver neurônios em nosso modelo. Além disso, os neurônios fosGFP + foram considerados mais eficazes na condução da atividade de rede recorrente do que seus parceiros fosGFP & # x02212 que são caracterizados por atividade mais baixa. Ao mesmo tempo, as células fosGFP + mostraram ser preferencialmente ativas nos primeiros períodos de atividade espontânea, uma propriedade compartilhada com os neurônios líderes. Um pensamento especulativo, mas intrigante, é considerar o estudo [3] como a primeira investigação experimental de neurônios líderes em culturas não dissociadas, que, se a hipótese fosse verdadeira, forneceria mais evidências experimentais de que os neurônios líderes possuem muitas propriedades características (superior taxas de disparo, menor inibição, capacidade de conduzir a atividade da rede) das células condutoras em nosso modelo.

Além disso, as células condutoras em nosso modelo compartilham muitas propriedades com neurônios líderes que foram encontrados em estudos experimentais de uma ampla gama de diferentes culturas dissociadas de hipocampo e corticais obtidas de ratos embrionários, recém-nascidos (& # x0003c24h) e juvenis (P16 & # x0201317) [16 & # x0201320], tornando-os um fenômeno aparentemente onipresente de desenvolvimento de redes neuronais. No entanto, queremos enfatizar que os neurônios líderes até agora só foram investigados em culturas que expressam atividade em rajadas com períodos intermitentes mais longos de quiescência, ao passo que nosso modelo expressa atividade irregular assíncrona. As sub-redes emergentes de células condutoras em nosso modelo mostram propriedades dinâmicas semelhantes a conjuntos funcionais de neurônios líderes denominados & # x0201c circuitos primários & # x0201d [19] e & # x0201c zonas de iniciação de explosão & # x0201d [17] (no caso de culturas 1D) e são também estável por longos períodos de tempo [19]. Especificamente, descobriu-se que os neurônios líderes têm atividade de spiking superior à média [19] e formam circuitos funcionalmente bem conectados que lideram coletivamente a maioria dos bursts de rede observados [18, 19], semelhantes aos neurônios drivers em nosso modelo. Além disso, estudos experimentais recentes [18, 20] em neurônios líderes mostram que eles não apenas conduzem passivamente picos de população, mas também são capazes de dispará-los, semelhante ao nosso modelo em que a atividade de picos síncronos na sub-rede do driver pode disparar rajadas de rede. Em particular, sub-redes de neurônios líderes foram hipotetizadas para fornecer uma explicação dos padrões observados de atividade espontânea e evocada [18] e em nosso modelo encontramos exatamente essas sub-redes de neurônios condutores emergentes, embora de uma forma provavelmente muito mais simplificada do que ser esperado em redes biológicas.

Uma vez que nosso modelo permite a investigação da interação entre a dinâmica e a estrutura da rede, ele nos permite fazer previsões de propriedades estruturais de redes neurais que não foram investigadas experimentalmente até agora, bem como levantar outras questões que poderiam ser testadas experimentalmente. Com relação aos neurônios líderes, nosso modelo prevê que essas células recebam inibição reduzida. Além do suporte experimental discutido anteriormente para esta previsão, outra peça de evidência é dada pela descoberta de que zonas de iniciação de estouro em redes 1D de culturas em desenvolvimento de neurônios corticais (que correspondem a neurônios líderes no caso 2D) foram encontrados para ter um quase Densidade 3 vezes reduzida de neurônios inibitórios em comparação com áreas adjacentes [17], um efeito semelhante à inibição reduzida de neurônios motoristas que encontramos em nosso modelo. Se o mesmo também vale para neurônios líderes em culturas 2D, ainda precisa ser investigado. Outra observação decorrente de nosso modelo é que diminuir a quantidade de inibição presente na rede pode suprimir o surgimento de neurônios motoristas. Seria interessante ver como isso se relaciona com as descobertas experimentais que mostram que grupos de neurônios líderes se tornam instáveis ​​e expressam uma grande rotatividade de membros quando a cultura está sujeita a um bloqueio de GABAUMA receptores [17, 19].

Além disso, um estudo recente [11] registrando na Vivo de neurônios do hipocampo em ratos encontra uma distribuição de cauda longa das taxas de disparo com a atividade de cada célula sendo semelhante em uma infinidade de estados cerebrais diferentes e, ao mesmo tempo, uma forte evidência de uma distribuição de cauda longa de pesos sinápticos, avaliados por meio de probabilidades de transmissão de pico. Isso está relacionado a uma questão adicional levantada por nosso modelo, ou seja, se mais evidências experimentais podem ser encontradas para a existência de células e sub-redes (funcionais) de tais células que constituem a cauda longa das distribuições de taxas de disparo e pesos sinápticos. Para responder a esta pergunta, tanto as taxas de disparo quanto os padrões de conectividade sináptica de uma determinada população neural devem ser conhecidos, uma questão desafiadora e interessante para futuros trabalhos experimentais.

Conclusão

Neste artigo, examinamos a auto-organização de forças sinápticas não homogêneas em redes balanceadas. Além do desenvolvimento de distribuições de peso e taxa de cauda longa, observamos um agrupamento das sinapses de saída mais fortes em alguns neurônios que chamamos de neurônios direcionadores. Este agrupamento permanece qualitativamente o mesmo para diferentes modificações das regras STDP, regulamentos homeostáticos e topologia de rede. Nossos resultados analíticos demonstram como a rede aumenta pequenas inomogeneidades iniciais por uma combinação de três regras de plasticidade: STDP excitatório, STDP inibitório e plasticidade homeostática. Além disso, mostramos que o STDP inibitório pode servir não apenas para o propósito de estabilização de circuitos, mas também como pode ser central para a formação de estruturas em redes.


RESUMO

Em um primeiro aspecto da presente invenção, um aparelho inclui: pelo menos um neurônio artificial pré-sináptico gerando uma sequência de picos pré-sinápticos tendo um tempo, um neurônio artificial pós-sináptico compreendendo um potencial de membrana, um componente de regra de aprendizagem compreendendo uma eficácia sináptica e uma plasticidade sináptica , e a regra de aprendizado configurada para modificar a eficácia sináptica por uma regra de aprendizado. A regra de aprendizagem é baseada no tempo e nos descontos nas taxas de pico pré-sináptico.

Em um segundo aspecto da presente invenção, um aparelho inclui: pelo menos um neurônio artificial pré-sináptico gerando uma sequência de picos pré-sinápticos, um neurônio artificial pós-sináptico incluindo um potencial de membrana pós-sináptica e pelo menos uma sinapse de plástico fatigante conectada ao potencial de membrana pós-sináptica. O neurônio artificial pós-sináptico configurado para receber o conjunto de picos. As pelo menos uma sinapses plásticas fatigantes incluem uma eficácia tendo uma plasticidade dependente do tempo de pico e um componente fatigante. O componente fatigante reduz a eficácia com base no conjunto de picos de entrada.

Em um terceiro aspecto da presente invenção, um aparelho inclui: pelo menos um neurônio artificial pré-sináptico, configurado para gerar uma sequência de picos pré-sinápticos, um neurônio artificial pós-sináptico incluindo um potencial de membrana pós-sináptica e pelo menos uma sinapse plástica configurada para receber o conjunto de picos e para modificar o potencial de membrana pós-sináptica. A pelo menos uma sinapse plástica aprende com base em uma covariância normalizada da sequência de picos pré-sinápticos.

De acordo com um aspecto da presente invenção, existe um método, produto de programa de computador e / ou que realiza as seguintes operações (não necessariamente na seguinte ordem): (i) fornecer, por lógica de máquina, pelo menos um neurônio artificial pré-sináptico gerador uma sequência de picos pré-sinápticos tendo um tempo (ii) fornecendo, pela lógica da máquina, um neurônio artificial pós-sináptico compreendendo um potencial de membrana (iii) fornecendo, pela lógica da máquina, um componente de regra de aprendizagem compreendendo uma eficácia sináptica e uma plasticidade sináptica e ( iv) fornecer, pela lógica da máquina, o componente da regra de aprendizado configurado para modificar a eficácia sináptica por uma regra de aprendizado. Em que a regra de aprendizado é baseada no tempo e nos descontos nas taxas de pico pré-sináptico. Em que a regra de aprendizagem compreende: (i) um componente de covariância normalizado configurado para gerar uma matriz de covariância normalizada com base na sequência de picos pré-sinápticos e um componente de agrupamento configurado para modificar a eficácia sináptica de acordo com os clusters na matriz de covariância normalizada, ou (ii ) pelo menos uma sinapse plástica que está operativamente conectada a pelo menos um neurônio artificial pré-sináptico para receber a sequência de picos pré-sinápticos e modificar o potencial de membrana pós-sináptica com base na eficácia sináptica e na sequência de picos pré-sinápticos. Em que a eficácia sináptica compreende uma ponderação e uma normalização de taxa, e em que pelo menos uma sinapse plástica compreende um componente de plasticidade Hebbian configurado para modificar a ponderação e um componente de plasticidade dependente de taxa configurado para modificar a normalização de taxa. Em que o componente de plasticidade Hebbian compreende uma regra de plasticidade dependente do tempo de pico. Em que o componente de plasticidade dependente da taxa compreende uma regra de plasticidade de fadiga. Em que a sequência de picos pré-sinápticos é caracterizada por uma taxa de pico e a regra de plasticidade da fadiga é configurada para modificar a normalização de taxa de modo que cada pico na sequência de picos pré-sinápticos tenha um efeito reduzido no potencial de membrana quando a taxa de pico aumenta. Em que a pelo menos uma sinapse de plástico compreende: (i) um elemento de memória não volátil com características voláteis que correspondem à regra de plasticidade da fadiga, ou (ii) um circuito semicondutor de óxido metálico complementar digital (CMOS) ou um circuito CMOS analógico.


Reconhecimentos

Agradecemos A. Santoro e L. Maler pelos comentários sobre este manuscrito. Agradecemos também a M. Hilscher e M.J. Nigro por compartilhar dados sobre os neurônios SOM +. Além disso, agradecemos a T. Mesnard por ajudar no desenvolvimento do modelo baseado em taxas. Este trabalho foi apoiado por duas bolsas NSERC Discovery (para RN, no. 06872 e para BAR, no. 04947), uma bolsa CIHR Project (no. RN383647-418955), uma bolsa do Programa CIFAR Learning in Machines and Brains (para BAR), um prêmio Ontário Early Researcher (para BAR, no. ER 17-13-242), um Healthy Brains, Healthy Lives New Investigator Start-up (para BAR, no. 2b-NISU-8) da Novartis Research Foundation ( para FZ).


19.2.3 Modelos STDP generalizados

Há evidências consideráveis ​​de que a regra STDP baseada em pares discutida acima não pode fornecer uma descrição completa dos resultados experimentais com protocolos STDP.Especificamente, eles não reproduzem a dependência da plasticidade na frequência de repetição de pares de pontas em um protocolo experimental, nem os resultados de experimentos tripletos e quádruplos.

Aqui, revisamos dois exemplos de modelos simples que respondem por essas descobertas experimentais (394 99), mas existem outros modelos que também reproduzem a dependência de frequência, por exemplo, (469).


RESULTADOS

Codificação temporal com STDP independente.

Construímos um modelo de rede de spikes biologicamente consistente e expusemos o modelo a padrões temporais embutidos em ruído para determinar se os neurônios aprenderiam seletividade para o tempo relativo dos spikes em todo o padrão oculto e não apenas para spike coincidências em um ponto (como o início ) no padrão. A rede feed-forward incluiu uma camada de entrada (aferente) e uma camada de aprendizagem com cada aferente conectando-se a cada neurônio de aprendizagem por meio de uma sinapse (Fig. 1UMA) Para encorajar a seletividade do padrão temporal, modelamos atrasos dendríticos biologicamente realistas de 1–10 ms (Williams e Stuart 2003) para explicar a propagação da despolarização de cada sinapse para o soma. Modelamos a dinâmica dos neurônios de acordo com um modelo simples (Izhikevich 2003, 2007) usando parâmetros semelhantes a células piramidais.

Primeiro modelamos STDP como um cálculo independente de pares com acúmulo de mudanças de peso com base em pares pré-pós / pós-pré sequenciais (vizinhos). Descobrimos que alguns neurônios podem aprender a disparar seletivamente para diferentes partes de um padrão temporal, embora pelo menos no início da seletividade de aprendizagem, possa ser predominantemente para o início do padrão (Fig. 2). No entanto, a chance de aprendizado era baixa. Mesmo se a escala de peso fosse escolhida com cuidado, selecionando uma escala de peso α, que resulta em taxas de disparo nem baixas nem altas (levando a nenhuma mudança de peso ou saturação da força sináptica máxima, respectivamente), apenas um pequeno subconjunto de neurônios desenvolveu seletividade (& lt5 %). Além disso, a margem de ajuste para escala de peso era surpreendentemente estreita. Aumentar ou diminuir os pesos em apenas 10% (multiplicando α por 1,1 ou 0,9) fez com que a maioria dos neurônios parasse de disparar completamente ou disparasse continuamente.

Figura 2.Problemas na tentativa de aprender padrões temporais com uma rede neural de spiking usando STDP de pares independentes. Ou muito poucos neurônios respondem (por exemplo, 3 ou 4 de 100) ou eles disparam excessivamente (disparando continuamente) e, portanto, falham em distinguir o ruído do padrão. Os resultados do rastreamento de pico são mostrados para 3 níveis diferentes de escala de peso: baixo, nominal e alto. A escala de peso foi constante durante cada simulação. Para a configuração nominal, a escala de peso foi primeiro ajustada para obter a maior chance (número) de neurônios aprendendo a disparar seletivamente para o padrão. O experimento foi repetido usando uma escala de peso 10% menor (baixo) e 10% maior (alto) para demonstrar a sensibilidade. A instabilidade ocorreu apesar de uma área geral negativa para as curvas STDP. o y-eixo (linhas) corresponde ao ID do neurônio de aprendizagem. Os traços de pico são apenas aqueles de neurônios em aprendizagem (os traços de pico são mostrados para 100 neurônios). Os tempos durante os quais o padrão de 100 ms foi repetido são indicados por barras horizontais sólidas na parte inferior de cada traço de pico. Os picos no padrão foram sujeitos a jitter (σ), ruído aleatório Gaussiano independente com SD σ de 2 ms. Os resultados também são mostrados para 2 durações de aprendizagem: após 30 s de exposição (∼75 repetições do padrão) e após 5 min de exposição (∼750 repetições). UMA: os neurônios têm uma chance baixa de aprender a disparar seletivamente para o padrão se a escala de peso for baixa. B: os neurônios podem aprender a disparar seletivamente para o padrão se a escala de peso for escolhida com precisão. Infelizmente, mesmo assim, há pouca chance de um neurônio aprender o padrão. Os neurônios disparam durante o padrão e durante o ruído. C: se a escala de peso for aumentada para tentar fazer com que mais neurônios aprendam, eles disparam excessivamente. Além disso, a sensibilidade à escala de peso é alta. A escala baixa é apenas 10% menor do que o nominal e a escala alta é apenas 10% maior do que o nominal. D: permitir que os neurônios tenham mais tempo (repetição) para aprender não ajuda necessariamente, porque com o STDP pareado independente, os pesos mudam na direção errada. Uma vez que os pesos são reduzidos e o neurônio para de disparar, a oportunidade de aprender é perdida. Além disso, os neurônios que disparam durante o padrão tendem a fazê-lo no início do padrão (inserir, destaque em vermelho). E: mesmo com uma escala de peso ajustada, o aprendizado não melhora necessariamente com mais exposições, e os neurônios tendem a disparar durante o ruído e o padrão. F: da mesma forma, uma vez que os neurônios disparam excessivamente, o STDP de pares independente tende a manter a condição de disparos excessivos, independentemente das exposições (número de repetições).

A aprendizagem ampla e robusta no modelo foi prejudicada por duas consequências do STDP de pares: desestabilização e cancelamento de mudanças de força sináptica. A desestabilização ocorreu, não porque os pesos mudaram muito rápido (os pesos convergem bimodalmente para 0 ou 1), mas porque os pesos mudaram na direção errada (em direção a 0 em vez de 1 ou vice-versa) apesar da curva STDP ter uma área negativa geral. Em um contexto multispike com uma regra STDP de pares independente, os modelos LTP e LTD também podem se opor. Como resultado, a mudança sináptica geral pode ser amortecida ou flutuar (LTP e LTD dominam alternadamente) e, portanto, retardar ou impedir o aprendizado. De acordo com a regra STDP de pares independentes, um tripleto pré-pós-pré induz LTP devido aos dois primeiros picos, mas também induz LTD devido aos dois últimos picos. A mudança total de peso é, portanto, menor do que qualquer efeito individual.

Se há LTP ou LTD geral depende criticamente dos tempos relativos precisos e das curvas. A flutuação entre LTP e LTD com STDP independente de pares pode ser aguda com jitter de tempo de pico. O risco de inversão é evidente quando o tempo pré-pós e pós-pré é igual e próximo ao ponto onde as curvas LTP e LTD se cruzam com uma inclinação acentuada (Fig. 1, D e E) mesmo que os atrasos pré-pós e pós-pré sejam desiguais (Fig. 1F).

Codificação temporal com o modelo de recursos.

Em seguida, revisamos o modelo para lidar com essas dificuldades, incluindo nosso conceito de recurso compartilhado. O modelo de recursos é uma abstração de dependências compartilhadas entre os mecanismos LTP e LTD e tem três elementos: 1) o compromisso com a modificação da força sináptica é modulado por (uma função da) disponibilidade de recursos sinápticos compartilhados entre os mecanismos de potenciação e depressão 2) os recursos são consumidos ou esgotados pelo compromisso com LTP ou LTD, dependendo da magnitude da modulação invocada e 3) os recursos compartilhados na (ou para) a sinapse se reabastecem com o tempo. Assim, o modelo enfatiza qualquer mecanismo (LTP ou LTD) que dispara mais cedo após a recuperação dos recursos (Fig. 3). Em essência, enquanto LTP e LTD são interdependentes em uma determinada sinapse neste modelo de recurso compartilhado, o efeito STDP é mais consistente em termos de mudanças de força sináptica.

Fig. 3.O modelo de recursos compartilhados de plasticidade sináptica explicado com trigêmeos. Os recursos compartilhados são comprometidos com o acionamento de mecanismos LTP ou LTD. Barras verticais indicam picos pré-sinápticos ou pós-sinápticos. Os rastreamentos (em Recurso) refletem a disponibilidade de um recurso comum ou recursos na sinapse. UMA: LTP pode dominar em um tripleto pré-pós-pré com pequenos atrasos. O primeiro par pré-pós dispara LTP substancial com um grande comprometimento de recursos. O recurso se recupera com o tempo, mas não é totalmente recuperado quando ocorre o segundo pico pré-sináptico. Como resultado, LTD é substancialmente limitado devido à falta de recursos compartilhados para comprometer. Em contraste, com um STDP de pares independente, o LTP seria cancelado por um grande LTD. B: LTP também pode dominar em um tripleto pós-pré-pós se o primeiro pico pré-sináptico e pico pós-sináptico forem separados por um grande atraso. O LTD acionado é pequeno e, conseqüentemente, apenas um pequeno comprometimento de recursos é necessário. Um segundo pico pós-sináptico ocorre logo após o pico pré-sináptico e, a essa altura, o recurso se recuperou quase totalmente, de modo que uma mudança LTP completa é acionada. O resultado é semelhante a um STDP independente de pares apenas porque os recursos geralmente estão disponíveis quando as alterações de intensidade são acionadas. C: nenhuma, ou pouca mudança de peso pode ocorrer se trigêmeos estiverem substancialmente espalhados no tempo por causa das curvas STDP. No entanto, poucos recursos são consumidos, porque qualquer efeito LTP ou LTD é pequeno. Observe que aproximar os picos no tempo não resultaria em LTP e LTD cancelando um ao outro sob essas suposições de trigêmeos isolados e recursos completos. Em vez disso, a situação seria como em DE ANÚNCIOS: LTD pode dominar em um trio isolado pós-pré-pós com pequenos atrasos. O comprometimento de recursos necessário para o grande LTD significa poucos ou nenhum recurso disponível para comprometer com LTP. Em contraste, com um STDP de pares independente, o LTD seria cancelado por um grande LTP. No modelo de recursos, enquanto o LTP e o LTD compartilham recursos, os efeitos do STDP nas mudanças de peso são mais consistentes. Se o LTP disparar uma grande mudança de peso, um gatilho LTD subsequente (se ocorrer logo depois) é menos provável de contrariar (cancelar) o efeito LTP. Se LTP ou LTD domina em um regime de alta taxa de disparo (compare UMA vs. D) depende se, para começar, os recursos estão disponíveis. Aqui, os recursos foram considerados disponíveis no início do trio, mas os recursos podem já estar consumidos se a taxa de disparo for alta e o trio não estiver ocorrendo isoladamente. Em tal caso, se LTP ou LTD ocorre em geral dependerá do tempo de pico, taxa, curvas STDP, constante de tempo de recuperação de recurso e recursos disponíveis no início.

Com o modelo de recursos, a maioria dos neurônios aprendeu a disparar seletivamente em um padrão temporal (Fig. 4). Além disso, os neurônios aprenderam rapidamente, exibindo seletividade estável em 30 s (& lt100 observações do padrão), e a seletividade melhorou continuamente ao longo de 5 min. O modelo de recursos também exibiu um efeito homeostático proativo: os neurônios nem aquecem nem sobreaquecem, independentemente da escala de peso. A seletividade para o padrão foi diversa (distribuída ao longo da duração do padrão Fig. 4). Assim, os neurônios podem ser usados ​​para reconhecer um padrão temporal completo e preciso, porque cada neurônio geralmente responde a uma parte diferente do padrão (subconjunto diferente de picos aferentes). Isso é facilitado pelos atrasos dendríticos aleatórios, em oposição à inibição lateral ou pesos aleatórios.

Fig. 4.Aprendizagem de padrões temporais com uma rede neural de spiking usando o modelo de recursos compartilhados de plasticidade sináptica. Com o modelo de recursos, os neurônios têm uma grande chance de aprender a disparar seletivamente para o padrão. O aprendizado é robusto para a escala de peso e o aprendizado é diversificado em termos de neurônios aprendendo a disparar para diferentes partes do padrão. Os resultados do rastreamento de pico são mostrados para as mesmas 3 escalas de peso diferentes (baixo, nominal e alto), conforme usado com STDP de pares independentes (consulte a Fig. 2). Essas configurações foram ajustadas para STDP de pares e não alteradas para uso com o modelo de recursos. o y-eixo (linhas) corresponde ao ID do neurônio de aprendizagem. Os traços de pico são apenas aqueles de neurônios em aprendizagem (os traços de pico são mostrados para 100 neurônios). Os picos no padrão foram sujeitos a jitter, ruído aleatório Gaussiano independente com SD (σ = 2 ms). A – C: uma grande proporção de neurônios aprende a disparar seletivamente para o padrão em um tempo relativamente curto, após 30 s de exposição (∼75 repetições do padrão). O desempenho é relativamente independente da escala de peso. D – F: o aprendizado continua a melhorar com mais exposições do padrão. Isso se deve a um efeito homeostático proativo do modelo de recursos, que tende a gerenciar a atividade de disparo dos neurônios, de modo que eles não entrem em um regime de disparo excessivo ou insuficiente. Com o modelo de recursos, mesmo que os neurônios não tenham aprendido o padrão ainda, eles continuam a disparar durante o ruído e, portanto, não perdem a oportunidade de aprender o padrão no futuro. Após 5 min de exposição (∼750 repetições), a maioria dos neurônios aprende o padrão (& gt75%), relativamente poucos neurônios disparam durante o ruído. A seletividade também é diversa na duração do padrão (ver inserir, destaque vermelho, de disparo durante o padrão).

Descobrimos que o aprendizado de padrões temporais melhorou significativamente com o modelo de recursos (Fig. 5). A seletividade geralmente se desenvolveu mais rápido e em um grau mais alto do que com STDP independente, independentemente do nível de jitter no padrão oculto. O modelo proporcionou tal robustez de aprendizagem que a seletividade da população de neurônios para um padrão com jitter de tempo substancial (até quase metade do atraso dendrítico máximo) ainda era muito superior ao modelo STDP independente sem qualquer jitter (e com peso ajustado dimensionamento Fig. 5UMA) Aprender sem o modelo de recursos tornou-se quase impossível com jitter (& lt5% de chance após 300 s para σ = 4 ms). Além disso, com o modelo de recursos, a seletividade continuou a melhorar (ou seja, após 30 s). Em contraste, a aprendizagem era limitada sem o modelo de recursos porque, uma vez que os pesos de um neurônio diminuíam muito, o neurônio parava de disparar e a oportunidade de aprender era perdida e, uma vez que os pesos de um neurônio aumentavam muito, a condição de sobreaquecimento era irrecuperável (Fig. . 2).

Fig. 5.Emergência de seletividade para um padrão de tempo de pico usando o modelo de recursos compartilhados de plasticidade sináptica. UMA: com o modelo de recursos (azul), uma população de neurônios aprendeu consistentemente a pular seletivamente para um padrão repetido escondido no ruído. A seletividade foi definida como a proporção de neurônios disparando seletivamente (apenas) para o padrão. A seletividade surgiu mais rápido e em um grau mais alto do que com STDP independente (Indep.) (Verde), independentemente do nível de jitter nos picos do padrão repetido. Os picos no padrão foram sujeitos a jitter de temporização gaussiana independente com SD σ. Observe que este resultado foi obtido apesar de dar uma vantagem ao STDP independente: dada a sensibilidade da regra STDP independente à escala de peso (Fig. 2), ajustamos a escala de peso para essa regra para o padrão fornecido (semente aleatória) para maximizar a seletividade em seguida, usamos a mesma escala para o modelo de recursos (que é insensível a este parâmetro Fig. 4). Com o modelo de recursos, o aprendizado de seletividade diminuiu conforme o jitter foi aumentado, mas permaneceu viável mesmo com jitter de alta temporização (4 ms é quase 1/2 da faixa de atraso dendrítico de linha azul sólida de 10 ms) quando o aprendizado com STDP independente era improvável (sólido Linha verde). B: a seletividade final com o modelo de recursos foi consistente em diferentes padrões. A seletividade foi medida após 100 s de simulação para 10 padrões diferentes em cada caso. A seletividade final teve um SD de ∼20%, independentemente do jitter. Aqui, uma escala de peso nominal foi usada (sem ajuste fino / padrão). Como resultado, sem o modelo de recursos, a seletividade costumava ser próxima ou igual a 0. C: a seletividade com o modelo de recursos melhorou com uma constante de tempo de recuperação mais longa, mas a melhoria diminuiu quando a constante de tempo excedeu ∼45 ms. O desempenho foi relativamente insensível à constante de tempo de recuperação de recurso precisa τr contanto que fosse aproximadamente da ordem de, ou maior do que, as janelas de tempo LTP / LTD devido aos seguintes motivos. Em τr = 0 ms, o recurso se recupera imediatamente e o modelo é equivalente ao modelo STDP independente. Com STDP independente, LTP e LTD acionam o mesmo conjunto de picos quando eles estão dentro das janelas de tempo LTP e LTD (por exemplo, trigêmeos). Contanto que a constante de tempo de recuperação de recursos esteja na ordem das constantes de tempo LTP e LTD, o efeito estabilizador do modelo de recursos é alcançado. D: diversidade na seletividade a padrões com o modelo de recursos melhorada com heterogeneidade de retardo. Uma célula pós-sináptica é tecnicamente seletiva apenas para os picos aferentes antes do disparo da célula pós-sináptica. Uma vez que reconhecer um padrão inteiro é valioso, a diversidade no tempo dos tempos de disparo das células pós-sinápticas em relação ao padrão aferente é desejada. Considerando que a seletividade geral para os padrões (linha azul contínua) teve pouca mudança estatisticamente significativa, a diversidade (ou variância) da seletividade (linha azul tracejada) para diferentes partes dos padrões melhorou significativamente, conforme desejado. Considerando que a diversidade na seletividade pode ser vista por exemplo (Fig. 4, inserir, destacado em vermelho), uma métrica quantitativa estabelece isso como um resultado geral. A métrica de diversidade foi definida como o SD no tempo dos picos em relação ao início do padrão, normalizado para 1/2 da duração do padrão quanto mais espalhado pelo padrão, mais diversa é a seletividade. Toda a diversidade inicial foi devido a atrasos dendríticos porque eles foram randomizados dentro de um determinado intervalo (por exemplo, [1, 10] ms), mas todas as células foram conectadas a todas as entradas e todos os pesos foram inicializados da mesma forma (para 1/2). Mesmo um pequeno grau de heterogeneidade de atraso (por exemplo, [1, 2] ms) foi útil, permitindo o reconhecimento de diferentes subpadrões dentro de um padrão de pico temporal maior. E: com o modelo de recursos, os pesos convergiram para uma distribuição bimodal estável. A cor da função de distribuição cumulativa (CDF) reflete o tempo (de vermelho / laranja no início a rosa no final). Enquanto os pesos sinápticos foram todos inicializados da mesma forma, para 1/2 (preto), a distribuição dos pesos sinápticos convergiu de modo que os pesos se agruparam em torno de 0 e 1. F: com o modelo de recursos, os pesos sinápticos convergiram para a distribuição bimodal de maneira rápida, consistente e estável, quer a conectividade fosse total ou aleatória e independentemente do jitter no padrão oculto. o y-eixo é logarítmico. Conectividade aleatória significa que uma célula pode ter sinapse & gt1 para algumas entradas e pode não ter sinapses para outras entradas (o número total de sinapses permanece o mesmo que tudo-para-todos).

A caracterização do modelo de recursos revelou o surgimento consistente e robusto de seletividade. Com o modelo de recursos, a seletividade final da rede (após 100 s) era forte, independentemente do jitter (Fig. 5B) Mesmo com jitter com SD σ de até 2 ms, não era incomum que quase todas as células disparassem seletivamente para um padrão. A seletividade degradou-se graciosamente à medida que o jitter no padrão aumentou, mas a variância na seletividade foi relativamente insensível ao jitter. Em contraste, sem o modelo de recursos, a seletividade era difícil de obter, mesmo sem qualquer jitter. Com o modelo de recursos, o surgimento de seletividade para o padrão dependeu criticamente da constante de tempo de recuperação de recursos τr (Fig. 5C) Considerando que uma constante de tempo de recuperação substancialmente diferente de zero (& gt15 ms) foi necessária para mais do que a seletividade marginal, a seletividade atingiu próximo ao máximo com uma constante de tempo de 45 ms com diminuição decrescente daí em diante. Observe que, neste último ponto, a janela de tempo de recuperação está na ordem das janelas de tempo LTP e LTD (Fig. 1C), que determinam quando os picos em um motivo multispike têm efeitos LTP e LTD sobrepostos com STDP independente. Em outras palavras, o modelo de recurso suprimiu-se mutuamente, cancelando os efeitos LTP e LTD, disparados dentro da janela de tempo de recuperação do recurso.

Também quantificamos como o aprendizado de padrão temporal com o modelo de recursos foi melhorado com heterogeneidade de atraso dendrítico (Fig. 5D) Considerando que houve pouca ou nenhuma mudança estatisticamente significativa na seletividade geral com o aumento da heterogeneidade de retardo, houve uma melhora significativa em quão diversamente seletivas as células eram para diferentes partes de cada padrão de 100 ms. Especificamente, a métrica de diversidade mais do que triplicou para 0,34 (ou uma variação de 289 ms 2) ao usar atrasos heterogêneos (na faixa [1, 10] ms) de 0,10 (ou uma variação de 25 ms 2) ao usar atrasos homogêneos ( todos 1 ms). Mesmo um pequeno grau de heterogeneidade de atraso (por exemplo, [1, 2] ms) foi útil, permitindo o reconhecimento de diferentes subpadrões (ver também a Fig. 4 comparar a Fig. 2). Com o modelo de recursos, os pesos também convergiram para uma distribuição bimodal estável de maneira rápida, consistente e estável (Fig. 5E) independentemente da conectividade ou jitter no padrão oculto (Fig. 5F) A distribuição de peso com STDP independente par-sábio era bimodal semelhante se os modelos convergissem (seletividade desenvolvida), mas uma vez que as células normalmente eram disparadas insuficientemente (disparadas interrompidas) ou disparadas excessivamente (disparadas continuamente), a distribuição de pesos era frequentemente aleatória ( a partir do último disparo) ou maximizado (devido ao disparo constante).

Predições de plasticidade em trens de espinhos naturais.

Surpreendentemente, descobrimos que o modelo de recursos era notavelmente bom em prever LTP e LTD, conforme observado com tripletos e quádruplos de pico de registros de células inteiras de neurônios piramidais na camada 2/3 de fatias corticais visuais de roedores (Froemke e Dan 2002 Froemke et al . 2010) (Fig. 6). Para comparação, modelamos regras STDP de pares independentes em duas formas: um agregado de todas as combinações de pares e um agregado de pares de sequência apenas. Também simulamos o modelo de supressão (Froemke e Dan 2002 Froemke et al. 2006), que determina a mudança de peso sináptica com base em todas as combinações de pares pré-pós e modula a mudança de peso sináptica para cada par pré-pós com base no tempo do imediatamente precedentes (penúltimos) potenciais de ação pré e pós-sinápticos, bem como o tempo relativo do par de pico. Especificamente, a modulação de cada par contribuinte depende da eficácia dos picos pré-sinápticos e pós-sinápticos. Cada uma dessas eficácias é definida de forma independente. A eficácia pré-sináptica depende apenas do intervalo interspike para o neurônio pré-sináptico, e a eficácia pós-sináptica depende apenas do intervalo interspike para o neurônio pós-sináptico.

Fig. 6.Predição de mudanças experimentalmente observadas nas forças sinápticas (EPSPs). As previsões de 4 modelos são comparadas com gravações in vitro de células piramidais do córtex visual de roedores (Froemke e Dan 2002). Os 4 modelos são: STDP independente de pares com todos os emparelhamentos de picos pré-sinápticos e pós-sinápticos (consecutivos ou não) STDP de pares independentes com apenas emparelhamentos sequenciais (vizinhos consecutivos) de picos pré-sinápticos e pós-sinápticos, o modelo de supressão de eficácias e os compartilhados modelo de recursos. As previsões foram calculadas para 85 trigêmeos de espículas e 25 quádruplos de espigas. Ajustes lineares aos dados também são mostrados e rotulados à esquerda. UMA: as previsões para tripletos de pico mostram que as regras STDP de pares independentes têm um grande número de erros de sinal ou erros de reversão (prevendo LTP em vez de LTD ou vice-versa), enquanto os modelos de supressão e recursos compartilhados não: 34 para STDP de pares independentes , 5 para supressão e 7 para recurso. B: as previsões para quádruplos mostram uma tendência semelhante: 14 erros de reversão para STDP independente de pares, 5 para STDP de par sequencial independente, 3 para supressão (eficácia) e 3 para recurso.

É interessante que ambos os modelos STDP de pares independentes fizeram muitos erros de predição (reversão) de LTP-LTD, isto é, prevendo LTP em vez de LTD e vice-versa. A análise revelou que esses erros em casos de trigêmeos foram devidos a trigêmeos pré-pós-pré e pós-pré-pós quase inteiramente (Fig. 7UMA) Além disso, esses erros ocorreram quando o atraso entre o primeiro e o segundo pico foi da ordem de 10 ms, e o atraso entre o segundo e o terceiro pico foi de 10 ms (Fig. 7B) Examinando esses intervalos nas curvas LTP e LTD (Fig. 1UMA), podemos ver como uma pequena mudança pode reverter (desestabilizar) a tendência de LTP para LTD ou vice-versa porque LTP tem um pico mais alto (UMA+ & gt UMA--), mas LTD tem uma cauda mais longa (τ-- & gt τ+) Um segundo problema com STDP independente ficou aparente a partir da distribuição de previsões (Fig. 7C) Em particular, as distribuições agruparam-se em torno de zero para trigêmeos.

Fig. 7.Análise de erros de previsão e distribuição. UMA: erros de predição STDP de pares independentes que revertem LTP e LTD (prediz LTP em vez de LTD ou vice-versa) são predominantemente devidos a tripletos pré-pós-pré e pós-pré-pós. Esses erros são efetivamente os mesmos, independentemente de todos os pares ou apenas os pares sequenciais de pico pré-sináptico e pós-sináptico serem considerados para a regra. Esses trigêmeos contribuem com 83% dos erros de reversão: 39% prevêem LTD em vez de LTP, e 44% prevêem LTP em vez de LTD. B: uma análise desses trigêmeos que causam erros de reversão mostra uma característica interessante dos tempos dos trigêmeos. Seja prevendo LTD em vez de LTP (pré-pós-pré-trigêmeos) ou LTP em vez de LTD (pós-pré-pós-trigêmeos), os casos que causam erros têm uma distribuição de tempo estreita: o primeiro pico geralmente ocorreu ∼10 ms antes do segundo e a 3ª ocorreu, dentro de 10 ms depois. Isso está na faixa do ponto onde as curvas LTP e LTD se cruzam (ver Fig. 1UMA), e as regras STDP de pares independentes são sensíveis ao tempo preciso em termos de se LTP ou LTD domina. C: o CDF de previsões de trigêmeos e dados reais reflete o quão bem cada modelo corresponde quantitativamente à magnitude das mudanças de força. Os dados reais são distribuídos uniformemente (linha preta) e são mais bem correspondidos pelas previsões do modelo de recursos (linha azul). Em contraste, os modelos STDP de pares independentes (linhas verdes claras e escuras) têm distribuições unimodais (a maioria das previsões se agrupam perto de mudança de peso 0), e o modelo de supressão é bimodal (linha vermelha particularmente agrupando para LTD ∼ − 0,25). D: os CDFs das mudanças de peso quádruplas reais e previstas refletem a modelagem próxima dos dados experimentais (linha preta) pelo modelo de recursos (linha azul). Em contraste, os modelos STDP de pares independentes tendem para LTD, e o modelo de supressão novamente tem uma distribuição bimodal (particularmente agrupamento para LTP ∼0,25).

Os modelos de recurso e supressão compartilhados corrigiram a maioria dos erros de predição de reversão LTP / LTD feitos por modelos STDP pares independentes (& lt15% de erro Tabela 1). Se um modelo cometeu mais ou menos erros dependeu da curva STDP precisa. No entanto, o modelo de recursos teve uma boa inclinação de ajuste linear (Fig. 6B e Tabela 1), impacto de erro de reversão baixa (produto médio da previsão errônea e Tabela 1 real), e tinha uma distribuição de previsão que se aproximava dos dados experimentais (Fig. 7, C e D) O modelo de supressão tinha uma distribuição mais bimodal, de modo que o agrupamento é discernível em gráficos de dispersão para tripleto LTD (Fig. 6UMA) e LTP quádruplo (Fig. 6B).

Tabela 1. Estatísticas de erro de previsão do modelo

STDP, plasticidade dependente do tempo de pico.

No entanto, a similaridade das previsões de recursos e eficácia sugeridas por esta comparação até agora é condicional. Na Fig. 6, assumimos que todos os recursos estavam disponíveis antes que o tripleto ou quádruplo ocorresse (ou seja, tripletos e quádruplos ocorrem isoladamente na ausência de fundo significativo, atividade espontânea) como nos experimentos (Froemke e Dan 2002 Froemke et al. 2010). No entanto, se um trio ou quádruplo ocorrer entre outras atividades de spiking, o comportamento do modelo de recursos será dramaticamente diferente (Fig. 8, C e D).

Fig. 8.Previsões gerais LTP e LTD para trigêmeos. Os trigêmeos são caracterizados pelo tempo entre os primeiros 2 picos t1 e o tempo entre os 2 2 picos t2. As previsões de LTP geral (vermelho) ou LTD (azul) são traçadas para todas as 6 combinações de tripletos em todos os valores possíveis para os atrasos de tempo entre 0 e 50 ms. UMA: modelo STDP independente em pares. Desenhos triplos são mostrados no quadrante correspondente ao tripleto e são iguais para os outros modelos. B: modelo de supressão. O modelo de supressão comprime o efeito LTP perto da origem e estende LTD no inferior esquerdo quadrante (setas brancas contínuas). C: modelo de recursos compartilhados com poucos (nenhum) recursos disponíveis antes que ocorra o trio. Quando os recursos são baixos antes do tripleto, as previsões do modelo de recursos são notavelmente diferentes do STDP independente de pares e do modelo de eficácia. LTP torna-se mais dominante para pós-pré-pós (canto inferior direito quadrante próximo à origem), particularmente em uma alta taxa de tiro (seta preta sólida), e principalmente dependente de t2, como seria de se esperar devido ao tempo necessário para recuperar os recursos. Um efeito semelhante ocorre para pré-pós-pré a uma alta taxa de disparo (superior esquerdo quadrante próximo à origem) e principalmente dependente de t1. Assim, o LTP pode dominar em altas taxas de disparo, independentemente de qual pico (pré ou pós) ocorre primeiro. Regiões LTP e LTD fortes também aparecem em grandes valores de t1 (setas destacadas), e LTP é esticado para trigêmeos com atrasos de tempo mais longos (seta branca contínua). A transição entre as zonas LTP e LTD em trigêmeos pré-pós-pré e pós-pré-pós, se houver, também é marcadamente mais lenta (inclinação mais suave) com o modelo de recursos. D: modelo de recursos compartilhados com altos (todos) os recursos disponíveis antes que ocorra o trio. Quando os recursos estão disponíveis no início do trio (como seria de se esperar para baixas taxas de disparo ou trios isoladamente), o modelo de recursos parece mais semelhante ao modelo de supressão. No entanto, LTP ainda é enfatizado quando t2 é pequeno (setas pretas sólidas) e a dependência tende a se concentrar mais em um dos pares de pontas (setas brancas sólidas).

Características exclusivas do modelo de recursos podem ser vistas na análise de varredura tripla (Fig. 8). O fato de os recursos estarem disponíveis (altos) ou ausentes (baixos) antes de ocorrer o trio tem um efeito marcante no comportamento de previsão. Com poucos recursos para começar, muitas das regiões LTD desaparecem, particularmente para pequenos intervalos entre picos (altas taxas de tiro Fig. 8C), indiscutivelmente consistente com dados experimentais sugerindo LTP em altas taxas de disparo, independentemente da ordenação precisa do par de spikes (Nelson et al. 2002). Ao mesmo tempo, algumas regiões de LTD mais estreitas podem ser enfatizadas (por exemplo, pós-pós-pré). Curiosamente, a presença de relações causais próximas (pré antes pós) é enfatizada (Fig. 8C) A razão para a robustez do jitter de temporização também é evidente pela suavização do efeito. No entanto, quando os recursos estão disponíveis, a ênfase pode ser mais particular no sentido de direção e tempo para a relação causal ou anticausal mais próxima ou mais próxima (por exemplo, para o tempo de pós-pré ou pré-pós). As previsões também podem ser amplamente independentes do tempo entre os segundos dois picos (visíveis como bandas verticais) quando os primeiros dois picos do tripleto são da mesma célula (LTP: pré-pré-pós-LTD: pós-pós-pré).

O modelo de recursos também previu em altas taxas de pico para pares de pico repetidos que o LTP dominaria e o LTD desapareceria em grande parte (Fig. 9). Isso é consistente com estudos baseados em taxas (Sjostrom et al. 2001). O modelo STDP independente em pares previu LTP ou LTD dependendo quase inteiramente do deslocamento, isto é, para cada poste, se o pré antes do poste está efetivamente mais próximo no tempo do que o pré depois do poste. O perfil da predição pós-pré-sequência (Fig. 9D) é invertido daquele do perfil da previsão de sequência pré-pós, o que é esperado, dada a independência de LTP e LTD neste modelo (deslocamento x é aproximadamente equivalente a compensar 100 - x) O resultado do modelo de supressão previu a dominância de LTP ou LTD em alta frequência, dependendo se a sequência começou com um pico pré-sináptico ou um pico pós-sináptico, respectivamente. No entanto, o modelo de recursos previu exclusivamente a dominância de LTP em altas taxas com o desaparecimento quase completo de LTD. Além disso, esta previsão de LTP em uma taxa alta (acima de ∼40 Hz) foi independente se a sequência começou com um pico pré ou pós-sináptico [exceto para a pequena zona de LTD fraca (Fig. 9H) devido ao nível de recurso inicial, formas específicas de curvas LTP e LTD subjacentes e magnitudes de diferença de tempo próxima de zero entre pré e pós]. A transição de LTD para LTP dependeu do deslocamento com uma transição ocorrendo aproximadamente entre 25 e 50 Hz. Os resultados desses modelos são consistentes com os intervalos de transição vistos em resultados experimentais (Sjostrom et al. 2001). No entanto, o ponto exato em que o LTP domina no modelo varia dependendo do deslocamento pré-pós (ou pós-pré) preciso.

Fig. 9.Predições LTP e LTD dependentes da taxa para pares de pico pré e pós-sinápticos repetidos. UMA e B: pares pré-pós e pós-pré repetidos, respectivamente, são caracterizados pelo período de repetição e o deslocamento entre os pré e pós-picos. O período (taxa) variou entre 10 ms (100 Hz) e 100 ms (10 Hz). Os pares foram repetidos 10 vezes. A compensação pré-pós foi medida em relação ao período. Um deslocamento de 0% significa que os pré e pós-picos estão alinhados. Um deslocamento de 100% significa que o pré ou pós está alinhado com o próximo pós ou pré, respectivamente. Uma sequência de pares pré-pós repetidos com um deslocamento de x% é exatamente o mesmo que uma sequência de pares pós-pré repetidos com o mesmo período e deslocamento de (100 - x%) exceto que no primeiro, a sequência começa com um pico pré-sináptico e termina com um pico pós-sináptico, e no último, a sequência começa com um pico pós-sináptico e termina com um pico pré-sináptico. As sequências repetidas foram submetidas ao modelo STDP de pares independente, ao modelo de supressão e ao modelo de recursos para determinar como a mudança de peso sináptica geral para cada sequência de picos dependeria da taxa (período) e deslocamento. C e D: o modelo STDP independente em pares previu LTP ou LTD dependendo quase inteiramente do deslocamento, ou seja, para cada poste, se o pré antes do poste estava efetivamente mais próximo no tempo do que o pré após o poste. Como esperado, devido à independência de LTP e LTD neste modelo, o perfil da predição pós-sequência pré (D) é invertido do perfil da predição da sequência pré-pós (deslocamento x é aproximadamente equivalente a compensar 100 - x C). E e F: o modelo de supressão previu a dominância de LTP ou LTD em alta frequência, dependendo se a sequência começou com um pico pré-sináptico ou um pico pós-sináptico, respectivamente. G e H: o modelo de recursos proposto é único no sentido de que previu a dominância de LTP em alta taxa com o desaparecimento quase completo de LTD (exceto para a pequena zona de LTD fraca no canto superior direito canto de H, que é devido à forma precisa e magnitude da curva STDP perto da origem e a quantidade de recursos para começar, dado que a sequência começa com um post). Além disso, essa previsão de LTP em alta taxa foi amplamente independente se a sequência começou com um pico pré ou pós-sináptico. Isso é o esperado da análise de trigêmeos com poucos recursos para começar (Fig. 8C) A singularidade do modelo de recursos a este respeito também é consistente com a análise das previsões STDP de pares independentes atribuindo erros de reversão LTP / LTD pelo modelo independente a tripletos curtos pré-pós-pré e pós-pré-pós (Fig. 7, UMA e B).


Conclusão

A modulação DA de STDP fornece uma solução elegante para o problema distal de recompensa / atribuição de crédito: apenas os padrões de pico quase coincidentes são reforçados pela recompensa, enquanto os picos não correlacionados durante o período de atraso para a recompensa não afetam os traços de elegibilidade (variáveis c) e, portanto, são ignorados pela rede. Em contraste com estudos teóricos anteriores, 1) a rede não precisa ficar quieta durante o período de espera pela recompensa e 2) os padrões de ativação da recompensa não precisam ser retidos pela atividade recorrente dos neurônios. Se um padrão de pico de um repertório potencialmente ilimitado de todos os padrões possíveis, de forma consistente, precede ou desencadeia a recompensa (mesmo segundos depois), as sinapses responsáveis ​​pela geração do padrão são elegíveis para modificação quando a recompensa chega e o padrão é consistentemente reforçado (creditado). Mesmo que a rede não saiba qual padrão foi creditado, é mais provável que gere o mesmo padrão no mesmo contexto comportamental no futuro.

O autor agradece a Gerald M. Edelman, Joseph A. Gally, Niraj S. Desai, Jeff L. Krichmar, Elisabeth C. Walcott, Anil Seth, Jason G. Fleischer, Botond Szatmary, Doug Nitz, Jeff L. McKinstry e Wulfram Gerstner por ler o rascunho anterior do manuscrito e fazer sugestões úteis. O problema da atribuição de crédito foi apontado ao autor por Olaf Sporns em 2000. Esta pesquisa foi financiada pela Neurosciences Research Foundation. Este material é baseado no trabalho apoiado pela National Science Foundation sob o Grant nº 0523156 (quaisquer opiniões, descobertas e conclusões ou recomendações expressas neste material são de responsabilidade do autor e não refletem necessariamente as opiniões da National Science Foundation). Conflito de interesses: Nenhum declarado.